Rabbit624

2019年3月20日

摘要： Standalone是 spark自带的资源管理框架，类似 yarn。 yarn中有resourcemanager 和 nodemanager 两个进程，resourcemanager负责管理整个集群的资源，nodemanager负责管理自己所在节点的资源以及启动container。在Standa 阅读全文

posted @ 2019-03-20 19:17 Rabbit624 阅读(491) 评论(0) 推荐(0)

2019年3月19日

spark的运行模式之 ==> 本地运行模式

摘要：所谓运行模式，就是指spark应用跑在什么地方。mr程序可以在本地运行，也可以提交给yarn运行。这个概念是一样的。跟其他Hadoop生态圈的组件一样，spark也需要JDK的环境，此外还需要SCALA环境。所以在安装spark之前要先安装好JDK和SCALA。（我的 jdk 版本是 1.8 阅读全文

posted @ 2019-03-19 17:07 Rabbit624 阅读(2402) 评论(0) 推荐(0)

Hbase Java API 测试代码

摘要： package com.rabbit.hadoop.testEnv; import java.io.IOException;import java.util.List;import java.util.concurrent.ExecutorService;import java.util.concu 阅读全文

posted @ 2019-03-19 09:36 Rabbit624 阅读(393) 评论(0) 推荐(0)

2019年3月18日

hive的UDF函数示例==> 时间格式转换

摘要： UDF函数实现一行输入对应一个输出。在Hive中提供了时间格式到时间戳的转换，但是对于特殊的时间格式需要做一个预处理。比如"31/Aug/2015:00:04:37 +0800" 这种形式，需要将它解析成可以识别的时间格式，而且要去掉首尾的双引号 package com.rabbit.hadoop 阅读全文

posted @ 2019-03-18 18:51 Rabbit624 阅读(1039) 评论(0) 推荐(0)

自己编写MapReduce实现 Hive 的 join

摘要： Hive中自带有 join 语法，但是想用mr程序来自己实现一下 join 语法，巩固一下对mr的理解。比如: 有一个用户表，有三个字段： userId，userName，address 有一个订单表，有四个字段：userId，orderId，categoryId，price 用户信息： 100 阅读全文

posted @ 2019-03-18 17:30 Rabbit624 阅读(738) 评论(0) 推荐(0)

进阶程序 ==> 二次排序

摘要： mr会自动对key按字典序排序，而不会对value排序。如果想对value进行排序，就要自己手动写逻辑来实现针对value的二次排序。比如有这样一个文件： a 1b 3a 5d 10a 4b 8d 9c 2b 5c 1 经过排序后，变成这样： a 1a 4a 5b 3b 5b 8c 1c 2d 9 阅读全文

posted @ 2019-03-18 16:55 Rabbit624 阅读(343) 评论(0) 推荐(0)

入门程序 ==> WordCount

摘要： package com.rabbit.hadoop.mapreduce; import java.io.IOException;import java.util.StringTokenizer; import org.apache.hadoop.conf.Configuration;import o 阅读全文

posted @ 2019-03-18 13:04 Rabbit624 阅读(214) 评论(0) 推荐(0)

scala的模式匹配 ==> 一目了然的示例

摘要： scala的模式匹配类似于 java 的 switch case ，然而又有所不同。scala中不仅可以匹配变量的值，还可以匹配类型。 scala的模式匹配中没有break语句，一旦发现匹配成功就立刻返回，不会有java中case穿透的问题。但是scala的模式匹配最好写上类似java switc 阅读全文

posted @ 2019-03-18 11:20 Rabbit624 阅读(287) 评论(0) 推荐(0)

2019年3月15日

一段练习的代码

摘要：原本的例子是一个不算复杂的功能：删除数组中第一个负数之后的所有负数。比如：阅读全文

posted @ 2019-03-15 17:07 Rabbit624 阅读(137) 评论(0) 推荐(0)

2019年3月14日

scala中的下划线代替实参变量 ==> 分析一个乍看不知道在嘎哈的函数

摘要： //定义一个函数 scala> def multiple(func: Int => Int, a :Int) = {func(a)}multiple: (func: Int => Int, a: Int)Int //调用 scala> multiple((a:Int) => a+1,5)res225 阅读全文

posted @ 2019-03-14 22:04 Rabbit624 阅读(236) 评论(0) 推荐(0)

公告