摘要: 版本 hive:apache-hive-2.1.0 sqoop:sqoop-1.4.6 hadoop:hadoop-2.7.3 导入方式 1.append方式 2.lastmodified方式,必须要加--append(追加)或者--merge-key(合并,一般填主键) 创建mysql表并添加数据 阅读全文
posted @ 2019-08-30 18:50 Alcesttt 阅读(7309) 评论(1) 推荐(1) 编辑
摘要: 需求 求每年的最高气温,年份升序,温度求最高 数据源内容如下 temperature.txt 思路 需要排序2次,先比较年份,再比较相同年份下,温度最高的值,也就是说需要对2个纬度的值做排序。但是hadoop只能够在key上进行排序,所以气温和年份的值都得放在key里面,也就是需要创建自定义组合ke 阅读全文
posted @ 2019-08-26 09:59 Alcesttt 阅读(280) 评论(0) 推荐(0) 编辑
摘要: 相同 都是对分区进行操作 不同 1、foreachpartition是Action操作,mappartition是Transformation操作 2、foreachpartition无返回值,mappartition有返回值 3、foreachpartition一般都是在程序末尾比如说要落地数据到 阅读全文
posted @ 2019-08-24 21:41 Alcesttt 阅读(804) 评论(0) 推荐(0) 编辑
摘要: 需求 不同的key输出到不同的文件 txt文件 multiple.txt Java 结果 part-r-00000为框架自动生成的空文件,可忽略 阅读全文
posted @ 2019-08-23 19:45 Alcesttt 阅读(523) 评论(0) 推荐(1) 编辑
摘要: 需求 不同的key输出到不同的文件 txt文件 multiple.txt scala代码 import org.apache.hadoop.mapred.lib.MultipleTextOutputFormat import org.apache.spark.{SparkConf, SparkCon 阅读全文
posted @ 2019-08-23 19:34 Alcesttt 阅读(831) 评论(0) 推荐(0) 编辑
摘要: call by value:会先计算参数的值,然后再传递给被调用的函数 call by name:参数会到实际使用的时候才计算 定义方法 def return1():Int = { println("calling...") 1 } def callByValue(x: Int) = { print 阅读全文
posted @ 2019-08-22 23:50 Alcesttt 阅读(279) 评论(0) 推荐(0) 编辑
摘要: 需求 两张表,一张click表记录某广告某一天的点击量,另一张total_click表记录某广告的总点击量 建表 pom依赖 代码 自定义类 Writable是为了与MapReduce进行对接,而DBWritable是为了与MySQL进行对接。 Map Reduce App 阅读全文
posted @ 2019-08-22 16:43 Alcesttt 阅读(344) 评论(0) 推荐(0) 编辑
摘要: 区别: repartition底层调用的是coalesce方法,默认shuffle coalesce方法的shuffle参数默认为false,默认不shuffle 使用场景: 如果你减少分区数,考虑使用coalesce,这样可以避免执行shuffle。但是假如内存不够用,可能会引起内存溢出。 阅读全文
posted @ 2019-08-20 22:20 Alcesttt 阅读(628) 评论(0) 推荐(0) 编辑
摘要: 读取: 1) 客户端调用 DistributedFileSystem 的 Open() 方法打开文件。2) DistributedFileSystem 用 RPC 连接到 NameNode,请求获取文件的数据块的信息;NameNode 返回文件的部分或者全部数据块列表;对于每个数据块,NameNod 阅读全文
posted @ 2019-08-19 21:01 Alcesttt 阅读(448) 评论(0) 推荐(0) 编辑
摘要: 接着,敲命令:startx 或 init 5 阅读全文
posted @ 2018-05-06 22:12 Alcesttt 阅读(6943) 评论(0) 推荐(0) 编辑