Alcesttt

2019年8月30日

摘要：版本 hive：apache-hive-2.1.0 sqoop：sqoop-1.4.6 hadoop：hadoop-2.7.3 导入方式 1.append方式 2.lastmodified方式，必须要加--append（追加）或者--merge-key（合并，一般填主键）创建mysql表并添加数据阅读全文

posted @ 2019-08-30 18:50 Alcesttt 阅读(7309) 评论(1) 推荐(1) 编辑

2019年8月26日

Hadoop 二次排序

摘要：需求求每年的最高气温，年份升序，温度求最高数据源内容如下 temperature.txt 思路需要排序2次，先比较年份，再比较相同年份下，温度最高的值，也就是说需要对2个纬度的值做排序。但是hadoop只能够在key上进行排序，所以气温和年份的值都得放在key里面，也就是需要创建自定义组合ke 阅读全文

posted @ 2019-08-26 09:59 Alcesttt 阅读(280) 评论(0) 推荐(0) 编辑

2019年8月24日

Spark foreachpartiton和mappartition的异同

摘要：相同都是对分区进行操作不同 1、foreachpartition是Action操作，mappartition是Transformation操作 2、foreachpartition无返回值，mappartition有返回值 3、foreachpartition一般都是在程序末尾比如说要落地数据到阅读全文

posted @ 2019-08-24 21:41 Alcesttt 阅读(804) 评论(0) 推荐(0) 编辑

2019年8月23日

hadoop 实现多文件输出

摘要：需求不同的key输出到不同的文件 txt文件 multiple.txt Java 结果 part-r-00000为框架自动生成的空文件，可忽略阅读全文

posted @ 2019-08-23 19:45 Alcesttt 阅读(523) 评论(0) 推荐(1) 编辑

spark 实现多文件输出

摘要：需求不同的key输出到不同的文件 txt文件 multiple.txt scala代码 import org.apache.hadoop.mapred.lib.MultipleTextOutputFormat import org.apache.spark.{SparkConf, SparkCon 阅读全文

posted @ 2019-08-23 19:34 Alcesttt 阅读(831) 评论(0) 推荐(0) 编辑

2019年8月22日

Scala 中 call by name & call by value 的区别

摘要： call by value：会先计算参数的值，然后再传递给被调用的函数 call by name：参数会到实际使用的时候才计算定义方法 def return1():Int = { println("calling...") 1 } def callByValue(x: Int) = { print 阅读全文

posted @ 2019-08-22 23:50 Alcesttt 阅读(279) 评论(0) 推荐(0) 编辑

Hadoop读写mysql

摘要：需求两张表，一张click表记录某广告某一天的点击量，另一张total_click表记录某广告的总点击量建表 pom依赖代码自定义类 Writable是为了与MapReduce进行对接，而DBWritable是为了与MySQL进行对接。 Map Reduce App 阅读全文

posted @ 2019-08-22 16:43 Alcesttt 阅读(344) 评论(0) 推荐(0) 编辑

2019年8月20日

spark coalesce和repartition的区别和使用场景

摘要：区别： repartition底层调用的是coalesce方法，默认shuffle coalesce方法的shuffle参数默认为false，默认不shuffle 使用场景：如果你减少分区数，考虑使用coalesce，这样可以避免执行shuffle。但是假如内存不够用，可能会引起内存溢出。阅读全文

posted @ 2019-08-20 22:20 Alcesttt 阅读(628) 评论(0) 推荐(0) 编辑

2019年8月19日

Hadoop HDFS读写流程

摘要：读取： 1) 客户端调用 DistributedFileSystem 的 Open() 方法打开文件。2) DistributedFileSystem 用 RPC 连接到 NameNode，请求获取文件的数据块的信息；NameNode 返回文件的部分或者全部数据块列表；对于每个数据块，NameNod 阅读全文

posted @ 2019-08-19 21:01 Alcesttt 阅读(448) 评论(0) 推荐(0) 编辑

2018年5月6日

centos6 命令界面切换到图形界面

摘要：接着，敲命令：startx 或 init 5 阅读全文

posted @ 2018-05-06 22:12 Alcesttt 阅读(6943) 评论(0) 推荐(0) 编辑

公告