上一页 1 ··· 6 7 8 9 10 11 12 13 14 ··· 27 下一页
摘要: PASS spark中repartition什么分区最合适1.节点*每台核数2.hdfs块数/1283.goal文件切片那边 分区数接近2000,写2000 如果核数少,task数用2到3倍,文件朵的更碎,有效利用核资源2 300 ~ 1000 节点*每台核数太大了,>2000,写2000 阅读全文
posted @ 2020-12-14 23:26 PEAR2020 阅读(501) 评论(0) 推荐(0)
摘要: PASS https://www.cnblogs.com/coco2015/p/11240677.html 阅读全文
posted @ 2020-12-14 23:25 PEAR2020 阅读(79) 评论(0) 推荐(0)
摘要: PASS Pycharm setting -> interpretor -> pyspark 3.0.1 --trusted-host pypi.douban.com 阅读全文
posted @ 2020-12-14 23:18 PEAR2020 阅读(89) 评论(0) 推荐(0)
摘要: 一、关于读取/写入kfk https://www.cnblogs.com/importbigdata/p/10765558.html 1.kfkstreaming只能接kfk,而sparkstreaming比较通用 2.两种读取方法:1.director 效率高 2.receiver 3.写入方法: 阅读全文
posted @ 2020-12-14 22:45 PEAR2020 阅读(253) 评论(0) 推荐(0)
摘要: 一、通用脚本 当运行streaming任务时,可能会因为某些原因比如代码的bug,以及其他的因素导致streaming程序停止(FINISHED,KILLED,FAILED),虽然我们可以再手动重启一次程序, 但是这样还是比较麻烦的,接下来要做的就是让linux自动监控streaming程序是否停止 阅读全文
posted @ 2020-12-14 15:39 PEAR2020 阅读(871) 评论(0) 推荐(0)
摘要: 一、pom <dependencies> <!-- https://mvnrepository.com/artifact/org.apache.kafka/kafka --> <dependency> <groupId>org.apache.kafka</groupId> <artifactId>k 阅读全文
posted @ 2020-12-11 16:22 PEAR2020 阅读(170) 评论(0) 推荐(1)
摘要: 相关链接:https://www.cnblogs.com/fishperson/p/10447033.html / + Dstream.foreachRDD :每个interval时间段中的RDD Dstream和RDD的关系? 1对1 补充:只有序列化才能远程传输!!!Connection是昂贵资 阅读全文
posted @ 2020-12-11 14:29 PEAR2020 阅读(144) 评论(0) 推荐(0)
摘要: wc -l 文件 => 文件总行数 wc -L 文件 => 文件行的最大length(包含空格,也算作length) 阅读全文
posted @ 2020-12-11 12:17 PEAR2020 阅读(96) 评论(0) 推荐(0)
摘要: 一、安装 进入目录 cd conf/ cp flume-env.sh.template flume-env.sh vi flume-env.sh 添加 >>> JAVA_HOME=/opt/bigdata/java/jdk180 然后配置环境变量 vi /etc/profile #flume exp 阅读全文
posted @ 2020-12-10 15:52 PEAR2020 阅读(329) 评论(0) 推荐(0)
摘要: 阅读全文
posted @ 2020-12-10 15:27 PEAR2020 阅读(82) 评论(0) 推荐(0)
上一页 1 ··· 6 7 8 9 10 11 12 13 14 ··· 27 下一页