随笔分类 - Hadoop&Spark&数据处理
该文被密码保护。
摘要:文章可以看这些: https://www.cnblogs.com/zhaojiankai/p/7257617.html https://blog.csdn.net/wangshuminjava/article/details/79367944
阅读全文
摘要:参考这篇文章: https://www.sohu.com/a/196257023_470008 我们当时的目标就是要设计一款低延迟、exactly once、流和批统一的,能够支撑足够大体量的复杂计算的引擎。 Spark streaming 的本质还是一款基于 microbatch 计算的引擎。这种
阅读全文
该文被密码保护。
摘要:代码已经拷贝到了公司电脑的: /Users/baidu/Documents/Data/Work/Code/Self/hadoop_mr_streaming_jobs 首先是主控脚本 main.sh 调用的是 extract.py 然后发现写的不太好。其中有一个combiner,可以看这里: http
阅读全文
该文被密码保护。
摘要:https://www.cnblogs.com/weilunhui/p/5658860.html 1.++[B] 在A元素后面追加B元素 1 2 3 4 5 6 7 8 9 10 11 12 13 14 scala> val a = List(1) a: List[Int] = List(1) sc
阅读全文
摘要:上一篇讲到了spark里面的action函数: Action列表: reduce collect count first take takeSample takeOrdered saveAsTextFile saveAsSequenceFile saveAsObjectFile countByKey
阅读全文
该文被密码保护。