上一页 1 ··· 14 15 16 17 18 19 20 21 22 ··· 33 下一页
  2018年8月3日
摘要: 广播变量与累加器 广播变量与累加器 1.广播变量机制 将传递给task的值,变成传递给executor。 为什么可以共用,因为task是executor下的线程。 只读的变量,在task中不允许修改 2.累加器介绍 在只写的变量,在task中只允许被修改,不允许读的操作。 但是在driver中就只能 阅读全文
posted @ 2018-08-03 15:54 裸睡的猪 阅读(291) 评论(0) 推荐(0) 编辑
  2018年8月1日
摘要: json 模块提供了一种很简单的方式来编码和解码JSON数据。 其中两个主要的函数是 json.dumps() 和 json.loads() , 要比其他序列化函数库如pickle的接口少得多。 下面演示如何将一个Python数据结构转换为JSON: 下面演示如何将一个JSON编码的字符串转换回一个 阅读全文
posted @ 2018-08-01 10:23 裸睡的猪 阅读(841) 评论(0) 推荐(0) 编辑
摘要: 内链接 阅读全文
posted @ 2018-08-01 09:33 裸睡的猪 阅读(60) 评论(0) 推荐(0) 编辑
摘要: 示例: 阅读全文
posted @ 2018-08-01 09:27 裸睡的猪 阅读(76) 评论(0) 推荐(0) 编辑
  2018年7月31日
摘要: 如果你想要把集合元素转化为字符串,可能还会添加分隔符,前缀,后缀。 Solution 使用mkString方法来打印一个集合内容,下面给一个简单的例子: 使用mkString方法你会看到结果并不漂亮,我们来加一个分隔符: 这样看起来就好看多了,同样你可以添加一个前缀和一个后缀: 阅读全文
posted @ 2018-07-31 21:33 裸睡的猪 阅读(389) 评论(0) 推荐(0) 编辑
摘要: [1,2,3,3]的RDD rdd.foreach(println) 1 2 3 3 阅读全文
posted @ 2018-07-31 21:26 裸睡的猪 阅读(192) 评论(0) 推荐(0) 编辑
摘要: 。与fold() 类似,使用aggregate() 时,需要提供我们期待返回的类型的初始值。然后通过一个函数把RDD 中的元素合并起来放入累加器。lambda acc, value: (acc[0] + value, acc[1] + 1) 考虑到每个节点是在本地进行累加的,最终,还需要提供第二个函 阅读全文
posted @ 2018-07-31 20:59 裸睡的猪 阅读(293) 评论(0) 推荐(0) 编辑
摘要: 1、test.txt文件中存放 //words为 asd sd fd gf g dkf dfd dfml dlf dff gfl pkdfp dlofkp //reduceByKey 合并key计算 2、reduceByKey 合并key计算 reduceByKey:reduceByKey会在结果发 阅读全文
posted @ 2018-07-31 15:15 裸睡的猪 阅读(951) 评论(0) 推荐(0) 编辑
摘要: 1、etc/profile 2、hadoop-env.sh export JAVA_HOME=/usr/lib/jvm/java-8-openjdk-amd64 3、hdfs-site.xml 4、mapred-site.xml 5、yarn-site.xml 6、core-site.xml 7、h 阅读全文
posted @ 2018-07-31 14:55 裸睡的猪 阅读(147) 评论(0) 推荐(0) 编辑
  2018年7月30日
摘要: linux awk命令详解 原文链接 : http://blog.chinaunix.net/uid-23302288-id-3785105.html awk是行处理器: 相比较屏幕处理的优点,在处理庞大文件时不会出现内存溢出或是处理缓慢的问题,通常用来格式化文本信息 awk处理过程: 依次对每一行 阅读全文
posted @ 2018-07-30 15:33 裸睡的猪 阅读(253) 评论(0) 推荐(0) 编辑
上一页 1 ··· 14 15 16 17 18 19 20 21 22 ··· 33 下一页