04 2016 档案

spark 修改分区(存储结果需要)
摘要:修改分区就行了val rdd1 = sc.parallelize(Array(1,2,3,4,5,6,7,8))# 查看分区数rdd1.partitions.length# 改成1个分区val rdd2 = rdd1.repartition(1)rdd2.partitions.length 阅读全文

posted @ 2016-04-18 10:56 残阳飞雪 阅读(475) 评论(0) 推荐(0) 编辑

用spark 分析日志文件
该文被密码保护。

posted @ 2016-04-17 13:37 残阳飞雪 阅读(8) 评论(0) 推荐(0) 编辑

spark not contain
摘要:参考网址 http://stackoverflow.com/questions/33608526/is-there-a-way-to-filter-a-field-not-containing-something-in-a-spark-dataframe-u 阅读全文

posted @ 2016-04-16 17:27 残阳飞雪 阅读(567) 评论(0) 推荐(0) 编辑

配置IDEA Scala环境
摘要:http://snglw.blog.51cto.com/5832405/1634595 阅读全文

posted @ 2016-04-16 11:53 残阳飞雪 阅读(138) 评论(0) 推荐(0) 编辑

spark 分析日志文件(key,value)
摘要:Spark读取日志,统计每个service所用的平均时间 发布时间:2015-12-10 9:54:15来源:分享查询网 获取log日志,每个service以“#*#”开头。统计每个service所需的平均时间。 import java.io.{File, PrintWriter} import o 阅读全文

posted @ 2016-04-12 17:00 残阳飞雪 阅读(1086) 评论(0) 推荐(0) 编辑

spark 非常好的学习内容
摘要:http://homepage.cs.latrobe.edu.au/zhe/ZhenHeSparkRDDAPIExamples.html 阅读全文

posted @ 2016-04-08 15:30 残阳飞雪 阅读(189) 评论(0) 推荐(0) 编辑

点击右上角即可分享
微信分享提示