12 2017 档案

摘要:任务的监控和使用 有几种方式监控spark应用:Web UI,指标和外部方法 Web接口 每个SparkContext都会启动一个web UI,默认是4040端口,用来展示一些信息: 1. 一系列调度的stage和task 2. RDD大小和内存的使用概况 3. 环境变量信息 4. excutors 阅读全文
posted @ 2017-12-26 09:03 xingoo 阅读(2857) 评论(0) 推荐(0) 编辑
摘要:最近在spark streaming本地调试的时候,引入了一些资源文件,打包的时候需要给排除掉。所以就考虑使用maven的方式 详细参考官方文档:https://maven.apache.org/plugins/maven jar plugin/examples/include exclude.ht 阅读全文
posted @ 2017-12-21 13:40 xingoo 阅读(32794) 评论(2) 推荐(0) 编辑
摘要:spark2.2在使用的时候使用的是SparkSession,这个SparkSession创建的时候很明显的使用了创建者模式。通过观察源代码,简单的模拟了下,可以当作以后编码风格的参考: 官方使用 自己写的小例子,模拟一下: 很好的风格! 可以得到输出: 阅读全文
posted @ 2017-12-15 15:55 xingoo 阅读(752) 评论(0) 推荐(0) 编辑
摘要:词语相似性比较,最容易想到的就是编辑距离,也叫做Levenshtein Distance算法。在Python中是有现成的模块可以帮助做这个的,不过代码也很简单,我这边就用scala实现了一版。 编辑距离 编辑距离是指一个字符串改编成另一个字符串的最短距离,它描述了两个字符串的相近程度。比如: 因此所 阅读全文
posted @ 2017-12-12 17:38 xingoo 阅读(2685) 评论(0) 推荐(2) 编辑
摘要:最近在搞spark streaming,很自然的前端对接的就是kafka。不过在kafka的使用中还是遇到一些问题,比如mirrormaker莫名其妙的丢失数据[原因稍后再说],消费数据offset错乱[之后介绍spark streaming的时候再解释] 总之,还是遇到了不少的问题。本篇就从下面几 阅读全文
posted @ 2017-12-06 19:07 xingoo 阅读(1385) 评论(0) 推荐(0) 编辑

点击右上角即可分享
微信分享提示