12 2017 档案

Spark监控官方文档学习笔记

摘要：任务的监控和使用有几种方式监控spark应用：Web UI，指标和外部方法 Web接口每个SparkContext都会启动一个web UI，默认是4040端口，用来展示一些信息： 1. 一系列调度的stage和task 2. RDD大小和内存的使用概况 3. 环境变量信息 4. excutors 阅读全文

posted @ 2017-12-26 09:03 xingoo 阅读(2857) 评论(0) 推荐(0) 编辑

Maven打包排除某个资源或者目录

摘要：最近在spark streaming本地调试的时候，引入了一些资源文件，打包的时候需要给排除掉。所以就考虑使用maven的方式详细参考官方文档：https://maven.apache.org/plugins/maven jar plugin/examples/include exclude.ht 阅读全文

posted @ 2017-12-21 13:40 xingoo 阅读(32794) 评论(2) 推荐(0) 编辑

源码中的哲学——通过构建者模式创建SparkSession

摘要：spark2.2在使用的时候使用的是SparkSession，这个SparkSession创建的时候很明显的使用了创建者模式。通过观察源代码，简单的模拟了下，可以当作以后编码风格的参考：官方使用自己写的小例子，模拟一下：很好的风格！可以得到输出: 阅读全文

posted @ 2017-12-15 15:55 xingoo 阅读(752) 评论(0) 推荐(0) 编辑

基于编辑距离来判断词语相似度方法（scala版）

摘要：词语相似性比较，最容易想到的就是编辑距离，也叫做Levenshtein Distance算法。在Python中是有现成的模块可以帮助做这个的，不过代码也很简单，我这边就用scala实现了一版。编辑距离编辑距离是指一个字符串改编成另一个字符串的最短距离，它描述了两个字符串的相近程度。比如: 因此所阅读全文

posted @ 2017-12-12 17:38 xingoo 阅读(2685) 评论(0) 推荐(2) 编辑

Kafka的基本概念与安装指南（单机+集群同步）

摘要：最近在搞spark streaming，很自然的前端对接的就是kafka。不过在kafka的使用中还是遇到一些问题，比如mirrormaker莫名其妙的丢失数据[原因稍后再说]，消费数据offset错乱[之后介绍spark streaming的时候再解释] 总之，还是遇到了不少的问题。本篇就从下面几阅读全文

posted @ 2017-12-06 19:07 xingoo 阅读(1385) 评论(0) 推荐(0) 编辑

公告

扫码关注公众号，不定期分享大数据和机器学习工作经验与学习心得

昵称： xingoo
园龄： 12年5个月
粉丝： 3983
关注： 79

+加关注

2025年3月

日

一

二

三

四

五

六

xingoo

12 2017 档案

公告

最新随笔

积分与排名

随笔分类 (900)

随笔档案 (1028)

常用工具

官方文档

好友链接