摘要:
从事推荐系统已经快一年了,遇到过很多的茫然不知所措,也踩过不少坑,索性把所有推荐的资料都汇总一下,希望给新人以指引,或者给老司机作为归纳总结 如果电子书链接失效,可以私信我 算法基础 博客整理 业界参考 推荐文章 书籍推荐 算法基础 对于推荐系统是需要一些数学和机器学习的基本功的,假设你从来没有接触 阅读全文
摘要:
spark 模型选择与超参调优 机器学习可以简单的归纳为 通过数据训练 的过程,因此定义完训练模型之后,就需要考虑如何选择最终我们认为最优的模型。 如何选择最优的模型,就是本篇的主要内容: 模型验证的方法 超参数的选择 评估函数的选择 模型验证的方法 在《统计学习方法》这本书中,曾经讲过模型验证的方 阅读全文
摘要:
经过几天闲暇时间的学习,终于又理解的深入了一些,关于Spark Client如何提交作业也更清晰了点。 在整体的流程图上是这样的: 大体的思路就是应用程序通过SparkSubmit提交程序后,自动在当前的JVM中启动Driver,然后与Master通信创建Excutor执行相应的任务。 自己整理了下 阅读全文
摘要:
今天抽空回顾了一下Spark相关的源码,本来想要了解一下Block的管理机制,但是看着看着就回到了SparkContext的创建与使用。正好之前没有正式的整理过这部分的内容,这次就顺带着回顾一下。 更多内容参考: "我的大数据之路" Spark作为目前最流行的大数据计算框架,已经发展了几个年头了。版 阅读全文
摘要:
这本小说,从案件剧情上来说,简单的不要不要的,可是背后的故事确是一波三折,把读者骗的来回转。 小说整体采用了一种叫做POV, point of view 视点人物写作手法。之前看过辛夷坞的小说,是那种每个人都描述同一件事情,读者从不同人物角度的来挖掘事件的真相。本书则是站在每个人不同的视角讲述故事, 阅读全文
摘要:
公司是采用微服务来做模块化的,各个模块之间采用dubbo通信。好处就不用提了,省略了之前模块间复杂的http访问。不过也遇到一些问题: PS: "Github的代码示例" 测试需要配合写消费者的代码 对于开发来说,倒是挺省劲。但是对于测试来说就有点麻烦了, 每次还要去写dubbo的消费程序,而且每次 阅读全文
摘要:
任务的监控和使用 有几种方式监控spark应用:Web UI,指标和外部方法 Web接口 每个SparkContext都会启动一个web UI,默认是4040端口,用来展示一些信息: 1. 一系列调度的stage和task 2. RDD大小和内存的使用概况 3. 环境变量信息 4. excutors 阅读全文
摘要:
最近在spark streaming本地调试的时候,引入了一些资源文件,打包的时候需要给排除掉。所以就考虑使用maven的方式 详细参考官方文档:https://maven.apache.org/plugins/maven jar plugin/examples/include exclude.ht 阅读全文
摘要:
spark2.2在使用的时候使用的是SparkSession,这个SparkSession创建的时候很明显的使用了创建者模式。通过观察源代码,简单的模拟了下,可以当作以后编码风格的参考: 官方使用 自己写的小例子,模拟一下: 很好的风格! 可以得到输出: 阅读全文
摘要:
词语相似性比较,最容易想到的就是编辑距离,也叫做Levenshtein Distance算法。在Python中是有现成的模块可以帮助做这个的,不过代码也很简单,我这边就用scala实现了一版。 编辑距离 编辑距离是指一个字符串改编成另一个字符串的最短距离,它描述了两个字符串的相近程度。比如: 因此所 阅读全文