xingoo

2018年2月1日

摘要：从事推荐系统已经快一年了，遇到过很多的茫然不知所措，也踩过不少坑，索性把所有推荐的资料都汇总一下，希望给新人以指引，或者给老司机作为归纳总结如果电子书链接失效，可以私信我算法基础博客整理业界参考推荐文章书籍推荐算法基础对于推荐系统是需要一些数学和机器学习的基本功的，假设你从来没有接触阅读全文

posted @ 2018-02-01 11:05 xingoo 阅读(6642) 评论(0) 推荐(4) 编辑

2018年1月30日

Spark机器学习——模型选择与参数调优之交叉验证

摘要： spark 模型选择与超参调优机器学习可以简单的归纳为通过数据训练的过程，因此定义完训练模型之后，就需要考虑如何选择最终我们认为最优的模型。如何选择最优的模型，就是本篇的主要内容：模型验证的方法超参数的选择评估函数的选择模型验证的方法在《统计学习方法》这本书中，曾经讲过模型验证的方阅读全文

posted @ 2018-01-30 15:57 xingoo 阅读(2411) 评论(0) 推荐(0) 编辑

2018年1月20日

Spark Client启动原理探索

摘要：经过几天闲暇时间的学习，终于又理解的深入了一些，关于Spark Client如何提交作业也更清晰了点。在整体的流程图上是这样的：大体的思路就是应用程序通过SparkSubmit提交程序后，自动在当前的JVM中启动Driver，然后与Master通信创建Excutor执行相应的任务。自己整理了下阅读全文

posted @ 2018-01-20 00:11 xingoo 阅读(795) 评论(0) 推荐(0) 编辑

2018年1月10日

Spark源码分析之 Driver和Excutor是怎么跑起来的?(2.2.0版本)

摘要：今天抽空回顾了一下Spark相关的源码，本来想要了解一下Block的管理机制，但是看着看着就回到了SparkContext的创建与使用。正好之前没有正式的整理过这部分的内容，这次就顺带着回顾一下。更多内容参考： "我的大数据之路" Spark作为目前最流行的大数据计算框架，已经发展了几个年头了。版阅读全文

posted @ 2018-01-10 19:13 xingoo 阅读(2127) 评论(0) 推荐(2) 编辑

2018年1月6日

《恶意》—— 读后总结

摘要：这本小说，从案件剧情上来说，简单的不要不要的，可是背后的故事确是一波三折，把读者骗的来回转。小说整体采用了一种叫做POV, point of view 视点人物写作手法。之前看过辛夷坞的小说，是那种每个人都描述同一件事情，读者从不同人物角度的来挖掘事件的真相。本书则是站在每个人不同的视角讲述故事，阅读全文

posted @ 2018-01-06 12:18 xingoo 阅读(1920) 评论(0) 推荐(0) 编辑

2018年1月5日

基于Dubbo的http自动测试工具分享

摘要：公司是采用微服务来做模块化的，各个模块之间采用dubbo通信。好处就不用提了，省略了之前模块间复杂的http访问。不过也遇到一些问题： PS: "Github的代码示例" 测试需要配合写消费者的代码对于开发来说，倒是挺省劲。但是对于测试来说就有点麻烦了, 每次还要去写dubbo的消费程序，而且每次阅读全文

posted @ 2018-01-05 17:35 xingoo 阅读(5254) 评论(1) 推荐(6) 编辑

2017年12月26日

Spark监控官方文档学习笔记

摘要：任务的监控和使用有几种方式监控spark应用：Web UI，指标和外部方法 Web接口每个SparkContext都会启动一个web UI，默认是4040端口，用来展示一些信息： 1. 一系列调度的stage和task 2. RDD大小和内存的使用概况 3. 环境变量信息 4. excutors 阅读全文

posted @ 2017-12-26 09:03 xingoo 阅读(2852) 评论(0) 推荐(0) 编辑

2017年12月21日

Maven打包排除某个资源或者目录

摘要：最近在spark streaming本地调试的时候，引入了一些资源文件，打包的时候需要给排除掉。所以就考虑使用maven的方式详细参考官方文档：https://maven.apache.org/plugins/maven jar plugin/examples/include exclude.ht 阅读全文

posted @ 2017-12-21 13:40 xingoo 阅读(32746) 评论(2) 推荐(0) 编辑

2017年12月15日

源码中的哲学——通过构建者模式创建SparkSession

摘要： spark2.2在使用的时候使用的是SparkSession，这个SparkSession创建的时候很明显的使用了创建者模式。通过观察源代码，简单的模拟了下，可以当作以后编码风格的参考：官方使用自己写的小例子，模拟一下：很好的风格！可以得到输出: 阅读全文

posted @ 2017-12-15 15:55 xingoo 阅读(750) 评论(0) 推荐(0) 编辑

2017年12月12日

基于编辑距离来判断词语相似度方法（scala版）

摘要：词语相似性比较，最容易想到的就是编辑距离，也叫做Levenshtein Distance算法。在Python中是有现成的模块可以帮助做这个的，不过代码也很简单，我这边就用scala实现了一版。编辑距离编辑距离是指一个字符串改编成另一个字符串的最短距离，它描述了两个字符串的相近程度。比如: 因此所阅读全文

posted @ 2017-12-12 17:38 xingoo 阅读(2671) 评论(0) 推荐(2) 编辑

公告