04 2016 档案
摘要:2015年是变化最大的一年,1月份考研失败,不接受任何调剂,只想读计算数学,搞数学建模,在家消沉了两星期,闲不住,就出去找事做。去了一家培训机构做老师,做了一个月被咨询部的老大挖过去做咨询师(我也不知道为啥要我过去,哈哈,难道是因为颜值吗?),然后又做了两个月,准备边工作边二战,但是怕失败,还是决定
阅读全文
摘要:《Learning Spark》这本书算是Spark入门的必读书了,中文版是《Spark快速大数据分析》,不过豆瓣书评很有意思的是,英文原版评分7.4,评论都说入门而已深入不足,中文译版评分8.4,评论一片好评,有点意思。我倒觉得这本书可以作为官方文档的一个补充,刷完后基本上对Spark的一些基本概
阅读全文
摘要:最近做用户画像,用到了KL散度,发现效果还是不错的,现跟大家分享一下,为了文章的易读性,不具体讲公式的计算,主要讲应用,不过公式也不复杂,具体可以看链接。 首先先介绍一下KL散度是啥。KL散度全称Kullback–Leibler divergence,也称为相对熵,信息增益,它是度量两个概率分布P与
阅读全文
摘要:总结一下我读过的机器学习/数据挖掘/数据分析方面的书,有的适合入门,有的适合进阶,没有按照层次排列,先总结一下,等总结的差不多了再根据入门 >进阶分块写。下面列的书基本上我写的都是读完过的,不然不敢写,怕误人子弟 = =,持续更新ing~ 数据分析 实习的时候只会Matlab,公司小,没钱买正版,所
阅读全文
摘要:这几天在做用户画像,特征是用户的消费商品的消费金额,原始数据(部分)是这样的: 我们看到同一个id下面有不同的消费记录,这个数据不能直接拿来用,写了python程序来进行处理:test.py 输出结果: 现在我们来跑AE模型(Auto-encoder),简单说说AE模型,主要步骤很简单,有三层,输入
阅读全文
摘要:最近从hadoop转向Spark了,学了一段时间了,准备写个专题,主要写pySpark的应用,主要计划是: 主题 内容概要 聚类(5.6) 1.几种常用的聚类算法;2.pyspark中聚类算法的应用(2-3个实例) 分类&回归 1.几种常用的分类和回归算法;2.pyspark中分类和回归算法的应用(
阅读全文