摘要: kmeans聚类相信大家都已经很熟悉了。在Python里我们用kmeans通常调用Sklearn包(当然自己写也很简单)。那么在Spark里能不能也直接使用sklean包呢?目前来说直接使用有点困难,不过我看到spark-packages里已经有了,但还没有发布。不过没关系,PySpark里有ml包 阅读全文
posted @ 2016-05-06 14:56 Charlotte77 阅读(17534) 评论(8) 推荐(7) 编辑
摘要: 本来应该上周更新的,结果碰上五一,懒癌发作,就推迟了 = =。以后还是要按时完成任务。废话不多说,第四章-第六章主要讲了三个内容:键值对、数据读取与保存与Spark的两个共享特性(累加器和广播变量)。 键值对(PaiRDD) 1.创建 2.转化(Transformation) 转化操作很多,有red 阅读全文
posted @ 2016-05-03 17:49 Charlotte77 阅读(20231) 评论(7) 推荐(6) 编辑
摘要: 2015年是变化最大的一年,1月份考研失败,不接受任何调剂,只想读计算数学,搞数学建模,在家消沉了两星期,闲不住,就出去找事做。去了一家培训机构做老师,做了一个月被咨询部的老大挖过去做咨询师(我也不知道为啥要我过去,哈哈,难道是因为颜值吗?),然后又做了两个月,准备边工作边二战,但是怕失败,还是决定 阅读全文
posted @ 2016-04-27 10:42 Charlotte77 阅读(13347) 评论(125) 推荐(30) 编辑
摘要: 《Learning Spark》这本书算是Spark入门的必读书了,中文版是《Spark快速大数据分析》,不过豆瓣书评很有意思的是,英文原版评分7.4,评论都说入门而已深入不足,中文译版评分8.4,评论一片好评,有点意思。我倒觉得这本书可以作为官方文档的一个补充,刷完后基本上对Spark的一些基本概 阅读全文
posted @ 2016-04-21 16:50 Charlotte77 阅读(17890) 评论(3) 推荐(5) 编辑
摘要: 最近做用户画像,用到了KL散度,发现效果还是不错的,现跟大家分享一下,为了文章的易读性,不具体讲公式的计算,主要讲应用,不过公式也不复杂,具体可以看链接。 首先先介绍一下KL散度是啥。KL散度全称Kullback–Leibler divergence,也称为相对熵,信息增益,它是度量两个概率分布P与 阅读全文
posted @ 2016-04-14 17:50 Charlotte77 阅读(10949) 评论(7) 推荐(3) 编辑
摘要: 总结一下我读过的机器学习/数据挖掘/数据分析方面的书,有的适合入门,有的适合进阶,没有按照层次排列,先总结一下,等总结的差不多了再根据入门 >进阶分块写。下面列的书基本上我写的都是读完过的,不然不敢写,怕误人子弟 = =,持续更新ing~ 数据分析 实习的时候只会Matlab,公司小,没钱买正版,所 阅读全文
posted @ 2016-04-12 10:33 Charlotte77 阅读(26398) 评论(16) 推荐(20) 编辑
摘要: 这几天在做用户画像,特征是用户的消费商品的消费金额,原始数据(部分)是这样的: 我们看到同一个id下面有不同的消费记录,这个数据不能直接拿来用,写了python程序来进行处理:test.py 输出结果: 现在我们来跑AE模型(Auto-encoder),简单说说AE模型,主要步骤很简单,有三层,输入 阅读全文
posted @ 2016-04-08 10:32 Charlotte77 阅读(16144) 评论(5) 推荐(2) 编辑
摘要: 最近从hadoop转向Spark了,学了一段时间了,准备写个专题,主要写pySpark的应用,主要计划是: 主题 内容概要 聚类(5.6) 1.几种常用的聚类算法;2.pyspark中聚类算法的应用(2-3个实例) 分类&回归 1.几种常用的分类和回归算法;2.pyspark中分类和回归算法的应用( 阅读全文
posted @ 2016-04-06 09:28 Charlotte77 阅读(1316) 评论(1) 推荐(1) 编辑
摘要: <!--?xml version="1.0" encoding="UTF-8" standalone="no"?--> 1.数据分析和数据挖掘联系和区别 联系:都是搞数据的 区别:数据分析偏统计,可视化,出报表和报告,需要较强的表达能力。数据挖掘偏算法,重模型,需要很深的代码功底,要码代码,很多= 阅读全文
posted @ 2016-03-31 11:04 Charlotte77 阅读(12486) 评论(12) 推荐(16) 编辑
摘要: 从今年四月份到现在已经工作快9个月了,最开始是做推荐系统,然后做机器学习,现在是文本挖掘,每个部分研究的时间都不多,但还是遇到了很多问题,目前就把一定要总结的问题总结一下,以后有时间多看看,提醒自己看有没有解决。 推荐系统: 1.冷启动热启动区别和联系?各个阶段需要的算法? 2.每个算法的数学推导、 阅读全文
posted @ 2015-12-24 10:35 Charlotte77 阅读(7125) 评论(4) 推荐(3) 编辑
摘要: 特征选择有很多方法,看了很多资料后,我总结了以下几种,以后有新内容会随时修改 1.DF——基于文档频率的特征提取方法 概念:DF(document frequency)指出现某个特征项的文档的频率。 步骤:1).从训练语料中统计出保函某个特征的文档频率(个数) 2).根据设定的阈值(min&max) 阅读全文
posted @ 2015-12-18 15:56 Charlotte77 阅读(2879) 评论(0) 推荐(1) 编辑
摘要: 这些网址是我在学习python中文文本挖掘时觉得比较好的网站,记录一下,后期也会不定期添加: 1.http://www.52nlp.cn/python-%E7%BD%91%E9%A1%B5%E7%88%AC%E8%99%AB-%E6%96%87%E6%9C%AC%E5%A4%84%E7%90%86- 阅读全文
posted @ 2015-12-08 15:04 Charlotte77 阅读(8566) 评论(1) 推荐(3) 编辑