Charlotte77

2016年5月6日

摘要： kmeans聚类相信大家都已经很熟悉了。在Python里我们用kmeans通常调用Sklearn包（当然自己写也很简单）。那么在Spark里能不能也直接使用sklean包呢？目前来说直接使用有点困难，不过我看到spark-packages里已经有了，但还没有发布。不过没关系，PySpark里有ml包阅读全文

posted @ 2016-05-06 14:56 Charlotte77 阅读(17534) 评论(8) 推荐(7) 编辑

2016年5月3日

【原】Learning Spark (Python版) 学习笔记(二)----键值对、数据读取与保存、共享特性

摘要：本来应该上周更新的，结果碰上五一，懒癌发作，就推迟了 = =。以后还是要按时完成任务。废话不多说，第四章-第六章主要讲了三个内容：键值对、数据读取与保存与Spark的两个共享特性（累加器和广播变量）。键值对（PaiRDD） 1.创建 2.转化(Transformation) 转化操作很多，有red 阅读全文

posted @ 2016-05-03 17:49 Charlotte77 阅读(20231) 评论(7) 推荐(6) 编辑

2016年4月27日

2015年总结与2016年目标和计划

摘要： 2015年是变化最大的一年，1月份考研失败，不接受任何调剂，只想读计算数学，搞数学建模，在家消沉了两星期，闲不住，就出去找事做。去了一家培训机构做老师，做了一个月被咨询部的老大挖过去做咨询师（我也不知道为啥要我过去，哈哈，难道是因为颜值吗？），然后又做了两个月，准备边工作边二战，但是怕失败，还是决定阅读全文

posted @ 2016-04-27 10:42 Charlotte77 阅读(13347) 评论(125) 推荐(30) 编辑

2016年4月21日

【原】Learning Spark (Python版) 学习笔记(一)----RDD 基本概念与命令

摘要：《Learning Spark》这本书算是Spark入门的必读书了，中文版是《Spark快速大数据分析》，不过豆瓣书评很有意思的是，英文原版评分7.4，评论都说入门而已深入不足，中文译版评分8.4，评论一片好评，有点意思。我倒觉得这本书可以作为官方文档的一个补充，刷完后基本上对Spark的一些基本概阅读全文

posted @ 2016-04-21 16:50 Charlotte77 阅读(17890) 评论(3) 推荐(5) 编辑

2016年4月14日

【原】浅谈KL散度（相对熵）在用户画像中的应用

摘要：最近做用户画像，用到了KL散度，发现效果还是不错的，现跟大家分享一下，为了文章的易读性，不具体讲公式的计算，主要讲应用，不过公式也不复杂，具体可以看链接。首先先介绍一下KL散度是啥。KL散度全称Kullback–Leibler divergence,也称为相对熵，信息增益，它是度量两个概率分布P与阅读全文

posted @ 2016-04-14 17:50 Charlotte77 阅读(10949) 评论(7) 推荐(3) 编辑

2016年4月12日

【原】数据分析/数据挖掘/机器学习---- 必读书目

摘要：总结一下我读过的机器学习/数据挖掘/数据分析方面的书，有的适合入门，有的适合进阶，没有按照层次排列，先总结一下，等总结的差不多了再根据入门 >进阶分块写。下面列的书基本上我写的都是读完过的，不然不敢写，怕误人子弟 = =，持续更新ing~ 数据分析实习的时候只会Matlab，公司小，没钱买正版，所阅读全文

posted @ 2016-04-12 10:33 Charlotte77 阅读(26398) 评论(16) 推荐(20) 编辑

2016年4月8日

【原】KMeans与深度学习自编码AutoEncoder结合提高聚类效果

摘要：这几天在做用户画像，特征是用户的消费商品的消费金额，原始数据（部分）是这样的：我们看到同一个id下面有不同的消费记录，这个数据不能直接拿来用，写了python程序来进行处理：test.py 输出结果：现在我们来跑AE模型（Auto-encoder），简单说说AE模型，主要步骤很简单，有三层，输入阅读全文

posted @ 2016-04-08 10:32 Charlotte77 阅读(16144) 评论(5) 推荐(2) 编辑

2016年4月6日

【原】Spark学习总结-六个专题

摘要：最近从hadoop转向Spark了，学了一段时间了，准备写个专题，主要写pySpark的应用，主要计划是：主题内容概要聚类（5.6） 1.几种常用的聚类算法；2.pyspark中聚类算法的应用（2-3个实例）分类&回归 1.几种常用的分类和回归算法；2.pyspark中分类和回归算法的应用（阅读全文

posted @ 2016-04-06 09:28 Charlotte77 阅读(1316) 评论(1) 推荐(1) 编辑

2016年3月31日

【原】数据分析/数据挖掘入门级选手建议

摘要：  1.数据分析和数据挖掘联系和区别联系：都是搞数据的区别：数据分析偏统计，可视化，出报表和报告，需要较强的表达能力。数据挖掘偏算法，重模型，需要很深的代码功底，要码代码，很多= 阅读全文

posted @ 2016-03-31 11:04 Charlotte77 阅读(12486) 评论(12) 推荐(16) 编辑

2015年12月24日

【原】机器学习几个基本的问题

摘要：从今年四月份到现在已经工作快9个月了，最开始是做推荐系统，然后做机器学习，现在是文本挖掘，每个部分研究的时间都不多，但还是遇到了很多问题，目前就把一定要总结的问题总结一下，以后有时间多看看，提醒自己看有没有解决。推荐系统： 1.冷启动热启动区别和联系？各个阶段需要的算法？ 2.每个算法的数学推导、阅读全文

posted @ 2015-12-24 10:35 Charlotte77 阅读(7125) 评论(4) 推荐(3) 编辑

2015年12月18日

【原】文本挖掘——特征选择

摘要：特征选择有很多方法，看了很多资料后，我总结了以下几种，以后有新内容会随时修改 1.DF——基于文档频率的特征提取方法概念：DF（document frequency）指出现某个特征项的文档的频率。步骤：1).从训练语料中统计出保函某个特征的文档频率（个数） 2).根据设定的阈值（min&max）阅读全文

posted @ 2015-12-18 15:56 Charlotte77 阅读(2879) 评论(0) 推荐(1) 编辑

2015年12月8日

【原】python中文文本挖掘资料集合

摘要：这些网址是我在学习python中文文本挖掘时觉得比较好的网站，记录一下，后期也会不定期添加： 1.http://www.52nlp.cn/python-%E7%BD%91%E9%A1%B5%E7%88%AC%E8%99%AB-%E6%96%87%E6%9C%AC%E5%A4%84%E7%90%86- 阅读全文

posted @ 2015-12-08 15:04 Charlotte77 阅读(8566) 评论(1) 推荐(3) 编辑

数学系的数据挖掘民工(公众号:CharlotteDataMining，深度学习技术交流qq群:339120614)最新深度学习免费学习视频请移步我的B站：https://www.bilibili.com/video/av75414647

公告