随笔分类 - 机器学习笔记
本系列是学习机器学习实战和集体智慧编程的读书笔记,定期添加,每周两篇
摘要:在机器学习的实践中,我们通常会遇到实际数据中正负样本比例不平衡的情况,也叫数据倾斜。对于数据倾斜的情况,如果选取的算法不合适,或者评价指标不合适,那么对于实际应用线上时效果往往会不尽人意,所以如何解决数据不平衡问题是实际生产中非常常见且重要的问题。 什么是类别不平衡问题 我们拿到一份数据时,如果是二
阅读全文
摘要:上个月对一个小项目的效果进行改进,时间紧,只有不到一周的时间,所以思考了一下就用了最简单的方法来做,效果针对上一版提升了5%左右,跟大家分享一下(项目场景用的类似的场景) 项目场景:分析一个产品的竞品,譬如app的竞品、网站的竞品等等 项目分析:简单来说就是竞品分析,竞品分析有很多比较成熟的方法,但
阅读全文
摘要:写在前面:本来这篇应该是上周四更新,但是上周四写了一篇深度学习的反向传播法的过程,就推迟更新了。本来想参考PRML来写,但是发现里面涉及到比较多的数学知识,写出来可能不好理解,我决定还是用最通俗的方法解释PCA,并举一个实例一步步计算,然后再进行数学推导,最后再介绍一些变种以及相应的程序。(数学推导
阅读全文
摘要:本博客所有内容以学习、研究和分享为主,如需转载,请联系本人,标明作者和出处,并且是非商业用途,谢谢! 系列目录: 1 第一部分 模型的评估与数据处理 2 3 机器学习基础与实践(一) 数据清洗 4 5 机器学习基础与实践(二) 数据转换 6 7 机器学习基础与实践(三) 数据降维 8 9 10 11
阅读全文
摘要:本博客所有内容以学习、研究和分享为主,如需转载,请联系本人,标明作者和出处,并且是非商业用途,谢谢! 想写这个系列很久了,最近刚好项目结束了闲下来有点时间,于是决定把之前学过的东西做个总结。之前看过一些机器学习方面的书,每本书都各有侧重点,机器学习实战和集体智慧编程更偏向与实战,侧重于对每个算法的实
阅读全文
摘要:昨天总结了深度学习的资料,今天把机器学习的资料也总结一下(友情提示:有些网站需要"科学上网"^_^) 推荐几本好书: 1.Pattern Recognition and Machine Learning (by Hastie, Tibshirani, and Friedman's ) 2.Eleme
阅读全文
摘要:kmeans聚类相信大家都已经很熟悉了。在Python里我们用kmeans通常调用Sklearn包(当然自己写也很简单)。那么在Spark里能不能也直接使用sklean包呢?目前来说直接使用有点困难,不过我看到spark-packages里已经有了,但还没有发布。不过没关系,PySpark里有ml包
阅读全文
摘要:最近做用户画像,用到了KL散度,发现效果还是不错的,现跟大家分享一下,为了文章的易读性,不具体讲公式的计算,主要讲应用,不过公式也不复杂,具体可以看链接。 首先先介绍一下KL散度是啥。KL散度全称Kullback–Leibler divergence,也称为相对熵,信息增益,它是度量两个概率分布P与
阅读全文
摘要:总结一下我读过的机器学习/数据挖掘/数据分析方面的书,有的适合入门,有的适合进阶,没有按照层次排列,先总结一下,等总结的差不多了再根据入门 >进阶分块写。下面列的书基本上我写的都是读完过的,不然不敢写,怕误人子弟 = =,持续更新ing~ 数据分析 实习的时候只会Matlab,公司小,没钱买正版,所
阅读全文
摘要:这几天在做用户画像,特征是用户的消费商品的消费金额,原始数据(部分)是这样的: 我们看到同一个id下面有不同的消费记录,这个数据不能直接拿来用,写了python程序来进行处理:test.py 输出结果: 现在我们来跑AE模型(Auto-encoder),简单说说AE模型,主要步骤很简单,有三层,输入
阅读全文
摘要:最近从hadoop转向Spark了,学了一段时间了,准备写个专题,主要写pySpark的应用,主要计划是: 主题 内容概要 聚类(5.6) 1.几种常用的聚类算法;2.pyspark中聚类算法的应用(2-3个实例) 分类&回归 1.几种常用的分类和回归算法;2.pyspark中分类和回归算法的应用(
阅读全文
摘要:从今年四月份到现在已经工作快9个月了,最开始是做推荐系统,然后做机器学习,现在是文本挖掘,每个部分研究的时间都不多,但还是遇到了很多问题,目前就把一定要总结的问题总结一下,以后有时间多看看,提醒自己看有没有解决。 推荐系统: 1.冷启动热启动区别和联系?各个阶段需要的算法? 2.每个算法的数学推导、
阅读全文