随笔- 57 文章- 0 评论- 1588 阅读- 166万

随笔分类 - 机器学习笔记

本系列是学习机器学习实战和集体智慧编程的读书笔记，定期添加，每周两篇

摘要：在机器学习的实践中，我们通常会遇到实际数据中正负样本比例不平衡的情况，也叫数据倾斜。对于数据倾斜的情况，如果选取的算法不合适，或者评价指标不合适，那么对于实际应用线上时效果往往会不尽人意，所以如何解决数据不平衡问题是实际生产中非常常见且重要的问题。什么是类别不平衡问题我们拿到一份数据时，如果是二阅读全文

posted @ 2019-03-01 13:32 Charlotte77 阅读(31925) 评论(3) 推荐(5) 编辑

Jaccard相似度在竞品分析中的应用

摘要：上个月对一个小项目的效果进行改进，时间紧，只有不到一周的时间，所以思考了一下就用了最简单的方法来做，效果针对上一版提升了5%左右，跟大家分享一下（项目场景用的类似的场景）项目场景：分析一个产品的竞品，譬如app的竞品、网站的竞品等等项目分析：简单来说就是竞品分析，竞品分析有很多比较成熟的方法，但阅读全文

posted @ 2017-09-11 14:32 Charlotte77 阅读(5462) 评论(3) 推荐(3) 编辑

机器学习基础与实践（三）----数据降维之PCA

摘要：写在前面：本来这篇应该是上周四更新，但是上周四写了一篇深度学习的反向传播法的过程，就推迟更新了。本来想参考PRML来写，但是发现里面涉及到比较多的数学知识，写出来可能不好理解，我决定还是用最通俗的方法解释PCA，并举一个实例一步步计算，然后再进行数学推导，最后再介绍一些变种以及相应的程序。（数学推导阅读全文

posted @ 2016-07-06 11:33 Charlotte77 阅读(24238) 评论(23) 推荐(15) 编辑

机器学习基础与实践（二）----数据转换

摘要：本博客所有内容以学习、研究和分享为主，如需转载，请联系本人，标明作者和出处，并且是非商业用途，谢谢！系列目录： 1 第一部分模型的评估与数据处理 2 3 机器学习基础与实践（一）数据清洗 4 5 机器学习基础与实践（二）数据转换 6 7 机器学习基础与实践（三）数据降维 8 9 10 11 阅读全文

posted @ 2016-06-28 16:46 Charlotte77 阅读(35220) 评论(8) 推荐(10) 编辑

机器学习基础与实践（一）----数据清洗

摘要：本博客所有内容以学习、研究和分享为主，如需转载，请联系本人，标明作者和出处，并且是非商业用途，谢谢！想写这个系列很久了，最近刚好项目结束了闲下来有点时间，于是决定把之前学过的东西做个总结。之前看过一些机器学习方面的书，每本书都各有侧重点，机器学习实战和集体智慧编程更偏向与实战，侧重于对每个算法的实阅读全文

posted @ 2016-06-23 13:25 Charlotte77 阅读(65563) 评论(19) 推荐(24) 编辑

【机器学习Machine Learning】资料大全

摘要：昨天总结了深度学习的资料，今天把机器学习的资料也总结一下(友情提示：有些网站需要"科学上网"^_^) 推荐几本好书： 1.Pattern Recognition and Machine Learning (by Hastie, Tibshirani, and Friedman's ) 2.Eleme 阅读全文

posted @ 2016-05-13 10:29 Charlotte77 阅读(13967) 评论(5) 推荐(8) 编辑

【原】Spark之机器学习(Python版)(一)——聚类

摘要：kmeans聚类相信大家都已经很熟悉了。在Python里我们用kmeans通常调用Sklearn包（当然自己写也很简单）。那么在Spark里能不能也直接使用sklean包呢？目前来说直接使用有点困难，不过我看到spark-packages里已经有了，但还没有发布。不过没关系，PySpark里有ml包阅读全文

posted @ 2016-05-06 14:56 Charlotte77 阅读(17561) 评论(8) 推荐(7) 编辑

【原】浅谈KL散度（相对熵）在用户画像中的应用

摘要：最近做用户画像，用到了KL散度，发现效果还是不错的，现跟大家分享一下，为了文章的易读性，不具体讲公式的计算，主要讲应用，不过公式也不复杂，具体可以看链接。首先先介绍一下KL散度是啥。KL散度全称Kullback–Leibler divergence,也称为相对熵，信息增益，它是度量两个概率分布P与阅读全文

posted @ 2016-04-14 17:50 Charlotte77 阅读(10996) 评论(7) 推荐(3) 编辑

【原】数据分析/数据挖掘/机器学习---- 必读书目

摘要：总结一下我读过的机器学习/数据挖掘/数据分析方面的书，有的适合入门，有的适合进阶，没有按照层次排列，先总结一下，等总结的差不多了再根据入门 >进阶分块写。下面列的书基本上我写的都是读完过的，不然不敢写，怕误人子弟 = =，持续更新ing~ 数据分析实习的时候只会Matlab，公司小，没钱买正版，所阅读全文

posted @ 2016-04-12 10:33 Charlotte77 阅读(26439) 评论(16) 推荐(20) 编辑

【原】KMeans与深度学习自编码AutoEncoder结合提高聚类效果

摘要：这几天在做用户画像，特征是用户的消费商品的消费金额，原始数据（部分）是这样的：我们看到同一个id下面有不同的消费记录，这个数据不能直接拿来用，写了python程序来进行处理：test.py 输出结果：现在我们来跑AE模型（Auto-encoder），简单说说AE模型，主要步骤很简单，有三层，输入阅读全文

posted @ 2016-04-08 10:32 Charlotte77 阅读(16193) 评论(5) 推荐(2) 编辑

【原】Spark学习总结-六个专题

摘要：最近从hadoop转向Spark了，学了一段时间了，准备写个专题，主要写pySpark的应用，主要计划是：主题内容概要聚类（5.6） 1.几种常用的聚类算法；2.pyspark中聚类算法的应用（2-3个实例）分类&回归 1.几种常用的分类和回归算法；2.pyspark中分类和回归算法的应用（阅读全文

posted @ 2016-04-06 09:28 Charlotte77 阅读(1320) 评论(1) 推荐(1) 编辑

【原】机器学习几个基本的问题

摘要：从今年四月份到现在已经工作快9个月了，最开始是做推荐系统，然后做机器学习，现在是文本挖掘，每个部分研究的时间都不多，但还是遇到了很多问题，目前就把一定要总结的问题总结一下，以后有时间多看看，提醒自己看有没有解决。推荐系统： 1.冷启动热启动区别和联系？各个阶段需要的算法？ 2.每个算法的数学推导、阅读全文

posted @ 2015-12-24 10:35 Charlotte77 阅读(7142) 评论(4) 推荐(3) 编辑

公告

本博客所有内容以学习、研究和分享为主，如需转载，请联系本人，标明作者和出处，并且是非商业用途，谢谢！

Email:charlotte77_hu@sina.com

Github:https://github.com/huxiaoman7

知乎:https://www.zhihu.com/people/charlotte77_hu

微博:http://weibo.com/2189505447/profile?topnav=1&wvr=6

微信公众号:Charlotte数据挖掘

昵称： Charlotte77
园龄： 9年2个月
荣誉：推荐博客
粉丝： 4361
关注： 8

+加关注

2025年3月

日

一

二

三

四

五

六

Charlotte77

数学系的数据挖掘民工(公众号:CharlotteDataMining，深度学习技术交流qq群:339120614)最新深度学习免费学习视频请移步我的B站：https://www.bilibili.com/video/av75414647

随笔分类 - 机器学习笔记

公告

本博客所有内容以学习、研究和分享为主，如需转载，请联系本人，标明作者和出处，并且是非商业用途，谢谢！

Email:charlotte77_hu@sina.com

Github:https://github.com/huxiaoman7

知乎:https://www.zhihu.com/people/charlotte77_hu

微博:http://weibo.com/2189505447/profile?topnav=1&wvr=6

微信公众号:Charlotte数据挖掘

搜索

常用链接

最新随笔

我的标签

积分与排名

随笔分类 (56)

随笔档案 (57)

阅读排行榜

评论排行榜

推荐排行榜

最新评论