摘要:
1. 说明 前篇《实战微博互动预测之一_问题分析》中,已经对微博的整体反馈情况,以及单个用户的反馈做了初步的分析。本篇将从微博的信息内容中提取更多特征。 文本分析是数据分析中的常用技术,使用范围很广,比如:信息搜索,内容推荐,文章分类,内容提取等等。... 阅读全文
摘要:
1. 天池竞赛平台 微博互动预测是一个天池平台的竞赛,和其它平台相比,天池的数据量更大,赛题更接近实际场景。微信互动比赛算是其中比较小的,训练数据也有300多M,上百万条记录(虽然数据较多,但也是普通开发机可以处理的量级)。数据内容也比较丰富,和提供匿... 阅读全文
摘要:
这是本系列“实战人品预测”的最后一篇:向高手学习。在之前的两篇:《实战人品预测之一国内大数据竞赛平台》和《实战人品预测之二热门模型xgboost》中我们尝试了DataCastle平台的“微额借款用户人品预测大赛”,对数据不做任何处理,仅用xgboost... 阅读全文
摘要:
1. 介绍 有人戏称数据挖掘比赛为GBDT调参大赛,因为在很多比赛后期,大家都使用GBDT类的算法,特征类似,只有模型参数不同,模型集成方法不同,最终大家的成绩差别也很小。 上篇《实战人品预测之一_国内大数据竞赛平台》,介绍DataCastle平台的... 阅读全文
摘要:
1. 竞赛平台哪家强 Kaggle是一个很好的竞赛平台,上面大牛很多,代码分享和思路讲解也很棒,但是它的用户信息和数据全都存在google服务器上,虽然网页能看到,但上传下载数据需要连外网,从当前的网络情况看来,只能用VPN,用起来实在太麻烦了。 国... 阅读全文
摘要:
一、 数据挖掘十大经典算法 最近写了一些机器学习的文档,对应数据挖掘经典算法,列表如下: 1. 聚类K-Means 《机器学习_基于距离的算法KNN与K-Means》 2. 关联Apriori 《机器学习_规则与关联规则模型Apriori、FP-... 阅读全文
摘要:
1. 何时使用规则模型 机器学习时常遇到一个问题:当数据并不完全可分时,分类器得分不高。真实世界中的数据经常是这样:各种无意义数据和少量有意义数据混在一起,无意义数据又没什么规律,无法统一去除。比如说,对股票外汇市场受各种因素影响,预测次日涨跌一般各算... 阅读全文
摘要:
1. 距离的量度 1) 距离 距离的定义是一个宽泛的概念:只要满足非负、自反、三角不等式就可以称之为距离。其中非负是指任意两个相异点的距离为正;自反是Dis(y,x)=Dis(x,y);三角不等式是Dis(x,z)<=Dis(x,y)+Dis(y,z... 阅读全文
摘要:
1. 介绍 SVM支持向量机属于广义的线性模型,先回忆一下线性模型:可依据平面(多维)或直线(一维/二维)来理解模型。简单地说,可用一条线将两类分开,如下图所示。 能将两类分开的直线不止一条(左图),我们希... 阅读全文
摘要:
1. 条件独立假设 条件独立假设简单的说就是特征x1和x2没有关系,比如说兔子的特征中,尾巴短和爱吃萝卜这两个特征它们分别和兔子相关,但两特征彼此之间无关,不是说尾巴短的都爱吃萝卜。所以有p(x2|x1)=p(x2),即无论x1是什么,x2的概率都不变... 阅读全文