12 2018 档案

摘要:海王是前段时间大热的影片,个人对这种动漫题材的电影并不是很感兴趣.然鹅,最近这部电影实在太热了,正好最近看自然语言处理的时候,无意间发现了word cloud这个生成词云的库,还蛮好玩的,那就抓抓这部电影的影评来试试吧. 爬虫抓取豆瓣海王影评 首先我们登陆豆瓣,进入海王的影评页面.然后打开影评的每一 阅读全文
posted @ 2018-12-29 11:15 core! 阅读(1498) 评论(2) 推荐(0) 编辑
摘要:先从最简单的例子开始,假设我们有一组样本(如下图的一个个黑色的圆点),只有一个特征,如下图,横轴是特征值,纵轴是label。比如横轴是房屋面积,纵轴是房屋价格. 现在我们要做什么呢?我们试图找到一条直线y=ax+b,可以尽量好的拟合这些点. 你可能要问了,为啥是直线,不是曲线,不是折线?因为我们的前 阅读全文
posted @ 2018-12-27 18:12 core! 阅读(1460) 评论(0) 推荐(2) 编辑
摘要:这篇其实应该作为机器学习的第一篇笔记的,但是在刚开始学习的时候,我还没有用博客记录笔记的打算.所以也就想到哪写到哪了. 你在网上搜索机器学习系列文章的话,大部分都是以KNN(k nearest neighbors)作为第一篇入门的,因为这个算法实在是太简单了.简单到其实没啥可说的. 问题:已知正方形 阅读全文
posted @ 2018-12-25 23:35 core! 阅读(874) 评论(0) 推荐(1) 编辑
摘要:自然语言处理NLP( natural language process)是这几年越来越火了,kaggle上的比赛有关NLP的也日渐多起来了. NLP的应用场景很多,情感分析,邮件过滤,ai客服,机器翻译等等等等,就像这几年越来越火有成为BAT之后第四极的今日头条,为什么能够为每个人推送不同的感兴趣的 阅读全文
posted @ 2018-12-24 16:46 core! 阅读(2128) 评论(1) 推荐(12) 编辑
摘要:titanic数据集是个著名的数据集.kaggle上的titanic乘客生还率预测比赛是一个很好的入门机器学习的比赛. 数据集下载可以去https://www.kaggle.com/c/titanic/data. 本身写这个系列笔记是作为自己机器学习的记录,也为了加深自己对机器学习相关知识的理解.但 阅读全文
posted @ 2018-12-15 16:59 core! 阅读(1182) 评论(0) 推荐(0) 编辑
摘要:统计关系可视化 最常用的关系可视化的函数是relplot seaborn.relplot(x=None, y=None, hue=None, size=None, style=None, data=None, row=None, col=None, col_wrap=None, row_order= 阅读全文
posted @ 2018-12-09 13:32 core! 阅读(917) 评论(0) 推荐(0) 编辑
摘要:seaborn是基于matplotlib的数据可视化库.提供更高层的抽象接口.绘图效果也更好. 用seaborn探索数据分布 绘制单变量分布 seaborn里最常用的观察单变量分布的函数是distplot()。默认地,这个函数会绘制一个直方图,并拟合一个核密度估计.如下所示: 首先解释一下啥叫核密度 阅读全文
posted @ 2018-12-06 16:39 core! 阅读(2179) 评论(0) 推荐(0) 编辑
摘要:random forest 和 extra-trees是对decison tree做ensemble而得到最终模型的两种算法. 阅读本文前需要先了解一下 机器学习笔记1:决策树 机器学习笔记2:集成学习 random_forest 决策树在节点划分上,在随机的特征子集中寻找最优划分特征.进一步增强了 阅读全文
posted @ 2018-12-04 21:53 core! 阅读(619) 评论(0) 推荐(0) 编辑
摘要:每一种机器学习算法都可以看做是一种看待数据的视角. 就像我们看待一个问题,一个观点一样.每一种视角必然有他合理的地方,也有他片面的地方.对机器学习而言,也是一样.所以为了提高我们对数据的了解程度,我们要尽可能地从多个视角考察我们的数据. 这样对新的test data,不管是分类还是回归,我们才可能有 阅读全文
posted @ 2018-12-01 00:07 core! 阅读(893) 评论(0) 推荐(0) 编辑

点击右上角即可分享
微信分享提示