摘要: 这篇其实应该作为机器学习的第一篇笔记的,但是在刚开始学习的时候,我还没有用博客记录笔记的打算.所以也就想到哪写到哪了. 你在网上搜索机器学习系列文章的话,大部分都是以KNN(k nearest neighbors)作为第一篇入门的,因为这个算法实在是太简单了.简单到其实没啥可说的. 问题:已知正方形 阅读全文
posted @ 2018-12-25 23:35 core! 阅读(872) 评论(0) 推荐(1) 编辑
摘要: 自然语言处理NLP( natural language process)是这几年越来越火了,kaggle上的比赛有关NLP的也日渐多起来了. NLP的应用场景很多,情感分析,邮件过滤,ai客服,机器翻译等等等等,就像这几年越来越火有成为BAT之后第四极的今日头条,为什么能够为每个人推送不同的感兴趣的 阅读全文
posted @ 2018-12-24 16:46 core! 阅读(2123) 评论(1) 推荐(12) 编辑
摘要: titanic数据集是个著名的数据集.kaggle上的titanic乘客生还率预测比赛是一个很好的入门机器学习的比赛. 数据集下载可以去https://www.kaggle.com/c/titanic/data. 本身写这个系列笔记是作为自己机器学习的记录,也为了加深自己对机器学习相关知识的理解.但 阅读全文
posted @ 2018-12-15 16:59 core! 阅读(1176) 评论(0) 推荐(0) 编辑
摘要: 统计关系可视化 最常用的关系可视化的函数是relplot seaborn.relplot(x=None, y=None, hue=None, size=None, style=None, data=None, row=None, col=None, col_wrap=None, row_order= 阅读全文
posted @ 2018-12-09 13:32 core! 阅读(914) 评论(0) 推荐(0) 编辑
摘要: seaborn是基于matplotlib的数据可视化库.提供更高层的抽象接口.绘图效果也更好. 用seaborn探索数据分布 绘制单变量分布 seaborn里最常用的观察单变量分布的函数是distplot()。默认地,这个函数会绘制一个直方图,并拟合一个核密度估计.如下所示: 首先解释一下啥叫核密度 阅读全文
posted @ 2018-12-06 16:39 core! 阅读(2175) 评论(0) 推荐(0) 编辑
摘要: random forest 和 extra-trees是对decison tree做ensemble而得到最终模型的两种算法. 阅读本文前需要先了解一下 机器学习笔记1:决策树 机器学习笔记2:集成学习 random_forest 决策树在节点划分上,在随机的特征子集中寻找最优划分特征.进一步增强了 阅读全文
posted @ 2018-12-04 21:53 core! 阅读(613) 评论(0) 推荐(0) 编辑
摘要: 每一种机器学习算法都可以看做是一种看待数据的视角. 就像我们看待一个问题,一个观点一样.每一种视角必然有他合理的地方,也有他片面的地方.对机器学习而言,也是一样.所以为了提高我们对数据的了解程度,我们要尽可能地从多个视角考察我们的数据. 这样对新的test data,不管是分类还是回归,我们才可能有 阅读全文
posted @ 2018-12-01 00:07 core! 阅读(889) 评论(0) 推荐(0) 编辑
摘要: 系统不确定性的度量 先来看2个概念. 信息熵 $$h(\theta)=\sum_{j=0}^n \theta_jx_j$$ 基尼系数 $$G=1-\sum_{i=0}^n p_i^2$$ 二者都反映了信息的不确定性,是信息不确定性的不同评价标准. 关于信息熵,在数学之美中,有一段通俗易懂的例子. s 阅读全文
posted @ 2018-11-28 15:39 core! 阅读(637) 评论(0) 推荐(0) 编辑
摘要: 一直搞不清楚各种五花八门的开源协议之间的关系,下面这个链接好像说的还蛮清楚的.转发记录.http://jasonding1354.github.io/2015/05/11/Git/%E3%80%90Git%E3%80%91%E8%AE%A4%E8%AF%86%E5%90%84%E7%A7%8D%E5... 阅读全文
posted @ 2015-11-25 11:29 core! 阅读(889) 评论(0) 推荐(0) 编辑
摘要: 最近工作不忙,写了个脚本统计代码行数.记录于此方便以后查阅.python版本2.7 1 # -*- coding: cp936 -*- 2 import os 3 4 totalLineCounts = 0 5 fileCounts = 0 6 7 def GetLines(fullFilena... 阅读全文
posted @ 2015-10-15 16:13 core! 阅读(376) 评论(0) 推荐(0) 编辑