摘要: 来自 http://datartisan.com/article/detail/74.html 导语: 提升一个模型的表现有时很困难。如果你们曾经纠结于相似的问题,那我相信你们中很多人会同意我的看法。你会尝试所有曾学习过的策略和算法,但模型正确率并没有改善。你会觉得无助和困顿,这是90%的数据科学家 阅读全文
posted @ 2016-02-10 23:56 罗兵 阅读(1870) 评论(0) 推荐(1) 编辑
摘要: 作者:Edwin Jarvis 特征选择(排序)对于数据科学家、机器学习从业者来说非常重要。好的特征选择能够提升模型的性能,更能帮助我们理解数据的特点、底层结构,这对进一步改善模型、算法都有着重要作用。 特征选择主要有两个功能: 减少特征数量、降维,使模型泛化能力更强,减少过拟合 增强对特征和特征值 阅读全文
posted @ 2016-02-10 23:47 罗兵 阅读(93331) 评论(5) 推荐(36) 编辑
摘要: 转载自:简书主页(http://www.jianshu.com/users/2bd9b48f6ea8/latest_articles) 引言 对于一些开始搞机器学习算法有害怕下手的小朋友,该如何快速入门,这让人挺挣扎的。 在从事数据科学的人中,最常用的工具就是R和Python了,每个工具都有其利弊, 阅读全文
posted @ 2016-02-10 23:34 罗兵 阅读(3167) 评论(0) 推荐(2) 编辑
摘要: sklearn Table of Contents 1. Overview 2. Building Blocks 3. Supervised Learning 3.1. Support Vector Machines 3.2. Ensemble methods 3.3. Nearest Neighb 阅读全文
posted @ 2016-02-10 23:09 罗兵 阅读(7679) 评论(0) 推荐(2) 编辑
摘要: 所谓分类,就是根据事物的特征(Feature)对其归类(Class) 特征的数据特点有两种可能: 1. 离散/标签 2. 连续/浮点数(大样本/小样本) 下面我们分别来看 一、离散/标签 这是一个病人分类的例子 某个医院早上收了六个门诊病人,如下表。 症状 职业 疾病 打喷嚏 护士 感冒 打喷嚏 农 阅读全文
posted @ 2016-02-10 00:34 罗兵 阅读(988) 评论(0) 推荐(0) 编辑