摘要: 一、值域(Range) Range = Max Min 受异常值(Outliers)影响 二、四分位差(IQR) 四分位距(interquartile range, IQR),又称四分差。是描述统计学中的一种方法,以确定第三四分位数和第一四分位数的区别(即Q1~Q3 的差距)。 三、异常值(Outl 阅读全文
posted @ 2017-09-25 23:19 Neo007 阅读(9626) 评论(0) 推荐(0) 编辑
摘要: 重视Code Review 极致——目标是成为优秀的开发者 Data tells a story!(数据会讲故事) 分析过程对于建模非常的重要,可以帮助我们减少实际上不相关的特征被错误的加入到模型中,尽管在一些模型里,比如线性回归,在建模后期可以通过一定的方法将这些不相关的特征识别出来,但既然能够通 阅读全文
posted @ 2017-09-25 23:03 Neo007 阅读(1961) 评论(0) 推荐(0) 编辑
摘要: 机器学习就像酿制葡萄酒——好的葡萄(数据)+好的酿酒方法(机器学习算法) 监督分类 supervised classification Features —— Labels 保留10%的数据作为测试数据集 监督学习之朴素贝叶斯 Naive Bayes——寻找决策面 scikit learn使用入门 阅读全文
posted @ 2017-09-25 22:59 Neo007 阅读(258) 评论(0) 推荐(0) 编辑