摘要: 转载:http://blog.csdn.net/w28971023/article/details/8240756 GBDT(Gradient Boosting Decision Tree) 又叫 MART(Multiple Additive Regression Tree),是一种迭代的决策树算法 阅读全文
posted @ 2016-05-20 11:33 hudongni1 阅读(2158) 评论(0) 推荐(1) 编辑
摘要: 参考:http://blog.csdn.net/geekmanong/article/details/50494936 http://www.2cto.com/kf/201503/383087.html SVD(Singular Value Decomposition)奇异值分解: 优点:用来简化数 阅读全文
posted @ 2016-05-18 22:46 hudongni1 阅读(361) 评论(0) 推荐(0) 编辑
摘要: 1.数据标准化(Standardization or Mean Removal and Variance Scaling) 进行标准化缩放的数据均值为0,具有单位方差。 同样我们也可以通过preprocessing模块提供的Scaler(StandardScaler 0.15以后版本)工具类来实现这 阅读全文
posted @ 2016-04-26 22:31 hudongni1 阅读(2404) 评论(0) 推荐(0) 编辑
摘要: 方法一 《用Python 进行自然语言处理》(东南大学出版社) cs181.1伯克利人工智能课程(edX) 斯坦福机器学习课程(Coursera) cs229 斯坦福机器学习讲义 一个文本分类的project 《统计学习方法》(李航,清华大学出版社) Pattern Recognition And 阅读全文
posted @ 2016-04-14 21:28 hudongni1 阅读(1401) 评论(0) 推荐(0) 编辑
摘要: 1.加载数据(Data Loading) 假设输入是特征矩阵或者csv文件,首先数据被载入内存。 scikit-learn的实现使用了NumPy中的arrays,所以,使用NumPy来载入csv文件。以下是从UCI机器学习数据仓库中下载的数据。 2.数据归一化(Data Normalization) 阅读全文
posted @ 2016-04-07 19:18 hudongni1 阅读(656) 评论(0) 推荐(0) 编辑
摘要: Recall(召回率);Precision(准确率);F1-Meature(综合评价指标);在信息检索(如搜索引擎)、自然语言处理和检测分类中经常会使用这些参数。 Precision:被检测出来的信息当中正确的或者相关的(也就是你想要的)信息中所占的比例(TP占预测总正样本的比例); Recall: 阅读全文
posted @ 2016-04-06 22:28 hudongni1 阅读(524) 评论(0) 推荐(0) 编辑
摘要: 用Anaconda的spyder:新建train_test.py 结果: 在这个数据集中,由于数据分布的团簇性较好(如果对这个数据库了解的话,看它的t-SNE映射图就可以看出来。由于任务简单,其在deep learning界已被认为是toy dataset),因此KNN的效果不赖。GBDT是个非常不 阅读全文
posted @ 2016-04-06 21:19 hudongni1 阅读(1403) 评论(0) 推荐(0) 编辑
摘要: #coding:utf-8 from matplotlib import mpl import matplotlib.pyplot as plt#载入matplotlib快速绘图的函数库 import numpy as np data = np.clip(np.random.randn(5,5),- 阅读全文
posted @ 2016-04-01 16:37 hudongni1 阅读(4702) 评论(0) 推荐(0) 编辑
摘要: 方法一: 1.安装python-2.7.6.amd64.msi(安装在D:\Program Files\Python\python27\下) numpy-MKL-1.8.0.win-amd64-py2.7.exe matplotlib-1.3.1.win-amd64-py2.7.exe 2.配置py 阅读全文
posted @ 2016-04-01 14:48 hudongni1 阅读(599) 评论(0) 推荐(0) 编辑
摘要: 注:理论部分参考:http://blog.csdn.net/v_july_v/article/details/7624837 (1)SVM是现成最好的分类器,这里“现成”指的是分类器不加修改即可直接使用。 (2)SVM的实现方法有很多,最常用的就是序列最小最优化算法(SMO,sequentialmi 阅读全文
posted @ 2016-02-23 17:46 hudongni1 阅读(197) 评论(0) 推荐(0) 编辑