nolonely

2017年6月13日

摘要：特征抽取sklearn.feature_extraction 模块提供了从原始数据如文本，图像等众抽取能够被机器学习算法直接处理的特征向量。 1.特征抽取方法之 Loading Features from Dicts 2.特征抽取方法之 Features hashing 3.特征抽取方法之 Text 阅读全文

posted @ 2017-06-13 11:39 nolonely 阅读(2134) 评论(3) 推荐(1) 编辑

2017年6月11日

sklearn 模型选择和评估

摘要：一、模型验证方法如下： ①通过交叉验证得分：model_sleection.cross_val_score(estimator,X) 结果图 ②对每个输入数据点产生交叉验证估计：model_selection.cross_val_predict(estimator,X) ③、计算并绘制模型的学习率曲阅读全文

posted @ 2017-06-11 17:22 nolonely 阅读(7907) 评论(0) 推荐(3) 编辑

2017年6月10日

sklearn提供的自带的数据集

摘要： sklearn 的数据集有好多个种自带的小数据集（packaged dataset）：sklearn.datasets.load_<name> 可在线下载的数据集（Downloaded Dataset）：sklearn.datasets.fetch_<name> 计算机生成的数据集（Generat 阅读全文

posted @ 2017-06-10 22:10 nolonely 阅读(93727) 评论(0) 推荐(11) 编辑

2017年6月9日

sklearn算法库的顶层设计

摘要： sklearn监督学习的各个模块 neighbors近邻算法,svm支持向量机,kernal_ridge核岭回归,discriminant_analysis判别分析,linear_model广义线性模型 ensemble集成方法,tree决策树,native_bayes朴素贝叶斯,cross_dec 阅读全文

posted @ 2017-06-09 21:06 nolonely 阅读(1417) 评论(0) 推荐(0) 编辑

sklearn 中的 Pipeline 机制和FeatureUnion

摘要：一、pipeline的用法 pipeline可以用于把多个estimators级联成一个estimator，这么做的原因是考虑了数据处理过程中一系列前后相继的固定流程，比如feature selection->normalization->classification pipeline提供了两种服阅读全文

posted @ 2017-06-09 09:31 nolonely 阅读(7448) 评论(0) 推荐(1) 编辑

2017年6月8日

一种新型聚类算法(Clustering by fast search and find of density peaksd)

摘要：最近在学习论文的时候发现了在science上发表的关于新型的基于密度的聚类算法 Kmean算法有很多不足的地方，比如k值的确定，初始结点选择，而且还不能检测费球面类别的数据分布，对于第二个问题，提出了Kmean++，而其他不足还没有解决，dbscan虽然可以对任意形状分布的进行聚类，但是必须指定一个阅读全文

posted @ 2017-06-08 21:21 nolonely 阅读(9872) 评论(0) 推荐(6) 编辑

机器学习算法--GBDT

摘要：转自 http://blog.csdn.net/u014568921/article/details/49383379 另外一个很容易理解的文章：http://www.jianshu.com/p/005a4e6ac775 更多参考如下机器学习（四）— 从gbdt到xgboost 机器学习常见算法阅读全文

posted @ 2017-06-08 14:47 nolonely 阅读(1145) 评论(0) 推荐(0) 编辑

2017年6月7日

kaggle 泰坦尼克号问题总结

摘要：学习了机器学习这么久，第一次真正用机器学习中的方法解决一个实际问题，一步步探索，虽然最后结果不是很准确，仅仅达到了0.78647，但是真是收获很多，为了防止以后我的记忆虫上脑，我决定还是记录下来好了。 1，看到样本是，查看样本的分布和统计情况通常遇到缺值的情况，我们会有几种常见的处理方式如果缺值阅读全文

posted @ 2017-06-07 10:26 nolonely 阅读(4840) 评论(0) 推荐(0) 编辑

2017年6月5日

python3 使用matplotlib画图出现中文乱码的情况

摘要： python3使用matplotlib画图，因python3默认使用中unicode编码，所以在写代码时不再需要写 plt.xlabel(u’人数’)，而是直接写plt.xlabel(‘人数’)。注意：在有中文的地方加上中文相关的字体，不然会因为没有字体显示成放框，因为默认的使用的字体里没有中文阅读全文

posted @ 2017-06-05 11:40 nolonely 阅读(8246) 评论(0) 推荐(0) 编辑

2017年6月1日

<转>pandas学习

摘要： 1.Pandas 基本介绍 Numpy 和 Pandas 有什么不同? 如果用 python 的列表和字典来作比较, 那么可以说 Numpy 是列表形式的，没有数值标签，而 Pandas 就是字典形式。Pandas是基于Numpy构建的，让Numpy为中心的应用变得更加简单。 pandas基本功能和阅读全文

posted @ 2017-06-01 21:08 nolonely 阅读(411) 评论(0) 推荐(0) 编辑

很多时候不是我们做不好，而是没有竭尽全力......