python我的最爱

2019年1月24日

机器学习入门-随机森林预测温度-不同参数对结果的影响调参 1.RandomedSearchCV(随机参数组的选择) 2.GridSearchCV(网格参数搜索) 3.pprint(顺序打印) 4.rf.get_params(获得当前的输入参数)

摘要：使用了RamdomedSearchCV迭代100次，从参数组里面选择出当前最佳的参数组合在RamdomedSearchCV的基础上，使用GridSearchCV在上面最佳参数的周围选择一些合适的参数组合，进行参数的微调 1. RandomedSearchCV(estimator=rf, param 阅读全文

posted @ 2019-01-24 19:49 python我的最爱阅读(847) 评论(0) 推荐(0)

机器学习入门-随机森林预测气温-减少特征-研究时间和精度的关系

摘要：我们进行了两部分的实验： 1：提取特征重要性之和大于95%的前5个特征，进行结果的预测，并统计时间直接使用特征进行结果的预测，统计时间 2：在上述的基础上，研究了少量数据集所花的时间，以及精度的差异代码：第一步：数据读取第二步：pd.dummies() 对文本标签进行one-hot编码第三阅读全文

posted @ 2019-01-24 16:35 python我的最爱阅读(833) 评论(0) 推荐(0)

机器学习入门-随机森林温度预测-增加样本数据 1.sns.pairplot(画出两个关系的散点图) 2.MAE(平均绝对误差) 3.MAPE(准确率指标)

摘要：在上一个博客中，我们构建了随机森林温度预测的基础模型，并且研究了特征重要性。在这个博客中，我们将从两方面来研究数据对预测结果的影响第一方面：特征不变，只增加样本的数据第二方面：增加特征数，增加样本的数据 1.sns.pairplot 画出两个变量的关系图，用于研究变量之间的线性相关性，sns. 阅读全文

posted @ 2019-01-24 11:01 python我的最爱阅读(1863) 评论(1) 推荐(0)

2019年1月23日

机器学习入门-随机森林温度预测的案例 1.datetime.datetime.datetime(将字符串转为为日期格式) 2.pd.get_dummies(将文本标签转换为one-hot编码) 3.rf.feature_importances_(研究样本特征的重要性) 4.fig.autofmt_xdate(rotation=60) 对标签进行翻转

摘要：在这个案例中： 1. datetime.datetime.strptime(data, '%Y-%m-%d') # 由字符串格式转换为日期格式 2. pd.get_dummies(features) # 将数据中的文字标签转换为one-hot编码形式，增加了特征的列数 3. rf.feature_i 阅读全文

posted @ 2019-01-23 22:33 python我的最爱阅读(4904) 评论(2) 推荐(0)

机器学习入门-主成分分析(PCA)

摘要：主成分分析：用途：降维中最常用的一种方法目标：提取有用的信息(基于方差的大小) 存在的问题：降维后的数据将失去原本的数据意义向量的内积：A*B = |A|*|B|*cos(a) 如果|B| = 1，那么A*B = |A| * cos(a) 即在B的方向上对A做投影基变化: 如果向量为(3, 阅读全文

posted @ 2019-01-23 13:54 python我的最爱阅读(776) 评论(0) 推荐(0)

2019年1月21日

机器学习入门-线性判别分析（LDA）1.LabelEncoder(进行标签的数字映射) 2.LinearDiscriminantAnalysis (sklearn的LDA模块)

摘要： 1.from sklearn.processing import LabelEncoder 进行标签的代码编译首先需要通过model.fit 进行预编译，然后使用transform进行实际编译 2.from sklearn.discriminant_analysis import LinearDi 阅读全文

posted @ 2019-01-21 23:48 python我的最爱阅读(2861) 评论(0) 推荐(1)

机器学习入门-轮廓系数聚类效果的评估

摘要：聚类评估：轮廓系数计算样本到同簇其他样本的平均距离ai， ai越小，说明样本越应该被聚类到该簇计算样本到其他簇样本的平均距离bi，这个称为样本与簇Cj的不相似度 s(i) = (b(i) - a(i)) / max(b(i), a(i)) si 接近1，说明b(i) 远大于a(i)，说明分类阅读全文

posted @ 2019-01-21 11:25 python我的最爱阅读(940) 评论(0) 推荐(0)

多种聚类算法概述（BIRCH, DBSCAN， K-means， MEAN-SHIFT）

摘要： BIRCH:是一种使用树分类的算法，适用的范围是样本数大，特征数小的算法，因为特征数大的话，那么树模型结构就会要复杂很多 DBSCAN：基于概率密度的聚类方法：速度相对较慢，不适用于大型的数据，输入参数有r和k k-means：是通过不断更新聚类中心所进行的一种参数变化，需要输入的参数是需要聚成几类阅读全文

posted @ 2019-01-21 11:19 python我的最爱阅读(1245) 评论(0) 推荐(0)

机器学习入门-DBSCAN聚类算法

摘要： DBSCAN 聚类算法又称为密度聚类，是一种不断发张下线而不断扩张的算法，主要的参数是半径r和k值 DBSCAN的几个概念：核心对象：某个点的密度达到算法设定的阈值则其为核心点，核心点的意思就是一个点在半径r的范围内，如果存在k个值，那么这个点就成为核心对象直接密度可达：若点p在q的邻域内，且q 阅读全文

posted @ 2019-01-21 10:42 python我的最爱阅读(781) 评论(0) 推荐(0)

2019年1月19日

机器学习入门-K-means算法

摘要：无监督问题，我们手里没有标签聚类：相似的东西聚在一起难点：如何进行调参 K-means算法需要制定k值，用来获得到底有几个簇，即几种类型质心：均值，即向量各维取平均值距离的度量：欧式距离和余弦相似度优化目标： min∑∑dist(ci, xi) 即每种类别的数据到该类别质心距离的之和最阅读全文

posted @ 2019-01-19 12:27 python我的最爱阅读(488) 评论(0) 推荐(0)