上一页 1 ··· 22 23 24 25 26 27 28 29 30 ··· 48 下一页
摘要: 使用了RamdomedSearchCV迭代100次,从参数组里面选择出当前最佳的参数组合 在RamdomedSearchCV的基础上,使用GridSearchCV在上面最佳参数的周围选择一些合适的参数组合,进行参数的微调 1. RandomedSearchCV(estimator=rf, param 阅读全文
posted @ 2019-01-24 19:49 python我的最爱 阅读(777) 评论(0) 推荐(0) 编辑
摘要: 我们进行了两部分的实验: 1:提取特征重要性之和大于95%的前5个特征,进行结果的预测,并统计时间 直接使用特征进行结果的预测,统计时间 2:在上述的基础上,研究了少量数据集所花的时间,以及精度的差异 代码: 第一步:数据读取 第二步:pd.dummies() 对文本标签进行one-hot编码 第三 阅读全文
posted @ 2019-01-24 16:35 python我的最爱 阅读(778) 评论(0) 推荐(0) 编辑
摘要: 在上一个博客中,我们构建了随机森林温度预测的基础模型,并且研究了特征重要性。 在这个博客中,我们将从两方面来研究数据对预测结果的影响 第一方面:特征不变,只增加样本的数据 第二方面:增加特征数,增加样本的数据 1.sns.pairplot 画出两个变量的关系图,用于研究变量之间的线性相关性,sns. 阅读全文
posted @ 2019-01-24 11:01 python我的最爱 阅读(1795) 评论(1) 推荐(0) 编辑
摘要: 在这个案例中: 1. datetime.datetime.strptime(data, '%Y-%m-%d') # 由字符串格式转换为日期格式 2. pd.get_dummies(features) # 将数据中的文字标签转换为one-hot编码形式,增加了特征的列数 3. rf.feature_i 阅读全文
posted @ 2019-01-23 22:33 python我的最爱 阅读(4840) 评论(2) 推荐(0) 编辑
摘要: 主成分分析: 用途:降维中最常用的一种方法 目标:提取有用的信息(基于方差的大小) 存在的问题:降维后的数据将失去原本的数据意义 向量的内积:A*B = |A|*|B|*cos(a) 如果|B| = 1,那么A*B = |A| * cos(a) 即在B的方向上对A做投影 基变化: 如果向量为(3, 阅读全文
posted @ 2019-01-23 13:54 python我的最爱 阅读(724) 评论(0) 推荐(0) 编辑
摘要: 1.from sklearn.processing import LabelEncoder 进行标签的代码编译 首先需要通过model.fit 进行预编译,然后使用transform进行实际编译 2.from sklearn.discriminant_analysis import LinearDi 阅读全文
posted @ 2019-01-21 23:48 python我的最爱 阅读(2757) 评论(0) 推荐(1) 编辑
摘要: 聚类评估:轮廓系数 计算样本到同簇其他样本的平均距离ai, ai越小,说明样本越应该被聚类到该簇 计算样本到其他簇样本的平均距离bi,这个称为样本与簇Cj的不相似度 s(i) = (b(i) - a(i)) / max(b(i), a(i)) si 接近1, 说明b(i) 远大于a(i), 说明分类 阅读全文
posted @ 2019-01-21 11:25 python我的最爱 阅读(885) 评论(0) 推荐(0) 编辑
摘要: BIRCH:是一种使用树分类的算法,适用的范围是样本数大,特征数小的算法,因为特征数大的话,那么树模型结构就会要复杂很多 DBSCAN:基于概率密度的聚类方法:速度相对较慢,不适用于大型的数据,输入参数有r和k k-means:是通过不断更新聚类中心所进行的一种参数变化,需要输入的参数是需要聚成几类 阅读全文
posted @ 2019-01-21 11:19 python我的最爱 阅读(1175) 评论(0) 推荐(0) 编辑
摘要: DBSCAN 聚类算法又称为密度聚类,是一种不断发张下线而不断扩张的算法,主要的参数是半径r和k值 DBSCAN的几个概念: 核心对象:某个点的密度达到算法设定的阈值则其为核心点,核心点的意思就是一个点在半径r的范围内,如果存在k个值,那么这个点就成为核心对象 直接密度可达:若点p在q的邻域内,且q 阅读全文
posted @ 2019-01-21 10:42 python我的最爱 阅读(733) 评论(0) 推荐(0) 编辑
摘要: 无监督问题,我们手里没有标签 聚类:相似的东西聚在一起 难点:如何进行调参 K-means算法 需要制定k值,用来获得到底有几个簇,即几种类型 质心:均值,即向量各维取平均值 距离的度量: 欧式距离和余弦相似度 优化目标: min∑∑dist(ci, xi) 即每种类别的数据到该类别质心距离的之和最 阅读全文
posted @ 2019-01-19 12:27 python我的最爱 阅读(461) 评论(0) 推荐(0) 编辑
上一页 1 ··· 22 23 24 25 26 27 28 29 30 ··· 48 下一页