2020 年 9月 8 日随笔档案 - 小小喽啰

2020年9月8日

sklearn.model_selection.RandomizedSearchCV随机搜索超参数

摘要： GridSearchCV可以保证在指定的参数范围内找到精度最高的参数，但是这也是网格搜索的缺陷所在，它要求遍历所有可能参数的组合，在面对大数据集和多参数的情况下，非常耗时。这也是我通常不会使用GridSearchCV的原因，一般会采用后一种RandomizedSearchCV随机参数搜索的方法 Ra 阅读全文

posted @ 2020-09-08 18:58 小小喽啰阅读(4081) 评论(0) 推荐(0) 编辑

网格搜索的两个用法

摘要： 1.两层for循环暴力检索 # naive grid search implementation from sklearn.datasets import load_iris from sklearn.svm import SVC from sklearn.model_selection impor 阅读全文

posted @ 2020-09-08 17:48 小小喽啰阅读(534) 评论(0) 推荐(0) 编辑

sklearn.model_selection.validation_curve 验证曲线

摘要：验证曲线是用来提高模型的性能，验证曲线和学习曲线很相近，不同的是这里画出的是不同参数下模型的准确率而不是不同训练集大小下的准确率，主要用来调参，validation_curve方法使用采样k折交叉验证来评估模型的性能。 sklearn.model_selection.validation_curve 阅读全文

posted @ 2020-09-08 16:52 小小喽啰阅读(1152) 评论(0) 推荐(0) 编辑

sklearn.model_selection.learning_curve学习曲线

摘要：这个函数的作用为：对于不同大小的训练集，确定交叉验证训练和测试的分数。一个交叉验证发生器将整个数据集分割k次，分割成训练集和测试集。不同大小的训练集的子集将会被用来训练评估器并且对于每一个大小的训练子集都会产生一个分数，然后测试集的分数也会计算。然后，对于每一个训练子集，运行k次之后的所有这些分数将阅读全文

posted @ 2020-09-08 16:46 小小喽啰阅读(1167) 评论(0) 推荐(0) 编辑

sklearn.pipeline.Pipeline管道简化工作流

摘要： Pipeline可以将许多算法模型串联起来，比如将特征提取、归一化、分类组织在一起形成一个典型的机器学习问题工作流 Pipeline对象接收元组构成的列表作为输入，每个元组第一个值作为变量名，元组第二个元素是sklearn中的transformer或Estimator。管道中间每一步由sklearn 阅读全文

posted @ 2020-09-08 15:47 小小喽啰阅读(323) 评论(0) 推荐(0) 编辑

什么时候需要做数据标准化

摘要：哪些模型对标准化处理比较敏感？机器学习中有部分模型是基于距离度量进行模型预测和分类的。由于距离对特征之间不同取值范围非常敏感，所以基于距离读量的模型是十分有必要做数据标准化处理的。最典型基于距离度量的模型包括k近邻、kmeans聚类、感知机和SVM。另外，线性回归类的几个模型一般情况下也是需要做阅读全文

posted @ 2020-09-08 15:13 小小喽啰阅读(2149) 评论(0) 推荐(0) 编辑

决策树_信息熵

摘要：决策树优点：计算复杂度不高，输出结果易于理解，对中间值的缺失不敏感，可以处理不相关特征数据。缺点：可能会产生过度匹配问题。适用数据类型：数值型和标称型决策树的一般流程(1) 收集数据：可以使用任何方法。(2) 准备数据：树构造算法只适用于标称型数据，因此数值型数据必须离散化。(3) 分析数据：可以阅读全文

posted @ 2020-09-08 10:55 小小喽啰阅读(581) 评论(0) 推荐(0) 编辑

KNN_01

摘要：最简单的KNN分类：即是每个测试数据逐个去减训练集数据，使用的是欧氏距离，然后选取k个距离最小的数据作为邻居，看看这几个邻居属于那种类别最多，就属于哪种类别 k-近邻算法优点：精度高、对异常值不敏感、无数据输入假定。缺点：计算复杂度高、空间复杂度高。适用数据范围：数值型和标称型。 k-近邻算法的一般阅读全文

posted @ 2020-09-08 10:48 小小喽啰阅读(210) 评论(0) 推荐(0) 编辑