2022 年 12月 18 日随笔档案 - qsl_你猜

2022年12月18日

摘要：一、概述寻找一条线，最大程度的“拟合”样本与特征与样本输出标记之间的关系，推算出自变量与因变量关系，是一个预测问题。有关误差可以参考：https://www.cnblogs.com/qianslup/p/16847591.html 标准化可以参考：https://www.cnblogs.com 阅读全文

posted @ 2022-12-18 21:21 qsl_你猜阅读(44) 评论(0) 推荐(0) 编辑

模型的保存与加载joblib

摘要：一、概述 1.1 模型的保存当模型完成训练之后，可以得到参数，例如线性回归得到权重与偏置等。可以将这些参数保存起来，方便下次调用。一般与Pipeline联合使用，先用Pipline操作，在保存Pipline训练好的模型。如果不使用Pipeline，则需要将每个训练都保存起来，太过麻烦。 1.2 阅读全文

posted @ 2022-12-18 21:19 qsl_你猜阅读(384) 评论(0) 推荐(0) 编辑

决策树

摘要：一、基础概念 1.1 信息熵熵越大，数据的不确定性越高。熵越小，数据的不确定性越低；物理定义熵增：熵增过程是一个自发的由有序向无序发展的过程；条件熵：在一个条件下，随机变量的不确定性。信息增益：熵 - 条件熵；表示特征X使得Y的不确定性减少的程度（分类后的专一性，希望分类后的结果是同类在一起阅读全文

posted @ 2022-12-18 21:18 qsl_你猜阅读(118) 评论(0) 推荐(0) 编辑

AdaBoost

摘要：本文参考：https://blog.csdn.net/qq_38890412/article/details/120360354 可以直接看这位大佬的文章一、概述 1.1 同质与异质异质模型：把不同类型的算法集成在一起，基础模型要有足够大差异性（可以找出最适合当前数据的模型）同质模型：通过一个阅读全文

posted @ 2022-12-18 21:18 qsl_你猜阅读(55) 评论(0) 推荐(0) 编辑

Bagging集成学习

摘要：一、概述 1.1 基本原理通过上图我们知道，bagging是每个弱学习器之间的并行计算最后综合预测，各个弱学习器之间没有依赖关系，在训练集到子训练器的过程叫做“子抽样” 子抽样：比如有750个样本，每次抽取500个，抽取四次。第一次随机抽取500个，第二次也抽取500个，第一次与第二次抽取的数据阅读全文

posted @ 2022-12-18 21:18 qsl_你猜阅读(91) 评论(0) 推荐(0) 编辑

集成学习之VotingClassifier

摘要：一、概述同一个问题可能通过不同的机器学习模型来解决，那么哪个解决方案会更客观呢？这种集成算法一般应用与分类问题。思路很简单。假如有5种机器学习模型来进行分类预测，就拥有5个预测的结果集，那么这5种模型，一种模型一票。然后遵循少数服从多数原则。投票分类器有硬投票和软投票两种，硬投票是对结果进行投阅读全文

posted @ 2022-12-18 21:18 qsl_你猜阅读(394) 评论(0) 推荐(0) 编辑

随机森林

摘要：一、概述 1.1 原理随机森林就是通过集成学习的思想将多棵树集成的一种算法，它的基本单元是决策树随机森林是bagging+DecisionTreeClassifier ，所谓随机森林的弱学习器都是决策树；随机森林在bagging的样本随机采样基础上，又加上了特征的随机选择，其基本思想没有脱离ba 阅读全文

posted @ 2022-12-18 21:17 qsl_你猜阅读(92) 评论(0) 推荐(0) 编辑

交叉验证与网格搜索

摘要：一、概述 1.1 为什么用网格搜索与交叉验证在机器学习中，有大量的超参数需要指定；如果超参数指定不合适，则会出现过拟合和欠拟合。而指定超参数，一种方法是凭经验；一种方法是穷举。网格搜索可以尝试制定的每一种超参数，表现最好的参数就是最终的结果。但是比较耗时。二、网格搜索 2.1 estima 阅读全文

posted @ 2022-12-18 21:17 qsl_你猜阅读(122) 评论(0) 推荐(0) 编辑

Pipeline工作流

摘要：一、概述 pipeline实现了对特征处理与机器学习的封装流程化管理，期间处理的参数可以很方便的在测试集和未来数据上反复使用。 Pipeline都是执行各学习器中对应的方法，如果该学习器没有该方法，则报错假设该pipeline有n个学习器 fit依次对前n-1的学习器执行fit和transform 阅读全文

posted @ 2022-12-18 21:16 qsl_你猜阅读(55) 评论(0) 推荐(0) 编辑

PCA 主成分分析

摘要：一、概述 PCA（Principal Component Analysis）常用于高维数据的降维，可用于提取数据的主要特征分量。 1.1 内积两个向量的 A 和 B 内积我们知道形式是这样的：内积运算将两个向量映射为实数，其计算方式非常容易理解，但我们无法看出其物理含义。接下来我们从几何角度来阅读全文

posted @ 2022-12-18 21:16 qsl_你猜阅读(101) 评论(0) 推荐(0) 编辑

DBSCAN

摘要：一、概述 DBSCAN(Density-Based Spatial Clustering of Applications with Noise)是Martin Ester, Hans-PeterKriegel等人于1996年提出的一种基于密度的空间的数据聚类方法，算法将具有足够密度区域作为距离中心，阅读全文

posted @ 2022-12-18 21:16 qsl_你猜阅读(182) 评论(0) 推荐(0) 编辑

Kmeans

摘要：一、KMeans算法步骤是最简单的聚类算法之一，算法接受参数 k ；然后将事先输入的n个数据对象划分为k个聚类以便使得所获得的聚类满足：同一聚类中的对象相似度较高；而不同聚类中的对象相似度较小。指定要分成的聚类数，算法的K值默认为5，也叫5个簇（聚类）然后在样本空间中随机挑选K个数据点，作为簇阅读全文

posted @ 2022-12-18 21:16 qsl_你猜阅读(49) 评论(0) 推荐(0) 编辑

分词

摘要：一、概述对文本进行分析时，经常需要先进行分析，为后面将文本向量化做准备。二、jieba分词参考：https://blog.csdn.net/qq_45288176/article/details/115681292 2.1 什么事jieba（结巴）库字如其名，结巴库主要用于中文分词，很形象的阅读全文

posted @ 2022-12-18 21:16 qsl_你猜阅读(16) 评论(0) 推荐(0) 编辑

贝叶斯

摘要：一、概述 1.1 数学公式二、利用贝叶斯进行文本分析 2.1 文本向量化对数据进行预处理，进行分词，并把文本向量化是贝叶斯算法的关键也是难点。分词可以参考：https://www.cnblogs.com/qianslup/p/16907569.html 文本向量化可以参考：https://ww 阅读全文

posted @ 2022-12-18 21:14 qsl_你猜阅读(43) 评论(0) 推荐(0) 编辑

windows11安装Graphviz

摘要：一下载地址 https://graphviz.org/download/ 我选择的是64位的7.0.4版本。二、安装步骤 2.1 正常安装就是一直按下一步就行。 2.2 配置环境变量如果没有配置环境变量，可按照下图配置环境变量注意路径，找到安装路径的bin所有绝对路径，复制过去就行了 2. 阅读全文

posted @ 2022-12-18 21:12 qsl_你猜阅读(970) 评论(0) 推荐(0) 编辑

逻辑回归

摘要：一、概述 1.1 模型间接 Logistic Regression 虽然被称为回归，但其实际上是分类模型，并常用于二分类； Logistic 回归的本质是：假设数据服从这个分布（sigmoid函数），然后使用极大似然估计做参数的估计。二、数学依据 2.1 sigmoid函数逻辑回归模型本质就是将阅读全文

posted @ 2022-12-18 21:12 qsl_你猜阅读(18) 评论(0) 推荐(0) 编辑

SVM向量机

摘要：一、基本概念 1.1 支持向量机支持向量机（Support Vector Machine，SVM）是一类按监督学习方式对数据进行二元分类的广义线性分类器，其决策边界是对学习样本求解的最大边距超平面。体来说就是在线性可分时，在原空间寻找两类样本的最优分类超平面。在线性不可分时，加入松弛变量并通阅读全文

posted @ 2022-12-18 21:11 qsl_你猜阅读(21) 评论(0) 推荐(0) 编辑

K近邻

摘要：一、概述 1.1 关键点我们提出了k近邻算法，算法的核心思想是，即是给定一个训练数据集，对新的输入实例，在训练数据集中找到与该实例最邻近的K个实例，这K个实例的多数属于某个类，就把该输入实例分类到这个类中。更通俗说一遍算法的过程，来了一个新的输入实例，我们算出该实例与每一个训练点的距离（这里的复阅读全文

posted @ 2022-12-18 21:10 qsl_你猜阅读(5) 评论(0) 推荐(0) 编辑

数据预处理与特征工程

摘要：一、概述数据预处理是数据分析过程中的重要环节，它直接决定了后期所有数据分析的质量和价值输出。从数据预处理的主要内容看，包括数据清洗、转换、归约、聚合、抽样等8个方向好多方法既是预处理的方法，也是特征工程的方法，便把两个放在一起讲了。二、数据清洗、空值、异常值在数据清洗过程中，主要处理的是缺失阅读全文

posted @ 2022-12-18 21:09 qsl_你猜阅读(160) 评论(0) 推荐(0) 编辑

机器学习常用评判依据

摘要：一、概述需要对推算结果与真实结果进行评判，主要有下属各种。二、方差与标准差 2.1 含义 2.2 Pyhton展示 import numpy as np y_true = np.array([1.0, 2.0, 3.0, 4.0]) var = np.var(y_true) std = np.s 阅读全文

posted @ 2022-12-18 21:09 qsl_你猜阅读(51) 评论(0) 推荐(0) 编辑

qsl_你猜

公告