摘要: 一、 概述 寻找一条线,最大程度的“拟合”样本与特征与样本输出标记之间的关系,推算出自变量与因变量关系,是一个预测问题。 有关误差可以参考:https://www.cnblogs.com/qianslup/p/16847591.html 标准化可以参考:https://www.cnblogs.com 阅读全文
posted @ 2022-12-18 21:21 qsl_你猜 阅读(44) 评论(0) 推荐(0) 编辑
摘要: 一、概述 1.1 模型的保存 当模型完成训练之后,可以得到参数,例如线性回归得到权重与偏置等。可以将这些参数保存起来,方便下次调用。 一般与Pipeline联合使用,先用Pipline操作,在保存Pipline训练好的模型。 如果不使用Pipeline,则需要将每个训练都保存起来,太过麻烦。 1.2 阅读全文
posted @ 2022-12-18 21:19 qsl_你猜 阅读(384) 评论(0) 推荐(0) 编辑
摘要: 一、基础概念 1.1 信息熵 熵越大,数据的不确定性越高。熵越小,数据的不确定性越低; 物理定义熵增:熵增过程是一个自发的由有序向无序发展的过程; 条件熵:在一个条件下,随机变量的不确定性。 信息增益:熵 - 条件熵;表示特征X使得Y的不确定性减少的程度(分类后的专一性,希望分类后的结果是同类在一起 阅读全文
posted @ 2022-12-18 21:18 qsl_你猜 阅读(118) 评论(0) 推荐(0) 编辑
摘要: 本文参考:https://blog.csdn.net/qq_38890412/article/details/120360354 可以直接看这位大佬的文章 一、概述 1.1 同质与异质 异质模型:把不同类型的算法集成在一起,基础模型要有足够大差异性(可以找出最适合当前数据的模型) 同质模型:通过一个 阅读全文
posted @ 2022-12-18 21:18 qsl_你猜 阅读(55) 评论(0) 推荐(0) 编辑
摘要: 一、概述 1.1 基本原理 通过上图我们知道,bagging是每个弱学习器之间的并行计算最后综合预测,各个弱学习器之间没有依赖关系, 在训练集到子训练器的过程叫做“子抽样” 子抽样:比如有750个样本,每次抽取500个,抽取四次。第一次随机抽取500个,第二次也抽取500个,第一次与第二次抽取的数据 阅读全文
posted @ 2022-12-18 21:18 qsl_你猜 阅读(91) 评论(0) 推荐(0) 编辑
摘要: 一、概述 同一个问题可能通过不同的机器学习模型来解决,那么哪个解决方案会更客观呢? 这种集成算法一般应用与分类问题。思路很简单。假如有5种机器学习模型来进行分类预测,就拥有5个预测的结果集,那么这5种模型,一种模型一票。然后遵循少数服从多数原则。 投票分类器有硬投票和软投票两种,硬投票是对结果进行投 阅读全文
posted @ 2022-12-18 21:18 qsl_你猜 阅读(394) 评论(0) 推荐(0) 编辑
摘要: 一、概述 1.1 原理 随机森林就是通过集成学习的思想将多棵树集成的一种算法,它的基本单元是决策树 随机森林是bagging+DecisionTreeClassifier ,所谓随机森林的弱学习器都是决策树;随机森林在bagging的样本随机采样基础上,又加上了特征的随机选择,其基本思想没有脱离ba 阅读全文
posted @ 2022-12-18 21:17 qsl_你猜 阅读(92) 评论(0) 推荐(0) 编辑
摘要: 一、概述 1.1 为什么用网格搜索与交叉验证 在机器学习中,有大量的超参数需要指定;如果超参数指定不合适,则会出现过拟合和欠拟合。 而指定超参数,一种方法是凭经验;一种方法是穷举。 网格搜索可以尝试制定的每一种超参数,表现最好的参数就是最终的结果。但是比较耗时。 二、 网格搜索 2.1 estima 阅读全文
posted @ 2022-12-18 21:17 qsl_你猜 阅读(122) 评论(0) 推荐(0) 编辑
摘要: 一、概述 pipeline实现了对特征处理与机器学习的封装流程化管理,期间处理的参数可以很方便的在测试集和未来数据上反复使用。 Pipeline都是执行各学习器中对应的方法,如果该学习器没有该方法,则报错 假设该pipeline有n个学习器 fit依次对前n-1的学习器执行fit和transform 阅读全文
posted @ 2022-12-18 21:16 qsl_你猜 阅读(55) 评论(0) 推荐(0) 编辑
摘要: 一、概述 PCA(Principal Component Analysis) 常用于高维数据的降维,可用于提取数据的主要特征分量。 1.1 内积 两个向量的 A 和 B 内积我们知道形式是这样的: 内积运算将两个向量映射为实数,其计算方式非常容易理解,但我们无法看出其物理含义。接下来我们从几何角度来 阅读全文
posted @ 2022-12-18 21:16 qsl_你猜 阅读(101) 评论(0) 推荐(0) 编辑
摘要: 一、概述 DBSCAN(Density-Based Spatial Clustering of Applications with Noise)是Martin Ester, Hans-PeterKriegel等人于1996年提出的一种基于密度的空间的数据聚类方法,算法将具有足够密度区域作为距离中心, 阅读全文
posted @ 2022-12-18 21:16 qsl_你猜 阅读(182) 评论(0) 推荐(0) 编辑
摘要: 一、KMeans算法步骤 是最简单的聚类算法之一,算法接受参数 k ;然后将事先输入的n个数据对象划分为k个聚类以便使得所获得的聚类满足:同一聚类中的对象相似度较高;而不同聚类中的对象相似度较小。 指定要分成的聚类数,算法的K值默认为5,也叫5个簇(聚类) 然后在样本空间中随机挑选K个数据点,作为簇 阅读全文
posted @ 2022-12-18 21:16 qsl_你猜 阅读(49) 评论(0) 推荐(0) 编辑
摘要: 一、概述 对文本进行分析时,经常需要先进行分析,为后面将文本向量化做准备。 二、jieba分词 参考:https://blog.csdn.net/qq_45288176/article/details/115681292 2.1 什么事jieba(结巴)库 字如其名,结巴库主要用于中文分词,很形象的 阅读全文
posted @ 2022-12-18 21:16 qsl_你猜 阅读(16) 评论(0) 推荐(0) 编辑
摘要: 一、概述 1.1 数学公式 二、利用贝叶斯进行文本分析 2.1 文本向量化 对数据进行预处理,进行分词,并把文本向量化是贝叶斯算法的关键也是难点。 分词可以参考:https://www.cnblogs.com/qianslup/p/16907569.html 文本向量化可以参考:https://ww 阅读全文
posted @ 2022-12-18 21:14 qsl_你猜 阅读(43) 评论(0) 推荐(0) 编辑
摘要: 一 下载地址 https://graphviz.org/download/ 我选择的是64位的7.0.4版本。 二、安装步骤 2.1 正常安装 就是一直按下一步就行。 2.2 配置环境变量 如果没有配置环境变量,可按照下图配置环境变量 注意路径,找到安装路径的bin所有绝对路径,复制过去就行了 2. 阅读全文
posted @ 2022-12-18 21:12 qsl_你猜 阅读(970) 评论(0) 推荐(0) 编辑
摘要: 一、概述 1.1 模型间接 Logistic Regression 虽然被称为回归,但其实际上是分类模型,并常用于二分类; Logistic 回归的本质是:假设数据服从这个分布(sigmoid函数),然后使用极大似然估计做参数的估计。 二、数学依据 2.1 sigmoid函数 逻辑回归模型本质就是将 阅读全文
posted @ 2022-12-18 21:12 qsl_你猜 阅读(18) 评论(0) 推荐(0) 编辑
摘要: 一、基本概念 1.1 支持向量机 支持向量机(Support Vector Machine,SVM) 是一类按监督学习方式对数据进行二元分类的广义线性分类器,其决策边界是对学习样本求解的最大边距超平面。 体来说就是在线性可分时,在原空间寻找两类样本的最优分类超平面。 在线性不可分时,加入松弛变量并通 阅读全文
posted @ 2022-12-18 21:11 qsl_你猜 阅读(21) 评论(0) 推荐(0) 编辑
摘要: 一、概述 1.1 关键点 我们提出了k近邻算法,算法的核心思想是,即是给定一个训练数据集,对新的输入实例,在训练数据集中找到与该实例最邻近的K个实例,这K个实例的多数属于某个类,就把该输入实例分类到这个类中。 更通俗说一遍算法的过程,来了一个新的输入实例,我们算出该实例与每一个训练点的距离(这里的复 阅读全文
posted @ 2022-12-18 21:10 qsl_你猜 阅读(5) 评论(0) 推荐(0) 编辑
摘要: 一、概述 数据预处理是数据分析过程中的重要环节,它直接决定了后期所有数据分析的质量和价值输出。从数据预处理的主要内容看,包括数据清洗、转换、归约、聚合、抽样等8个方向 好多方法既是预处理的方法,也是特征工程的方法,便把两个放在一起讲了。 二、数据清洗、空值、异常值 在数据清洗过程中,主要处理的是缺失 阅读全文
posted @ 2022-12-18 21:09 qsl_你猜 阅读(160) 评论(0) 推荐(0) 编辑
摘要: 一、概述 需要对推算结果与真实结果进行评判,主要有下属各种。 二、方差与标准差 2.1 含义 2.2 Pyhton展示 import numpy as np y_true = np.array([1.0, 2.0, 3.0, 4.0]) var = np.var(y_true) std = np.s 阅读全文
posted @ 2022-12-18 21:09 qsl_你猜 阅读(51) 评论(0) 推荐(0) 编辑