什么时候需要做数据标准化
摘要:哪些模型对标准化处理比较敏感? 机器学习中有部分模型是基于距离度量进行模型预测和分类的。由于距离对特征之间不同取值范围非常敏感,所以基于距离读量的模型是十分有必要做数据标准化处理的。 最典型基于距离度量的模型包括k近邻、kmeans聚类、感知机和SVM。另外,线性回归类的几个模型一般情况下也是需要做
阅读全文
posted @
2020-09-08 15:13
小小喽啰
阅读(2197)
推荐(0) 编辑
特征选择
摘要:目录 移除方差较低的特征 VarianceThreshold方法 单变量特征选择 回归特征消除 基于L1正则化的特征选择(线性模型的特征选择) 基于树结构的特征选择 特征选择 特征选择是从数据集的诸多特征里面选择和目标变量相关的特征,去掉那些不相关的特征。 特征选择分为两个问题:一个是子集搜索问题,
阅读全文
posted @
2020-08-19 15:53
小小喽啰
阅读(472)
推荐(0) 编辑
Pearson相关系数和Spearman相关系数的区别
摘要:1.皮尔森相关系数(Pearson)评估两个连续变量之间的线性关系 -1 ≤ p ≤ 1p接近0代表无相关性p接近1或-1代表强相关性 代码: #相关系数显著性检验 import numpy as np import scipy.stats as stats import scipy x=np.ar
阅读全文
posted @
2020-08-14 18:30
小小喽啰
阅读(7175)
推荐(0) 编辑
朴素贝叶斯——文本分类
摘要:朴素贝叶斯是基于贝叶斯定理于独立分布假设的分类算法 1 优点:在数据较少的情况下仍然有效,可以处理多分类问题。 2 缺点:对入输入数据的准备方式较为敏感。 3 使用数据类型:标称型数据。 标称型数据和数值型数据的区别: 1 标称型:标称型目标变量的结果只在有限目标集中取值,如真与假(标称型目标变量主
阅读全文
posted @
2020-08-07 15:29
小小喽啰
阅读(574)
推荐(0) 编辑
sklearn.svm 支持向量机
摘要:一、基本概念 支持向量机(support vector machines, SVM)是一种二分类模型,它的基本模型是定义在特征空间上的间隔最大的线性分类器,间隔最大使它有别于感知机。SVM的的学习策略就是间隔最大化,可形式化为一个求解凸二次规划的问题,也等价于正则化的合页损失函数的最小化问题。SVM
阅读全文
posted @
2020-07-23 16:48
小小喽啰
阅读(292)
推荐(0) 编辑
假设检验
摘要:假设检验 假设检验问题时统计推断中的一类重要问题,在总体的分布函数完全未知或只知其形式,不知其参数的情况,为了推断总体的某些未知特性,提出某些关于总体的假设,这类问题被称为假设检验 一个假设检验问题可以分为5步,无论细节如果变化,都一定会遵循这4个步骤 1.陈述研究假设,包含原假设(null hyp
阅读全文
posted @
2020-07-07 17:11
小小喽啰
阅读(1106)
推荐(0) 编辑
方差分析(Anova)
摘要:1.单因素方差分析: 单因素方差分析:只有一个因素A对实验指标有影响,假设因素A有r个水平,分别在第i个水平下进行多次独立的观察,所得到的实验指标数据如下: A1:N(μ1,σ2) X11 X12 ... X1n1 A2:N(μ2,σ2) X21 X22 ... X2n2 Ar:N(μr,σ2) X
阅读全文
posted @
2020-07-07 11:33
小小喽啰
阅读(4838)
推荐(0) 编辑