数据分析师 数据科学家 学习笔记
涉及内容
统计学,机器学习,数据可视化
数据分析师 数据科学家
统计学,机器学习,预测建模,可视化专业领域商业智慧甚至编程能力。
统计学概念
通过搜索、整理、分析方法达到推断所研究对象的本质,为做决策做辅助。
获取数据 =》 数据仓库准备 =》 挖掘分析 =》 形成辅助决策
数据思维体系
采集、建模、决策、预测
数据分析报告:
1.明确分析报告。
2.深入学习业务流程。
3.理解业务领域模型。
4.收集报告及相关数据
5.分析提炼数据信息,挖掘,洞察数据价值
6.准备的语言概括特征,可视化展示。
7.并给出科学合理的总结性建议,为企业的战略规划提供数据支撑。
题型分析:
了解常用假设检验方法。 卡方、t、z、分散分析。
两范畴的独立性检验选择卡方检验。
基本任务:
数据挖掘识别出未知的,有用的,最终可理解的模式。
定义挖掘目标:
原生数据 数据挖掘 隐藏的数据信息
机器学习求的是参数 R-square 准确率
母体(总体) 参数和统计量
总体: 所有数据
个体: 每一个
样本:一组数据
全量: 可以收集到的数据
大量性、同质性、差异性、相对性
母体的特征/变量/观测 是一个意思
随机样本和非随机样本,
样本是否能真是正确的代表母体是非常重要的。
数据收集: 普查、抽样调查。
母体参数:描述母体的特征的某些特征值。均值 方程,
样本统计量: 是由样本中所计算出来的量, 用来推断母体
变量/观测: 指研究对象特征或者属性的名称
统计学变量可区分
连续性离散变量 连续变量
按照性质 确定性变量和随机变量。
参数: 统计学总体特征变量的总称
参数和统计量: 参数是总体的变量,总体平均数防擦好,统计量指的是样本。
估计误差:当样本参数估计母体参数,估计量与母体参数总会有差距
估计误差 = 样本统计量与母体参数差异 = 抽样误差+非抽样误差
抽样误差:因为抽样方法和推论方法不同造成的样本统计量和母体参数间的差异。
非抽烟误差:人为误差造成。
统计学种类:
统计学: 收集处理分析解释并从数据得到结论的科学。
描述统计:研究数据收集、处理和描述的统计学方法。数据特征描述
推论统计: 研究如何利用样本数据来推断总体特征的统计学方法。
发现数据了解未知数据的方法
。
统计学方法 归纳法(推断), 演绎法(假设)。
TYPE可视化图表
线性图 曲线 柱形图 条形图 饼图 散点图 地图
堆积柱形图
散点图 是恶展示聚集和分类的问题
气泡图, 气泡的大小描述第二属性
时间、数量、大小、颜色。 可以表示四个属性
数据分类
按照属性 定性(有序无序) 定量(离散连续)
按照发生时间 横断面 时间序留
变量分为 分类变量 顺序变量 数值型变量
变量尺度:
定类尺度: 人口按照性别。
定序尺度: 学生成绩按照优良中。
定距尺度: 年龄, 长度用‘米’,时间用‘小小时’度量。
定比尺度: 将企业的创造增加值和职工人数对比,计算生产率。
变量分类
集中趋势: 均值 中位数 众数
变异性指标: 极差 方程 标准差
变异性指标: 偏度 峰度
偏度: 对称 ==0 右偏 > 0 左偏 < 0
峰度 : 正态分布 3, 比较突起 > 3 比较平缓 < 3
频数分析: 次数,频率是每个小组的频数和总数的比值
频数(频率)表明对应组标志值的作用程度,值越小,
说明对于总体所起作用越小。
帕累托法则 二八法则。
20%人掌握80%的财富,80%人掌握20%的财富。
数据量大的情况才可以。
长尾法则。
大部分的需求分布在头部, 类似正态分布曲线
少量需求的差异在需求上面形成长长的尾巴。
概论论基础
研究随机现象数量规律的数学分支。
样本空间: S Ω标记
随机现象 随机事件
事件相关的元素数量 / 样本空间的元素数量
概率的加法定理
任意事件 P(A u B) = P(A) + P(B) - P(A ∩ B)
互斥 P(A u B) = P(A) + P(B)
互补法则 P = 1 - P(A)
概率定理
事件概率 大于等于0 或小于等于1
样本空间的所有事件 概率可能为1.
如果互斥 A n B = ∅
大纲没有的概念
1. 中心极限定理
如果每个因素所产生的影响微小时,总的影响可以看作是正态分布。
中心极限定理是研究独立随机变量和的极限分布为正态分布的问题
2. 大数定律
随机事件大量重复,偶然中包含着必然。
条件概率
值表示 P(A n B) / P(B)
AB事件是独立的, P(A n B) = P(A)P(B)
乘法法则 AB事件有一定关系时
P(AB) = P(A) * P(B|A) = P(B) * P(A|B);
AB没有关系时
P(A|B) = P(A); P(B/A) = P(B);
没有关系的概率 每次发生的概论都是一样。
2021/4/26
-------------------------------------------------------------------------------------------
2021/4/27
描述统计学
主要包括 频数分析 集中分析 离散分析 绘制统计图
推论统计:以样本统计为依据来证明或推翻某个命题。
例如 通过分析样本与样本的差异来估算总体与总体的差异
集中趋势的描述指标
1.算法平均X:累加除个数
2.几何平均: 连乘的n次方根。
分为简单和加权
几何平均特点
1. 受极端值影响较小 2. 如果有负数,计算是负数或虚数
3. 适用于等比或近似等比关系的数据。
4. 几何平均数的对数是个变量值对数的算数平均值
调和平均
求每个数的倒数 求和 除于 个数 的倒数
是总体各统计变量倒数的算数平均值的倒数。
调和平均数小于算数平均数
1.受极端值影响,受极小值的影响比极大值的影响更大。
2.只有有值为0,就不能计算调和平均数。
3.百分位数,先排序,第几个百分位值,累加达到 百分位值。
4.四分位数(四分位点) 25% 50% 75%,下四分位数 25% 上四分位数 75%。
连续性数值。 带状图表,饼图,线型图,马赛图,
须线排除异常值的标准线
虚线如何计算
四分位数的应用。
离散趋势的描述指标
全距也称极差。
方差值越大数据越离散
标准差是方差的开方,也能反映一个数据集的离散程度。
标准差和标准误
标准差用来预测,1个标准差等于正态分布68.26%的面积。1.96等于95%的面积
标准误 抽出的样本总体的估计,标准误代表就是样本均数与总体均数的相对误差。
置信区间:
估计区间,是用来估计参数的取值范围
1.求均值
2.计算抽误差。样本越多 误差越小
3.样本均值减 加抽样误差,等处置信区间的两个端点。
100个样本的抽样误差10%
500个样本抽样误差5%
1200个样本的抽样误差+-3%
变异系数 原生数据的标准差,与原始数据平均数的比
变异系数又称 离散系数。 是一个归一化度量。, 变异系数不能比的又想去对比
变异系数 是标准离差率或单位风险。
只对由比率标量计算出来的数值有意义。
偏度
偏态或偏度系数,表征分布密度直观看是函数曲线的尾部的相对长度。
三阶标准化距
二阶矩 就像方差
<0 负偏离 左偏,尾部拖得很长
>0 正偏离 右偏。 右侧尾部拖得很长
右偏 算数平均值 > 中位数 > 众数
左偏 众数 > 中位数 > 平均数
正态分布三者相等
峰度
描述形态的陡缓。
尖顶峰:> 0 比标准正正态分布更为陡峭,
平顶峰:< 0 比标准正态分布平缓
计算方程有4次方。 减 3 与 0 对比。
------------------------------------------------------------------------
2021/4/29
概率
离散现象数字化。度量事件发生的可能性的大小。
随机变量 =》 概率变量,可以是离散的也可以是连续的。
模糊变量,它的测定结果仍具有不确定的。
随机变量的测定测定结果是在一范围内变化的是确定的。
随机变量可以通过实验数字化,二模糊变量 例如 年轻 少年,比较模糊不能数字化。
随机变量
离散系 是有限个取值, 概率质量函数
连续性变量是 无限个取值。概率密度函数
期望
概率质量函数
在样本内发生的概率,在样本外发生的概率为0; 类似分段函数。
概率密度函数
连续型随机变量。
在a,b区间分布的随机变量的期望值正是区间的中点。
离散概率分布:01分布,二项式分布,泊松分布
概率质量函数可以定义在任何离散随机变量上,包括常数分布,二项分布,负二项,几何分布
连续型随机变量分布 均匀分布 正态分布 瑞利分布
只要已知某一连续型随机变量X的概率分布密度函数,就可以求出落在某区间的概率。
分布密度函数f(x)
F(x)累积分布曲线
概率密度函数与这个区间是开区间还是开区间无关。
概率密度函数的性质
F(x) >=0
负无穷和正无穷 是1
区间内的概率为 f a>b f(x) dx
F(x)是单调非降函数
F(x) = F(x-0)左连续
负无穷和正无穷 是1
连续型均匀分布的概率密度函数 区间的函数值 1 / b-a
这个函数并不是完全的连续函数,但是是可积函数。
e = 2.71
标准差的倒数,
通过傅里叶变换(将复杂的表达式转为简单的表达式)
特征函数和概率密度函数有一对一的关系, 因此一个分布的特征函数就等同于知道一个分布的概率密度函数
密度函数可以求数学期望,也可以求方差
连续性随机变量大概理解为均值
连续概率分布
正态 标准正态 T分布 卡方分布 F分布 指数分布 均匀分布
离散概率分布
二项分布 伯努利分布 泊松分布
伯努利分布
对于随机变量x有参数p, 如果分布以概率p和1-p取1和0的值。类似抛硬币
X=1 概率是p x=0是1-p;
Q= 1-p; x=0 ->Q x=1-> p
泊松分布:适用于描述单位时间内随机事件发生的次数。
正态分布 关于均数对称,总体参数的均值,在均值达到最高
标准差被称为尺度函数
68.26%取值与平均数在一个标准差之内
95% 取值在1.96标准差之内
99%个体取值与平均数的距离在2.58个标准差
机器学习
由训练集中学到或建立一个模式,以此模式推测新的实例。
通过输入变量和预期输出变量
是专门研究计算机怎样模拟实现人类的学习行为,以获取新的知识,重新组织已有的知识结构使之不断改善自身的性能。
是一门多领域交叉学科
机器学习
- 从哪儿学?
- 怎么学?
- 学什么?
------------------------------------------------------------------------------------------------
2021/4/30
回归模型 分类模型
回归分析:
研究用于体现自变量和因变量之间的相关关系的方程形式。
要预测的值称为标签(输出变量)
估计误差
损失函数 用于求参数
最小二乘法
极大似然估计
梯度下降
求偏导
机器学习从 训练集 学。
验证模拟的好坏,测试集。
验证集,在建造模型过程中进行调试。
机器学习的学习方法是 统计学
机器学习在学 参数,换句话叫特征
机器学习目的是预测
当模型复杂度很低时,模型不仅没有对训练集上的数据有良好的拟合状态,而
且在测试集上也表现平平,这种情况叫做欠拟合(Underfitting);相反,当
模型复杂度很高时,尽管模型几乎完全拟合了所有的训练集数据,而在测试集
上表现确很差,也即模型失去了对未知数据的预测能力,这种情况叫做过拟合
(Overfitting)
指导分析
监督学习 (标签)。 需要标签的是监督学习。
回归和分类
非指导学习
非监督学习(训练集无标签)
群集和聚类 K-means
半指导学习
深度 宽度 迁移学习
训练集的准备,构造数据。
题目
1. 带状图表 横坐标离散 纵坐标连续
2. 饼状 互斥,不相关。不能由交集,100%, 离散
3. 箱型图, 必须先排序 找四分位,必然不是离散图。
4. 马赛克图 。只是加重图
不属于中心测度。
标准差 方差,极距 离散测度。
连续型变量是通过范围计算 而不是特定值计算。
指数模型和时间相关,时间发生概率的分布。
单因素方差分析: 是和均值比较时的分析。
指数平滑法: 是使用时间序列的所有资料进行计算
回归相关系数是1, 斜率有可能不是1.接近1。
置信区间样本扩大2倍,信任区间宽度减少(1/根号2)
t检验(student's test): 小概率反推整体,两个均值的差异程度检验。
前提假设整体符合正态分布
同一样本进行对比,对比两个均值的差异。
卡方进行两样本之间的独立性检验
假设检验
0假设,小概率反证法。,小概率事件,在一次实验中不会发生。
显著性检验。
如果概率和H0之间偏离达到显著程度,就拒绝H0。
列联表是离散独立的变量的图表工具
H1假设就是对立假设
混淆矩阵 (误差矩阵)
统计 分类模型归错类,评估一个模型准确性。
分类树 逻辑回归,线性。
卡方分布,两样本对比
F分布检查两样本方差,T分布对比均值差异
F分布,正态分布右偏
Z检验(U test)利用正态分布统计量的检查方法
Clustering聚类 非监督式学习 不打标签
分类Classification 回归 监督学习 打标签
聚类分析: 聚类(Cluster)分析是由若干模式(Pattern)组成的,以
相似性为基础,在一个聚类中的模式之间比不在同一聚类中
的模式之间具有更多的相似性,模式是一个度量
(Measurement)的向量,或者是多维空间中的一个点。
分层聚类
内部的离聚点对分层影响较小。
k-mean 循环十次。 离聚点影响 稍微大点。
KNN,相似度,分类算法监督式学习
三级指标 F1 Score 取值范围是 0-1
回归算法平均 R-sqare
-------------------------------------------------------
2021/5/6
关联规则:挖掘最低阈值的支持度,最低阈值置信度
啤酒和尿布的故事~~
x->y 的蕴函数
支持度: 同时出现X,Y的百分比
置信度(条件概率): 已经包含x的百分比情况下出现y的条件概率
提升度: 在含有x的条件下,y出现的可能性与 无条件下 含有y的可能性。
如果x是否出现,对结果没有影响,那么提升度为1.
正相关 就是x的出现会正向影响y的出现
负相关 就是x的出现会减少影响y的出现
抽样
(1)简单随机抽样
• 一般的,设一个总体个数为N,如果通过逐个抽取的方法抽取一个样本,且每次抽
取时,每个个体被抽到的概率相等,这样的抽样方法为简单随机取样。适用于总体
个数较少的数据。
特征选择算法. (选择)(回归,相关系数,决策树)
Backward Selection算法(反向选择), 无中生有
前向选择,影响力的加列, 大的加列。
反向选择, 最初放所有列,根据影响力的减列。
回归分析
独立变量和从属变量不是正态或者对称分布,需要变量转换。
独立变量和从属变量是非线性关系时,不一定需要变量转换的。 (抛物线,幂函数)
逻辑回归属于 分类分析
逻辑函数 像S型图形,
临界点 y = 0.5的点。
逻辑回归思想:二分类, 发生和不发生的概率的比值。
多元线性回归,累加。 就可以求出p和1-p,将连续数值转为二分类。
属于监督学习, 分类模型
mse Mean Square Error 均方差,是评价指标。
逻辑曲线,使用梯度下降算法 无法找到最佳分析模型
XOR 异或运算, 不同为1 相同为0,
异或无法用线性区分,无法使用回归分析解决
离群点
离群点检测3σ原则,
如果小于3倍的,就是小概率事件,故认为是异常值。
均值减去样本值,
前台是正态分布
箱线图识别异常值
Q1是下四分位,Q3 上四分位
下线 Q1-1.5IQR ~ Q3+1.5IQR
线性回归分析执行时,误差项的等分散性不成立的话,
可以使用WLS(带权重的最小二乘法)来解决
任何模型都会有过拟合的可能性
PCA 主成分分析
剩余汇报等于 残差 等于预测可能发生的概率
独立变量 等于 输入项
--------------------------------------------------------------------------------------------------------------------------------------------------------------------------
2021/5/7
1. 离散型(范畴型)变量的EDA: 频率分析与生成交叉表
频率分析:适用于离散分析,频数表明对应组标志值的作用程度。
交叉表又称列联表,
是观测数据按照两个或多个属性分类时所列出的频数表。
2.连续型变量的EDA: 分布分析
位置/集中 统计量: 平均,中位数,众数,百分位数,四分位数
变异统计量: 分散,标准偏差,CV
变异系数(CV)和标准差偏差一样,用来反映数据的离散程度,但是如果两组数据的测量
维度不一样,数据量纲和测量尺度不同,使用变异系数进行比较。
值为标准差与平均值的比
形态统计量: 偏度 峰度
3. 概率分布和Q-Q plot
-正态分布/t-分布/卡方-分布/F-分布
离散概率分布(概率质量函数) 类似分段函数
连续概率分布 (概率密度函数)
分布密度函数 有点像正态图,累计分布密度函数有点像S型图
正态分布(高斯分布)
68%的取值与平均数在聚类一个标准差之内
95%的取值与平均数在1.96个标准差之内
99%个体取值与平均数在2.58个标准差
T-分布(学生t检验),用于小样本,用来推断差异发生的概率
从而判断两个平均数的差异是否显著
F-分布: 方差齐性检验,在两样本t检验在用F检验。 在进行两样本
比较之前先判断方差是否相同。相同用t检验,方差是否相等使用F检验。
0假设
基于统计值符串F分布的f检验
Z检验:利用服从正态分布的检验方法叫Z检验 又称U检验。判断数学
期望的显著性。
卡方检验: 研究实际观测值和理论推断的偏离程度
Q-Q plot
样本分位数取值作为横坐标
正态分布理论分位数作为纵坐标,画散点图
当数据与正态分布拟合较好,图点大概会分布在一条直线上。
------------------------------------------------------------------------------------------------
2021/5/10
机器学习基础
由训练集学到或建立一个模式函数,推测新的实例。训练集由输入变量和预期
输出变量组成,函数输出可以是连续的值(回归分析)或者分类标签(分类)
指导学习(监督学习,训练有标签) 回归,分类classification, KNN
非监督学习 群集 Clustering聚类 Kmean
半指导学习
强化学习
深度学习、
宽度学习
迁移学习
模型的评价指标
回归模型的评价指标
MEA: 平均绝对误差, 测量值和预测值之间的差值的平均值
SSE: 误差平方和, 预测值的误差的平方和
MSE: 均方误差,测量值和预测值之间的差值的平方的平均值,
与平均绝对误差相比,军方误差对异常值更敏感。
RMSE: 均方误差的方根, 可以从单位度量上衡量模型的效果
R-square: 决定系数,值越解决1,说明模型度量的越准确
分类模型的评价指标
混淆矩阵:误差矩阵(Confusion Matrix)
是分别统计分类模型的归错类,归对类的观测值个数,将结果放在一个表展示
二级指标: 准确率(Accuracy) 所有正确的占所有观测值的比重: (TP+TN)/(TP+TN+FP+FN)
精确率(Precision) 模型预测的所有结果重,预测正确所占的比重 TP/(TP+FP)
灵敏度Sensitivity(召回率Recall) 真实值Positive的所有结果中,预测对的比例 TP/TP+FN
特异度Specificity 真实值Negative所有结果中,预测对的比例 TN/TN+FP
P是精确率,R是召回率
F1 Socre = 2*P*R / P+R => 1 代表模型输出的最好 0代表最差
都是以混淆矩阵为基础
ROC曲线
用来衡量验证分类器(二分) 模型的性能
使用TPR和FPR绘制, TPR TP/TP+FN 命中率 (纵坐标)
FPR FP/FP+TN 假报率(横坐标)
AUC面积
是对ROC曲线的量化指标
Lift 提升度
含有x条件含有y可能性与无条件下含有y的可能性之比。
也就是x的出现对于y的出现率的提升程度。
误差Error=bias+variance
bias(偏差)和variance(方差)
偏差: 模型在样本的输出与真实值的误差,模型本身的精确度
方差: 每一次输出结果和期望(平均值)的误差,即模型的稳定性
数据是否集中。
聚类Clustering
Hiarchical Clustering 层次聚类 (最短连接,最长连接,平均连接,中心连接等)
K-Mean Clustering K均值算法
Mean Shift Clustering 均值漂移聚类
t验证基础
学生检验,先使用F检验方差,再进行
线性回归:
多重线性回归
向前选择 向后选择,stepwise逐步回归
关联规则 X->Y 先导 后继, 存在支持度和置信度。
当满足最低支持度和最低置信度, 强关联规则。
-----------------------------------------------------------------------
2021/05/12
监督学习: Classification 分类
非监督学习: Clustering Dimension Reduction Outlier Detection
置信区间: 100 => 10% 500 => 5% 1200 => 3%
指数分布和时间相关是比例
二项分布 泊松 伯努利 都是右偏
列联表 使用卡方检验不能直接得出自由度
相关系数 范围 -1~1
斯皮儿曼(Spearman)相关系数 (前提是排序,升序或降序) 单调时,很好的达到-1或者1
皮尔森
反映两个变量的相关程度 取值范围 -1 1.r绝对值越大 相关性越强
决定系数 R-square拟合度
t分布 自由度不能决定平均
2021/5/7
1. 离散型(范畴型)变量的EDA: 频率分析与生成交叉表
频率分析:适用于离散分析,频数表明对应组标志值的作用程度。
交叉表又称列联表,
是观测数据按照两个或多个属性分类时所列出的频数表。
2.连续型变量的EDA: 分布分析
位置/集中 统计量: 平均,中位数,众数,百分位数,四分位数
变异统计量: 分散,标准偏差,CV
变异系数(CV)和标准差偏差一样,用来反映数据的离散程度,但是如果两组数据的测量
维度不一样,数据量纲和测量尺度不同,使用变异系数进行比较。
值为标准差与平均值的比
形态统计量: 偏度 峰度
3. 概率分布和Q-Q plot
-正态分布/t-分布/卡方-分布/F-分布
离散概率分布(概率质量函数) 类似分段函数
连续概率分布 (概率密度函数)
分布密度函数 有点像正态图,累计分布密度函数有点像S型图
正态分布(高斯分布)
68%的取值与平均数在聚类一个标准差之内
95%的取值与平均数在1.96个标准差之内
99%个体取值与平均数在2.58个标准差
T-分布(学生t检验),用于小样本,用来推断差异发生的概率
从而判断两个平均数的差异是否显著
F-分布: 方差齐性检验,在两样本t检验在用F检验。 在进行两样本
比较之前先判断方差是否相同。相同用t检验,方差是否相等使用F检验。
0假设
基于统计值符串F分布的f检验
Z检验:利用服从正态分布的检验方法叫Z检验 又称U检验。判断数学
期望的显著性。
卡方检验: 研究实际观测值和理论推断的偏离程度
Q-Q plot
样本分位数取值作为横坐标
正态分布理论分位数作为纵坐标,画散点图
当数据与正态分布拟合较好,图点大概会分布在一条直线上。
----------------------------------------------------------
2021/5/10
机器学习基础
由训练集学到或建立一个模式函数,推测新的实例。训练集由输入变量和预期
输出变量组成,函数输出可以是连续的值(回归分析)或者分类标签(分类)
指导学习(监督学习,训练有标签) 回归,分类classification, KNN
非监督学习 群集 Clustering聚类 Kmean
半指导学习
强化学习
深度学习、
宽度学习
迁移学习
模型的评价指标
回归模型的评价指标
MEA: 平均绝对误差, 测量值和预测值之间的差值的平均值
SSE: 误差平方和, 预测值的误差的平方和
MSE: 均方误差,测量值和预测值之间的差值的平方的平均值,
与平均绝对误差相比,军方误差对异常值更敏感。
RMSE: 均方误差的方根, 可以从单位度量上衡量模型的效果
R-square: 决定系数,值越解决1,说明模型度量的越准确
分类模型的评价指标
混淆矩阵:误差矩阵(Confusion Matrix)
是分别统计分类模型的归错类,归对类的观测值个数,将结果放在一个表展示
二级指标: 准确率(Accuracy) 所有正确的占所有观测值的比重: (TP+TN)/(TP+TN+FP+FN)
精确率(Precision) 模型预测的所有结果重,预测正确所占的比重 TP/(TP+FP)
灵敏度Sensitivity(召回率Recall) 真实值Positive的所有结果中,预测对的比例 TP/TP+FN
特异度Specificity 真实值Negative所有结果中,预测对的比例 TN/TN+FP
P是精确率,R是召回率
F1 Socre = 2*P*R / P+R => 1 代表模型输出的最好 0代表最差
都是以混淆矩阵为基础
ROC曲线
用来衡量验证分类器(二分) 模型的性能
使用TPR和FPR绘制, TPR TP/TP+FN 命中率 (纵坐标)
FPR FP/FP+TN 假报率(横坐标)
AUC面积
是对ROC曲线的量化指标
Lift 提升度 == 1 是无相关
含有x条件含有y可能性与无条件下含有y的可能性之比。
也就是x的出现对于y的出现率的提升程度。
误差Error=bias+variance
bias(偏差)和variance(方差)
偏差: 模型在样本的输出与真实值的误差,模型本身的精确度
方差: 每一次输出结果和期望(平均值)的误差,即模型的稳定性
数据是否集中。
聚类Clustering
Hiarchical Clustering 层次聚类 (最短连接,最长连接,平均连接,中心连接等)
K-Mean Clustering K均值算法
Mean Shift Clustering 均值漂移聚类
t验证基础
学生检验,先使用F检验方差,再进行
线性回归:
多重线性回归
向前选择 向后选择,stepwise逐步回归
关联规则 X->Y 先导 后继, 存在支持度和置信度。
当满足最低支持度和最低置信度, 强关联规则。
-----------------------------------------------------------------------
2021/05/12
监督学习: Classification 分类
非监督学习: Clustering Dimension Reduction Outlier Detection
置信区间: 100 => 10% 500 => 5% 1200 => 3%
指数分布和时间相关是比例
二项分布 泊松 伯努利 都是右偏
列联表 使用卡方检验不能直接得出自由度
相关系数 范围 -1~1
斯皮儿曼(Spearman)相关系数 (前提是排序,升序或降序) 单调时,很好的达到-1或者1
皮尔森
反映两个变量的相关程度 取值范围 -1 1.r绝对值越大 相关性越强
决定系数 R-square拟合度
t分布 自由度不能决定平均
------------------------------------------------------------------------
2021/05/13
K-Means
仅可以应用于给定数据的平均值求出的数据类型
不能超出数据中存在的任意形态的Cluster
Cluster个数变化, 对于的结果也会变化
Classification主要方法为Logistic Regression
特征选择: 经过对比选择最好的特征子集 常用的有 逐步回归,向前选择,向后选择。
缺点数据少容易拟合数据多计算时间长。
特征提取, 创建新的特征
PCA主成分分析
ICA 独立分析
LDA 线性判别分析
SIFT尺度不变特征转换
特征构建: 创建新的特征
逻辑回归分析分类边界
数据转换
overfitting : 过拟合
underfitting: 欠拟合
Naive Bayes 有监督的贝叶斯学习
------------------------------------------------------------------------
2021/05/18
统计学分为
描述统计学, 通过分析资料的图表来进行展示的视觉方法
推论统计学, 根据描述统计和多种概率特征来进行科学推论的方法
数据 分为
分类型(定性)数据
名义型:eg 性别 血型 地区
顺序型:eg 肥胖度 学分 喜好度
频度分析
数值型(定量)数据
离散型
连续型
分布分析
EDA 探索性资料分析, 描述统计需要的准备资料
推论统计建模前 需要充分的探索数据 也就是 描述统计为前提
IQR = 3四分位减1四分位数,(四分位距)
离散程度 1.5*IQR
分散的数理特征是平方
偏度是3次方 峰度是4次方
变异系数(CV) = 方差 / 平均值
离散概率变量是有限数或者无穷数
连续概率变量区间内所有制,数量是无限个
离散概率分布
二项 泊松分布
二项分布 通过连续n次的伯努利试验后,逐渐趋向正态分布,右偏形态
泊松分布 出现单位事件/发生事件的次数
连续概率分布
正态
标准正态 T分布 卡方分布 F分布 指数分布 均匀分布
自由度:在已知条件下 可以自由变换的变量数
T分布 小样本数量推测
卡方分布: 假设数据正态分布,进行卡方检验 同质性独立性检验
也算右偏。检查正太分布变量之间的独立性
F分布 检查离散的差异,和标准偏差有关
指数分布: 和时间有关 单位事件发生事件数量为 a, 后面的数量随1/a指数分布
均匀分布 都市恒定的
指导学习 回归和分类
非指导学习 群集Clustering 推荐 Recommandation 缩小层次
模型平均指标
回归:MEA, SSE, MSE, RMSE, R-SQUARE
分类(范畴变量):混淆矩阵
准确度 精确度 召回率 F1 Sore
见上
优化模型:
欠拟合 学习误差大
1. 数据增长 ,2. 模型运算优化 3.自变量特征提取
学习误差小 预测误差大 过拟合
模型特征选择
数据分割
多重线性回归 多个维度进行的
非线性回归 曲线的
线性回归 剩余收益的正规性 剩余收益的同方差性
推论统计
推断,点推论,均值 方差 区间推论(置信区间)
验证假设
0假设:无效假设,无效假设以满足 或者拒绝
备择假设: 通过研究想查明的假设
假设验证: 根据总体的特征观测样本,决定这个假设是否通过
检验统计量: 是假设验证的随机变量
P-Value: 在0假设正确的前提,观测到的和更极端的数值被观测到的概率 5%以下
显著性水平 无效假设是正确的,但是统计无效假设是错误的概率的最大允许值
1类错误: 0假设是真,但是人事决定错误
2类错误: 0假设是假H1是真,人事决定是错误
1类错误更危险 制定了最大允许值 也就是显著性水平
------------------------------------------------------------------------
2021/05/20
相关性分析 Correlation Analysis
散点图 Scatter Plot
协方差 体系两个变量的相关程度的值(XY期望值 - X的期望 * Y的期望)
相关系数 变量之间的线型关系的强度 =》 独立相关系数是0 相关系数是0 不一定独立
正相关,负相关
皮尔逊(Pearson) 两个变量 等间、比率型。了解两个变量的线型程度使用
斯皮儿曼(Spearman) 顺序性的相关关系
1相关系数虽然大 但不是原因和结果的关系
2即使相关系数接近1,
3两个变量的线型性也可能不明显
4通过相关系数无法判断倾斜
卡方假设 0假设 1假设 两个范畴型变量的关系
独立性检验 方差齐性检验
4行5列做分割表执行卡方检验 自由度20
自由度 4-1 * 5-1 = 12
(o-e)^2 / e
Classification
学习用学习数据的区分正确答案的方法 预测学习新数据的正确答案
用学习结果预测警戒
数据分析中的预处理
1. 数据过滤
2. 数据转换
3. 数据精炼
4. 数据综合
5. 数据缩减
缺失值: 核算统计量 由于结果报错 无法准确核算 有必要,进行寻找缺失值的适当处理
处理缺失值 1行删除列删除 2 平均值代替
数据变换
piovt 变换行和列
pivot 是行或者列
进行前置或者再排列
最大最小值 进行正规化
平均和标准偏差 Z-score 标准化 期望-平均 / 标准偏差
简单变量和派生变量
简单变量: 根据实际收集到信息进行分析综合的变量
派生变量: 有含义 虚拟定义的,是主观的变量。对于变量生成需要保持理论妥当性和标准
随机抽样
分层抽样
系统抽样
聚类分析
K mean Clustering
分割空间原理 使各观测值最接近重心的聚类化
特征
非层次性: 聚类数量丶
反复运行定的阶段到模型集中
独立变量:连续变量
从属变量是用户定义类别
异常值比较敏感 事情需要对聚类数预想 初始值不一样结果可能不一样
层次聚类
最短连接法
最长连接法
平均连接法
中心连接法
Ward连接法
大数据计算速度慢
低安全性
异常值敏感
时间序列
平均连接法
移动平均法
单一平滑
【推荐】国内首个AI IDE,深度理解中文开发场景,立即下载体验Trae
【推荐】编程新体验,更懂你的AI,立即体验豆包MarsCode编程助手
【推荐】抖音旗下AI助手豆包,你的智能百科全书,全免费不限次数
【推荐】轻量又高性能的 SSH 工具 IShell:AI 加持,快人一步
· 记一次.NET内存居高不下排查解决与启示
· 探究高空视频全景AR技术的实现原理
· 理解Rust引用及其生命周期标识(上)
· 浏览器原生「磁吸」效果!Anchor Positioning 锚点定位神器解析
· 没有源码,如何修改代码逻辑?
· 全程不用写代码,我用AI程序员写了一个飞机大战
· MongoDB 8.0这个新功能碉堡了,比商业数据库还牛
· 记一次.NET内存居高不下排查解决与启示
· DeepSeek 开源周回顾「GitHub 热点速览」
· 白话解读 Dapr 1.15:你的「微服务管家」又秀新绝活了