cv1

线性代数

逆矩阵:

 

 对称:

 

基:线性无关且能表示出其他任意向量

正交基:22正交的基

任意3个正交的向量构成三维空间的1个正交基

内积=0 <=> 正交

a和单位向量的内积=a在单位向量的投影

 

 标量场U(x,y,z)是数值,形成场的量为向量,称该场为向量场

方向导数是沿着某个方向的变化率,沿着某个方向的导数 ,若>0,则沿该方向函数值增大。

梯度是一个向量,指向函数值增长最快的方向,沿着梯度方向导数最大,且为该点最大方向导数

 

梯度 · 单位方向向量 = 方向导数,grad = ▽

 

 

 

 argmax(f(x)):使得f(x)取最大值的x

已知几个点,平面上找到一条直线(或一个单位向量w),使得这些点到直线的距离平方和最小,即投影平方和最大,已知w是未知的单位向量:

 

 目标函数:

 

 求解目标函数最大时的w是多少,先纪为 v :

 

 

 

根据

Av=λv:列向量v是A的一个特征向量,λ是相应的特征值;

n阶矩阵有n个特征值;实对称矩阵的特征值都是实数,且不同特征值对应的特征向量正交

所以答案是:

经典统计学

变量分为定性变量和定量变量,定量变量是数值型的,分为连续型变量和离散型变量;定性变量分为无序变量(无等级的,又分为二项分类,即只有2个取值,多项分类是有多个取值)和有序变量(按照等级不同分类,如坏、一般、好、很好)

要研究广州的男的婴儿的身高:

同质性:都广州的、都男的、都婴儿

异质性:同质性基础上个体的差异,他们的身高

对医生人群(研究总体)抽取一部分医生出来(这些个体构成的一份样本),研究规律,进而推广到更大范围的人群(目标总体)

样本空间=所有基本事件的集合,基本事件=样本点

总体均值就是所有取值的平均值

参数是总体的,如总体均值μ、总体标准差σ,统计量是样本的,如样本均值X把,样本标准差S

统计描述就是描述样本,如频率分布表、直条图

统计推断就是用统计量来估计总体参数

观察性研究=调查研究:是不施加干预的,如吸烟与否和得肺癌的概率;实验研究是施加干预的,如是否接种疫苗的情况下,对某疾病的研究

连续型变量的频率图:

 

 

 

 

可以直接酸,也可以用加权法计算算术平均,用组中值代替:7*0.83+9*2.5+..

 直方图:此时纵轴是频率密度=频率 / 组距

 

 几何均数:

 

 加权法计算几何均数,f 是对应的频数:

 

 中位数P50,即50%的数比它小(P75:75%比它小):

数据排序后:

 

 频率分布直方图中,中位数实现了切割,使得左右面积=0.5,即左边的累积频率=0.5

 

 

 衡量一组数据的变异情况:极差(最大值-最小值,能反映整体覆盖的范围)、四分位数间距(P75-P25,反映了一半的人覆盖的范围)、方差(越大则变异越大)、标准差(方差开根号,为了使得和原变量量纲一致,表示平均一个个体离开均值有多远)、变异系数(可以比较不同组数据的变异,标准差/平均值,消除了量纲)

总体方差:

 

 样本方差:

只要定了n-1个人,且知道均值,就知道最后那个数据了,所以自由度n-1,此处分母就是除以自由度

 

强度  = 发病人数 / 总共活的时间

下图4个杠代表1年:

 

 

 

 

频数:n次试验中,事件A发生的次数

排列组合:

 

概率:

 

A和B独立 <=>  P(AB) = P(A) * P(B) 

随机变量的取值是不固定的,但是是有概率规律的,分为离散型和连续型,第一次投色子的值是什么,可以记为X1,第二次X2

二项分布:

期望与方差分别为:np、np(1-p)

 

均值(做了n次实验,该事件平均发生的次数)和方差:

 

 

 

泊松分布用于描述罕见事件发生的次数:

 均值=方差 =λ

服从泊松分布的相互独立的随机变量之和也服从泊松分布

 

 

3个分布关系:

 

 

 分布函数 = 概率密度的积分:

 均匀分布:

 

 

 指数分布:

 正态分布,μ是中心位置,方差越大,越矮胖:

 

 

 Z变换:

  

 

 

正态分布中,μ+σ是曲线拐点

正态分布常用区间:

 

 

 

 

Zα:标准正态分布的上α分位点:

分布函数:

 连续型分布函数 = 概率密度函数左边的积分

 

 

 y = acsinx:

 

 连续型随机变量函数例题:

 

 

 二维随机变量(X,Y):

 

 连续性二维随机变量:

 

 边缘分布:

 

 条件分布:

 

 X和Y独立   < == >

 

 <==>

 

  <==>

 

 对于二维正态随机变量(X,Y),X与Y独立<==> ρ=0

数学期望:

 

 方差:

 

 

 

 相关系数:

 

相关系数=0 <=> 不相关

 协方差:

中心极限定理(样本量足够大时,样本均值的分布近似正态分布):

一堆随机变量独立同分布,则

 

一堆随机变量独立同分布,则

当n充分大时,随机变量之和服从正态分布

 X~正态分布 => aX+b 服从正态分布

(简单随机)样本里面的随机变量们(X1,X2...)独立同分布IID,且都与总体同分布

频率 = 频数 / 总数

频率直方图中第一步是扩大区间形成的x轴范围用来包括所有数据:

 

 

 频率直方图总面积=1

 

 

 统计量是样本的函数,是一堆随机变量的函数,不含有未知参数:g(X1,X2,X3...)

下面都是统计量:

样本均值:

 

 样本方差:

 

 样本标准差:

 

 

 

对数公式:

统计推断包括参数估计和假设检验

一个样本含有多个个体,抽样误差指的是样本均值之间存在的误差,用标准误(样本均值的标准差=X把的标准差=根号下X把的方差)来表示抽样误差的大小

样本均数的均数=总体均值,而标准误(n是样本量,样本内的个体数,X把对应的分母):

 

 t分布:

X服从正态分布,则:

 

性质:

 

点估计:根据样本估计总体参数的一个值

似然函数L = 样本的概率密度函数  = f(x1)f(x2)f(x3)....f(xn),如果总体有未知参数Θ,它的最大似然估计量= 使L取最大值的Θ(已知结果求原因),此时自变量只有Θ,X1...Xn都是常数

 

 

 

 离散样本的似然函数 = P(X1=x1,X2=x2...Xn=xn)

 

区间估计:根据样本估计总体参数所在的区间,不同的样本构造的区间不一定一样,该区间为置信区间,左端点=置信上限,右端点=置信下限

P(θ >θ_) >= 1-α 《=》(θ_ , +oo)是θ的单侧置信区间,置信度是1-α,θ_ 是单侧置信下限

置信区间(a,b),显著性水平α,置信度=置信水平=1-α

《=》置信区间(a,b)包含真实值的概率是1-α

例题:方差已知,估计总体均值,总体正态分布,显著性水平为0.05

解:

 

结论:

方差已知,估计总体均值,总体正态分布,显著性水平为α,则:

 

 总结(正态是前提):

 

 例题:

 

 二项分布当n很大时,X趋于正态分布N(np,npq)

假设检验

对总体做个假设,然后根据样本看看要不要拒绝这个假设

通常在使用假设检验=显著性检验时,会将希望证明的结论或者新的事件作为备择假设(H1)。因为通过数据拒绝原假设可以有较强的说服力证明备择假设。

 例题:

 

 

 

假设检验中的错误:

显著性检验是仅控制犯第一类错误的概率,犯第一类错误的概率为显著性水平α,样本容量固定时,任何一类错误概率减小,另一类必然增大;要想两者概率都降低,只能增大样本容量

 

 

单个正态总体下:

(算出统计量的取值,如果它在拒绝域,则拒绝H0,否则接受)

拒绝或者接受H0的另一个方法是P值,P值是概率,是概率函数曲线下的面积,是反对原假设的强度,p值越小,越能充分地拒绝H0

若H0的形式是=,则算出统计量的取值a后,想象曲线上横坐标的a,计算统计量在两边的面积就是 p

若H0的形式是<=,则算出统计量的取值a后,想象曲线上横坐标的a,计算 P(统计量>=a) 或者在a右边曲线下的面积= p

若H0的形式是>=,则算出统计量的取值a后,想象曲线上横坐标的a,计算 P(统计量<=a) 或者在a左边曲线下的面积= p

再给一个α,若α >= p ,则在显著性水平α下拒绝H0,α大于的越多,拒绝的把握性越大,小于则接受原假设。(注意P值得计算不依赖与α)

 

 

 

统计学假设数据是独立同分布的,假设空间包含了所有要尝试的模型

若有标签,则称监督学习,否则是非监督学习。

 

所有特征向量所在的空间:特征空间

约定:

 

 样本点:输入和输出对

监督学习假定输入X和输出Y遵循概率分布;假设空间包含一堆模型;监督学习的模型满足P(Y|X)或Y= f (X)

f(AB) = f(A|B) f(B) = f(B|A) f(A)

 

贝叶斯统计学

贝叶斯统计学使用到了先验信息(之前的资料或者经验),认为未知参数θ不是常亮,而是随机的,先验分布为:θ~π(θ),此时x和θ是有联合概率密度的 f (x,θ)

思想:利用先验分布,结合样本,求出后验分布,然后用后验分布来推断

π(θ) 就是θ的概率密度函数 ,H(θ)是它的分布函数,m(x) 是只有x的概率密度函数

后验分布H(θ|x)的概率密度函数是π(θ|x)

 

 

  当B1,B2,B3瓦解了S(22不交,并集=S):

 

 无信息先验:若参数空间有限,则θ去每个值得概率是1/n;若参数空间是个区间,则服从均匀分布;若参数空间无界,则采用广义先验密度

 

 

 

 

 下题中,π(θ|x)是以θ位变量的,所有分母不用算,根据正比形式看出是正态,直接写出答案

 共轭先验分布簇中任意取一个分布,其后验分布还属于该簇

伽玛函数:

贝塔函数(P,Q>0):

伽马分布X~Gamma(α,β)的密度函数、期望、方差:

贝塔分布定义在(0,1)

《=》

概率密度函数是:

 

 

 

贝塔分布期望值和方差分别是:

 

 

 X~Be(1,1)=U(0,1)

 感知器:y = f(w·x+b),w是权重向量,x是输入向量,b是偏置,f是激活函数

设计一个感知器,让它来实现and运算。下面是它的真值表:


设计:令w1=0.5,w2=0.5,b=-0.8,而激活函数是阶跃函数:

输入真值表第一行,即x1=x2=0,则输出为:

即当x1=x2=0时,y=0,这是真值表的第一行。

傅里叶变换:

周期函数=无数个正弦波的叠加,不同频率的正弦波=频率分量

三角函数:周期T=2π/ω;角频率=ω;频率f= 1/T= ω/2π;wx+t:相位;t:初相位

p(t)=90+20sin(160πt),其中振幅A=20,最小正周期T=2π/(160π)=1/80,频率f=1/T=80

频谱=频域图像中,x轴是频率,y轴是该频率信号的幅度

电视频道:不同的频道就是将不同的频率作为一个通道来进行信息传输。

滤波:从某条曲线中去除一些特定的频率成分

相位差=时间差/周期*2π

 

posted @ 2021-02-05 22:34  Jary霸  阅读(637)  评论(0编辑  收藏  举报