matlab中统计工具箱函数大全(转帖)

 

 

 
   

matlab中统计工具箱函数大全(转帖)

  • 写于2011-01-19 10:18:47

http://hi.baidu.com/�ҵİٶȿ���/blog/item/09e5fd1f7e1d490d304e1503.html

matlab中统计工具箱函数大全

MATLAB统计工具箱包括概率分布、方差分析、假设检验、分布检验、非参数检验、回归分析、判别分析、主成分分析、因子分析、系统聚类分析、K均值聚类分析、试验设计、决策树、多元方差分析、统计过程控制和统计图形绘制等。优化工具箱包括无约束最优化、有约束最优化、二次规划、多目标规划、最大最小化、半元限问题、方程求解以及大型优化问题的求解等。

Ⅰ-1 概率密度函数



betapdf
贝塔分布的概率密度函数

binopdf
二项分布的概率密度函数

chi2pdf
卡方分布的概率密度函数

exppdf
指数分布的概率密度函数

fpdf f
分布的概率密度函数

gampdf
伽玛分布的概率密度函数

geopdf
几何分布的概率密度函数

hygepdf
超几何分布的概率密度函数

normpdf
正态(高斯)分布的概率密度函数

lognpdf
对数正态分布的概率密度函数

nbinpdf
负二项分布的概率密度函数

ncfpdf
非中心f分布的概率密度函数

nctpdf
非中心t分布的概率密度函数

ncx2pdf
非中心卡方分布的概率密度函数

poisspdf
泊松分布的概率密度函数

raylpdf
雷利分布的概率密度函数

tpdf
学生氏t分布的概率密度函数

unidpdf
离散均匀分布的概率密度函数

unifpdf
连续均匀分布的概率密度函数

weibpdf
威布尔分布的概率密度函数


Ⅰ-2 累加分布函数
函数名
对应分布的累加函数



betacdf
贝塔分布的累加函数

binocdf
二项分布的累加函数

chi2cdf
卡方分布的累加函数

expcdf
指数分布的累加函数

fcdf f
分布的累加函数

gamcdf
伽玛分布的累加函数

geocdf
几何分布的累加函数

hygecdf
超几何分布的累加函数

logncdf
对数正态分布的累加函数

nbincdf
负二项分布的累加函数

ncfcdf
非中心f分布的累加函数

nctcdf
非中心t分布的累加函数

ncx2cdf
非中心卡方分布的累加函数

normcdf
正态(高斯)分布的累加函数

poisscdf
泊松分布的累加函数

raylcdf
雷利分布的累加函数

tcdf
学生氏t分布的累加函数

unidcdf
离散均匀分布的累加函数

unifcdf
连续均匀分布的累加函数

weibcdf
威布尔分布的累加函数




Ⅰ-11 线性模型函数

anova1
单因子方差分析

anova2
双因子方差分析

anovan
多因子方差分析

aoctool
协方差分析交互工具

dummyvar
拟变量编码

friedman Friedman
检验

glmfit
一般线性模型拟合

kruskalwallis Kruskalwallis
检验

leverage
中心化杠杆值

lscov
已知协方差矩阵的最小二乘估计

manova1
单因素多元方差分析

manovacluster
多元聚类并用冰柱图表示

multcompare
多元比较

多项式评价及误差区间估计

polyfit
最小二乘多项式拟合

polyval
多项式函数的预测值

polyconf
残差个案次序图

regress
多元线性回归

regstats
回归统计量诊断


Ridge
岭回归

rstool
多维响应面可视化

robustfit
稳健回归模型拟合

stepwise
逐步回归

x2fx
用于设计矩阵的因子设置矩阵



Ⅰ-12 非线性回归函数

nlinfit
非线性最小二乘数据拟合(牛顿法)

nlintool
非线性模型拟合的交互式图形工具

nlparci
参数的置信区间

nlpredci
预测值的置信区间

nnls
非负最小二乘



Ⅰ-13 试验设计函数

cordexch D-
优化设计(列交换算法

daugment
递增D-优化设计

dcovary
固定协方差的D-优化设计

ff2n
二水平完全析因设计

fracfact
二水平部分析因设计

fullfact
合水平的完全析因设计

hadamard Hadamard
矩阵(正交数组)

rowexch D-
优化设计(行交换算法)




Ⅰ-14 主成分分析函数

barttest Barttest
检验

pcacov
源于协方差矩阵的主成分

pcares
源于主成分的方差

princomp
根据原始数据进行主成分分析



Ⅰ-15 多元统计函数

classify
聚类分析

mahal
马氏距离

manova1
单因素多元方差分析

manovacluster
多元聚类分析



Ⅰ-16 假设检验函数

ranksum
秩和检验

signrank
符号秩检验

signtest
符号检验

ttest
单样本t检验

ttest2
双样本t检验

ztest z
检验




Ⅰ-17 分布检验函数

jbtest
正态性的Jarque-Bera检验

kstest
单样本Kolmogorov-Smirnov检验

kstest2
双样本Kolmogorov-Smirnov检验

lillietest
正态性的Lilliefors检验



Ⅰ-18 非参数函数

friedman Friedman
检验

kruskalwallis Kruskalwallis
检验

ranksum
秩和检验

signrank
符号秩检验

signtest
符号检验



Ⅰ-19 文件输入输出函数

caseread
读取个案名

casewrite
写个案名到文件

tblread
以表格形式读数据

tblwrite
以表格形式写数据到文件

tdfread
从表格间隔形式的文件中读取文本或数值数据



Ⅰ-20 演示函数

aoctool
协方差分析的交互式图形工具

disttool
探察概率分布函数的GUI工具

glmdemo
一般线性模型演示

randtool
随机数生成工具

polytool
多项式拟合工具

rsmdemo
响应拟合工具

robustdemo
稳健回归拟合工具


统计工具箱是matlab提供给人们的一个强有力的统计分析工具.包含200多个m文件(函数),主要支持以下各方面的内容.
〉〉概率分布:提供了20种概率分布,包含离散和连续分布,且每种分布,提供了5个有用的函数,即概率密度函数,累积分布函数,逆累积分布函数,随机产生器与方差计算函数.
〉〉 参数估计:依据特殊分布的原始数据,可以计算分布参数的估计值及其置信区间.
〉〉描述性统计:提供描述数据样本特征的函数,包括位置和散布的度 量,分位数估计值和数据处理缺失情况的函数等.
〉〉线性模型:针对线性模型,工具箱提供的函数涉及单因素方差分析,双因素方差分析,多重线性回 归,逐步回归,响应曲面和岭回归等.
〉〉非线性模型:为非线性模型提供的函数涉及参数估计,多维非线性拟合的交互预测和可视化以及参数和预计值的 置信区间计算等.
〉〉 假设检验: 此间提供最通用的假设检验函数:t检验和z检验
〉〉其它的功能就不再介绍.
统计工具箱函数主 要分为两类:
〉数值计算函数(M文件)
〉交互式图形函数(Gui)
matlab惯例:beta 线性模型中的参数,E(x) x的数学期望, f(x|a,b) 概率密度函数, F(x|a,b) 累积分布函数 ,I([a,b]) 指示(Indicator)函数
p,q p事件发生的概率.
[size=2][color=blue]第1节 概率分布[/color][/size]
统计工具箱提供的常见分 布
Uniform均匀,Weibull威布尔,Noncentral t,Rayleigh瑞利,Poisson泊松,Student's t,Normal正态,Negative Binomial,Noncentral F
Lognormal对数,正态,Hyper G,F分布,Gamma,Geometric几何,Noncentral chi-square,Exponential指数,Binomial二项,Chi-square
Beta(分 布),discrete,Continuous,Continuous,离散分布,统计量连续分布,数据连续分布,概率密度函数 pdf,probbability density function
〉〉功能:可选的通用概率密度函数
〉〉格 式:Y=pdf('Name',X,A1,A1,A3)
'Name' 为特定的分布名称,第一个字母必须大写
X 为分布函数自变量取值矩阵
A1,A2,A3 分别为相应分布的参数值
Y 存放结果,为概率密度值矩阵
算例:
>> y=pdf('Normal',-2:2,0,1)
y =
0.0540 0.2420 0.3989 0.2420 0.0540
>> Y=pdf('Normal',-2:0.5:2,1,4)
Y =
0.0753 0.0820 0.0880 0.0930 0.0967 0.0990 0.0997 0.0990 0.0967
>> p=pdf('Poisson',0:2:8,2)
p =
0.1353 0.2707 0.0902 0.0120 0.0009
>> p=pdf('F',1:2:10,4,7)
p =
0.4281 0.0636 0.0153 0.0052 0.0021
我们 也可以利用这种计算功能和作图功能,绘制一下密度函数曲线,例如,绘制不同的正态分布的密度曲线
>> x=[-6:0.05:6];
>> y1=pdf('Normal',x,0,0.5);
>> y2=pdf('Normal',x,0,1);
>> y3=pdf('Normal',x,0,2);
>> y4=pdf('Normal',x,0,4);
>>plot(x,y1,'K-',x,y2,'K--',x,y3,'*',x,y4,'+')
这 个程序计算了mu=0,而sigma取不同值时的正态分布密度函数曲线的形态,可以看出,sigma越大,曲线越平坦.
累积分布函数及逆累积分布 函数 cdf icdf
〉〉功能:计算可选分布函数的累积分布和逆累积分布函数
〉〉格 式:P=cdf('Name',X,A1,A2,A3)
X=icdf('Name',P,A1,A2,A3)
>> x=[-3:0.5:3];
>> p=cdf('Normal',x,0,1)
p =
0.0013 0.0062 0.0228 0.0668 0.1587 0.3085 0.5000 0.6915 0.8413 0.9332 0.9772 0.9938 0.9987
>> x=icdf('Normal',p,0,1)
x =
-3.0000 -2.5000 -2.0000 -1.5000 -1.0000 -0.5000 0 0.5000 1.0000 1.5000 2.0000 2.5000 3.0000
随机数产生器 random
〉〉功能:产生可选分布的随机数
〉〉格 式:y=random('Name',A1,A2,A3,m,n)
A1,A2,A3 分布的参数
'Name' 分布的名称
m,n 确定y的数量,如果参数是标量,则y是m*n矩阵
例如 产生服从参数为(9,10)的F-分布的4个随机数值
>> y=random('F',9,10,2,2)
y =
3.4907 1.6762
0.5702 1.1534
均值和方差 以'stat'结尾的函数
均值和方差的计算函数
[m,v]=normstat(mu,sigma)
正态分布
[mn,v]=hygestat(M,K,N)
超 几何分布
[m,v]=geostat(P)
几何分布
[m,v]=gamstat(A,B)
Gamma分布
[m,v]=fstat(v1,v2)
F 分布
[m,v]=expstat(mu)
指数分布
[m,v]=chi2stat(nu)
Chi-squrare分布
[m,v]=binostat(N,P)
二 项分布
[m,v]=betastat(A,B)
Beta 分布
函数名称及调用格式
分布类型名称
[m,v]=weibstat(A,B)
威 尔分布
[m,v]=unistat(A,B)
连续均匀分布
[m,v]=unidstat(N)
离散均匀分布
[m,v]=tstat(nu)
t 分布
[m,v]=raylstat(B)
瑞利分布
[m,v]=poisstat(lambda)
泊松分布
[m,v]=ncx2stat(nu,delta)
非 中心chi2分布
[m,v]=nctstat(nu,delta)
非中心t分布
[m,v]=ncfstat(nu1,nu2,delta)
非 中心F分布
[m,v]=nbinstat(R,P)
负二项分布
[m,v]=lognstat(mu,sigma)
对数正 态分布
[size=2][color=blue]第2节 参数估计[/color][/size]
参数估计是总体的分布形式已经知道,且 可以用有限个参数表示的估计问题.分为点估计(极大似燃估计Maximum likehood estimation, MLE)和区间估计.求取各种分布的最大似然估计估计量 mle
〉〉格式:phat=mle('dist',da
ta)
[phat,pci]=mle('dist',da
ta)
[phat,pci]=mle('dist',da
ta,alpha)
[phat,pci]=mle('dist',data,alpha,p1)
〉〉 'dist' 给定的特定分布的名称,'beta','binomial'等.Data为数据样本,矢量形式给出.Alpha用户给定的置信度值,以给出100(1-alpha)%的置信区间,缺省为0.05.最后一种是仅供二项分布参数估计,p1为实验次数.
例1 计算beta 分布的两个参数的似然估计和区间估计(alpha=0.1,0.05,0.001),样本由随机数产生.
>> random('beta',4,3,100,1);
>> [p,pci]=mle('beta',r,0.1)
p =
4.6613 3.5719
pci =
3.6721 2.7811
5.6504 4.3626
>> [p,pci]=mle('beta',r,0.05)
p =
4.6613 3.5719
pci =
3.4827 2.6296
5.8399 4.5141
>> [p,pci]=mle('beta',r,0.001)
p =
4.6613 3.5719
pci =
2.6825 1.9900
6.6401 5.1538
例 2 计算二项分布的参数估计与区间估计,alpha=0.01.
>> r=random('Binomial',10,0.2,10,1);
>> [p,pci]=mle('binomial',r,0.01,10)
p =
0.2000 0.2000 0.1000 0.4000 0.2000 0.2000 0.4000 0 0.1000 0.2000
pci =
0.0109 0.0109 0.0005 0.0768 0.0109 0.0109 0.0768 NaN 0.0005 0.0109
0.6482 0.6482 0.5443 0.8091 0.6482 0.6482 0.8091 0.4113 0.5443 0.6482
[size=2][color=blue] 第3节 描述统计[/color][/size]
描述性统计包括:位置度量,散布度量,缺失数据下的统计处理,相关系数,样本分位数,样本峰度, 样本偏度,自助法等
〉〉位置度量:几何均值(geomean),调和均值(harmmean),算术平均值(mean),中位数 (median),修正的样本均值(trimean).
〉〉散布度量:方差(var),内四分位数间距(iqr),平均绝对偏差(mad),样本极差(range),标准差(std),任意阶中心矩(moment),协方差矩阵(cov).
〉〉缺失数据情况下的处理:忽视缺失数据的最大值 (nanmax),忽视缺失数据的平均值(nanmean),忽视缺失数据的中位数 (nanmedian),忽视缺失数据的最小值(nanmin),忽视缺失数据的标准差(nanstd),忽视缺失数据的和(namsum).
〉〉 相关系数:corrcoef ,计算相关系数
〉〉样本分位数:prctile,计算样本的经验分位数
〉〉样本峰度:kurtosis,计 算样本峰度
〉〉样本偏度:skewness,计算样本偏度
〉〉自助法:bootstrp,对样本从新采样进行自助统计
中心趋势 (位置)度量
样本中心趋势度量的目的在于对数据样本在分布线上分布的中心位置予以定为.均值是对中心位置简单和通常的估计量.不幸的是,几乎所有的实际数据都存在野值 (输入错误或其它小的技术问题造成的).样本均值对这样的值非常敏感.中位数和修正(剔除样本高值和低值)后的均值则受野值干扰很小.而几何均值和调和均值对野值也较敏感.下面逐个说明这些度量函数.
〉〉geomean
功能:样本的几何均值
格式:m=geomean(X)
若 X为向量,则返回X中元素的几何均值;若X位矩阵,给出的结果为一个行向量,即每列几何均值.
例 1 计算随机数产生的样本的几何均值
>> X=random('F',10,10,100,1);
>> m=geomean(X)
m =
1.1007
>> X=random('F',10,10,100,5);
>> m=geomean(X)
m =
0.9661 1.0266 0.9703 1.0268 1.0333
〉〉harmmean
功能:样本的调和均值
格 式:m=harmmean(X)
例 2 计算随机数的调和均值
>> X=random('Normal',0,1,50,5);
>> m=harmmean(X)
m =
-0.2963 -0.0389 -0.9343 5.2032 0.7122
〉〉mean
功能:样本数据的算术平均值
格 式:m=mean(x)
例 3 计算正态随机数的算术平均数
>>X=random('Normal',0,1,300,5);
>> xbar=mean(X)
xbar =
0.0422 -0.0011 -0.0282 0.0616 -0.0080
〉〉 median
功能:样本数据的中值(中位数),是对中心位值的鲁棒估计.
格式:m=median(X)
例 4 计算本的中值
>> X=random('Normal',0,1,5,3)
X =
0.0000 0.8956 0.5689
-0.3179 0.7310 -0.2556
1.0950 0.5779 -0.3775
-1.8740 0.0403 -0.2959
0.4282 0.6771 -1.4751
>> m=median(X)
m =
0.0000 0.6771 -0.2959
〉〉 trimmean
功能:剔除极端数据的样本均值.
格式:m=trimmean(X,percent)
说明:计算剔除观测值中最高 percent%和最低percent%的数据后的均值
例5 计算修改后的样本均值
>> X=random('F',9,10,100,4);
>> m=trimmean(X,10)
m =
1.1470 1.1320 1.1614 1.0469
散布度量
散布度量是描述样本中数据离其中心的程度,也称离差.常用的有极差,标准差,平均绝对 差,四分位数间距
〉〉iqr
功能:计算样本的内四分位数的间距,是样本的鲁棒估计
格式:y=iqr(X)
说明:计算样本 的75%和25%的分位数之差,不受野值影响.
例6 计算样本的四分位间距
>> X=random('Normal',0,1,100,4);
>> m=iqr(X)
m =
1.3225 1.2730 1.3018 1.2322
〉〉mad
功能:样本数据的平均绝对偏差
格式:y=mad(X)
说明:正态分 布的标准差sigma可以用mad乘以1.3估计
例7 计算样本数据的绝对偏差
>> X=random('F',10,10,100,4);
>> y=mad(X)
y =
0.5717 0.5366 0.6642 0.7936
>> y1=var(X)
y1 =
0.6788 0.6875 0.7599 1.3240
>> y2=y*1.3
y2 =
0.8824 0.8938 0.9879 1.7212
〉〉 range
功能:计算样本极差
格式:y=range(X)
说明:极差对野值敏感
例 8 计算样本值的极差
>> X=random('F',10,10,100,4);
>> y=range(X)
y =
10.8487 3.5941 4.2697 4.0814
〉〉var
功能:计算样本方差
格式:y=var(X) y=var(X,1) y=var(X,w)
Var(X)经过n-1进行了标准化,Var(X,1)经过n进行了标准变化
例 9 计算各类方差
>> X=random('Normal',0,1,100,4);
>> y=var(X)
y =
0.9645 0.8209 0.9595 0.9295
>> y1=var(X,1)
y1 =
0.9548 0.8126 0.9499 0.9202
>> w=[1:1:100];
>> y2=var(X,w)
y2 =
0.9095 0.7529 0.9660 0.9142
〉〉std
功能:样本的标准差
格式:y=std(X)
说明:经过n-1标准 化后的标准差
例 10计算随机样本的标准差
>> X=random('Normal',0,1,100,4);
>> y=std(X)
y =
0.8685 0.9447 0.9569 0.9977
〉〉cov
功能:协方差矩阵
格 式:C=cov(X) C=cov(x,y) C=cov([x y])
说明:若X为向量,cov(X)返回一个方差标量;若X为矩阵,则返回协 方差矩阵;cov(x,y)与cov([x y])相同,x与y的长度相同.
例 11 计算协方差
>> x=random('Normal',2,4,100,1);
>> y=random('Normal',0,1,100,1);
>> C=cov(x,y)
C =
12.0688 -0.0583
-0.0583 0.8924
处理缺失数据的函数
在 对大量数据样本时,常常遇到一些无法确定的或者无法找到确切的值.在这种情况下,用符号"NaN"(not a number )标注这样的数据.这种情况下,一般的函数得不到任何信息.
例如 m中包含nan数据
>> m=magic(3);
>> m([1 5 9])=[NaN NaN NaN];
>> sum(m)
ans =
NaN NaN NaN
但 是通过缺失数据的处理,得到有用的信息.
>> nansum(m)
ans =
7 10 13
〉〉 nanmax
功能:忽视NaN,求其它数据的最大值
格式:m=nanmax(X)
[m,ndx]=nanmax(X)
m=nanmax(a,b)
说 明:nanmax(X)返回X中数据除nan外的其它的数据的最大值,[m,ndx]=nanmax(X)还返回X最大值的序号给 ndx.m=nanmax(a,b)返回a或者b的最大值,a,b长度同
>> m=magic(3);
>> m([1 5 9])=[NaN NaN NaN];
>> [m,ndx]=nanmax(m)
m =
4 9 7
ndx =
3 3 2
处理缺失数据的常用函数
Y=nansum(X)
求包含确实数据的和
nansum
Y=nanstd(X)
求 包含确实数据的标准差
Nanstd
Y=nanmedian(X)
求包含确实数据中位数
Nanmedian
Y=nanmean(X)
求 包含确实数据的平均值
Nanmean
同上
求包含确实数据的最小值
Nanmin
(略)
求包含确实数据的最 大值
Nanmax
调用格式
功能
函数名称
中心矩 moment
功能:任意阶的中心矩
格 式:m=moment(X,order)
说明:order为阶,函数本身除以X的长度
例 12 计算样本函数的中心矩
>> X=random('Poisson',2,100,4);
>> m=moment(X,1)
m =
0 0 0 0
>> m=moment(X,2)
m =
1.7604 2.0300 1.6336 2.3411
>> m=moment(X,3)
m =
1.3779 2.5500 2.3526 2.2964
百分位数及其图形描述
白分位 数图形可以直观观测到样本的大概中心位置和离散程度,可以对中心趋势度量和散布度量作补充说明
〉〉prctile
功能:计算样本的百分位 数
格式:y=prctile(X,p)
说明:计算X中数据大于P%的值,P的取值区间为[0,100],如果X为向量,返回X中P百分位数;X为矩阵,给出一个向量;如果P为向量,则y的第i个行对应于X的p(i) 百分位数.例如
>> x=(1:5)'*(1:5)
x =
1 2 3 4 5
2 4 6 8 10
3 6 9 12 15
4 8 12 16 20
5 10 15 20 25
>> y=prctile(x,[25,50,75])
y =
1.7500 3.5000 5.2500 7.0000 8.7500
3.0000 6.0000 9.0000 12.0000 15.0000
4.2500 8.5000 12.7500 17.0000 21.2500
做出相应的百分位数的图形
>> boxplot(x)
5列分位数构 造5个盒图,见下页.
相关系数 corrcoef
功能:相关系数
格式:R=corrcoef(X)
例13 合金的强度y与含碳量x的样本如下,试计算r(x,y).
>> X=[41 42.5 45 45.5 45 47.5 49 51 50 55 57.5 59.5;
0.1,0.11 0.12 0.13 0.14 0.15 0.16 0.17 0.18 0.20 0.22 0.24]';
>> R=corrcoef(X)
R =
1.0000 0.9897
0.9897 1.0000
样本峰度 kurtosis
功能:样本峰度
格式:k=kurtosis(X)
说明:峰度为单峰分布区线" 峰的平坦程度"的度量,其定义为
Matlab 工具箱中峰度不采用一般定义(k-3,标准正态分布的峰度为0).而是定义标准正态分布峰度为3,曲线比正态分布平坦,峰度大于3,反之,小于3.
例14 计算随机样本的峰度
>> X=random('F',10,20,100,4);
>> k=kurtosis(X)
k =
6.5661 5.5851
6.0349 7.0129
样本偏度 skewness
功 能:样本偏度
格式:y=skewness(X)
说明:偏度是度量样本围绕其均值的对称情况.如果偏度为负,则数据分布偏向左边,反之,偏 向右边.其定义为
>> X=random('F',9,10,100,4);
>> y=skewness(X)
y =
1.0934 1.5513 2.0522 2.9240
自助法 bootstrap
引例:一组来自15个法律学校的学生的 lsat分数 和gpa进行比较的样本.
> load lawdata
>> x=[lsat gpa]
x =
576.0000 3.3900
635.0000 3.3000
558.0000 2.8100
578.0000 3.0300
666.0000 3.4400
580.0000 3.0700
555.0000 3.0000
661.0000 3.4300
651.0000 3.3600
605.0000 3.1300
653.0000 3.1200
575.0000 2.7400
545.0000 2.7600
572.0000 2.8800
594.0000 2.9600
绘图,并进行曲线拟合
>> plot(lsat,gpa,'+')
>> lsline
通过上图的拟合可以看出,lsat随着gpa增长而提高,但是我们 确信此结论的程度是多少曲线只给出了直观表现,没有量的表示.计算相关系数
>> y=corrcoef(lsat,gpa)
y =
1.0000 0.7764
0.7764 1.0000
相关系数是0.7764,但是由于样本容量n=15比较小,我们仍然不能确定在统计上相关的显著性多大.应此,必须采用bootstrp函数对lsat和gpa样本来从新采样,并考察相关系数的变化.
>> y1000=bootstrp(1000,'corrcoef',lsat,gpa);
>> hist(y1000(:,2),30)
绘制lsat,gpa和相关系数得直方图如下
结果显示,相关系数绝大多数在区间[0.4,1] 内,表明lsat分数和gpa具有确定的相关性,这样的分析,不需要对象关系数的概率分布做出很强的假设.
[size=2] [color=blue]第4节 假设检验[/color][/size]
基本概念
H0:零假设,即初始判断.
H1:备择假设, 也称对立假设.
Alpha :显著水平,在小样本的前提下,不能肯定自己的结论,所以事先约定,如果观测到的符合零假设的样本值的概率小于alpha,则拒绝零假设.典型的显著水平取alpha=0.05.如果想减少犯错误的可能,可取更小的值.
P-值:在零假设为真的条件下,观测给定样本结果的概率值.如果Pmu tail=-1——x>x =[119 117 115 116 112 121 115 122 116 118 109 112 119 112 117 113 114 109 109 118];
>> h=ztest(x,115,4)
h =
0
表 明,接受H0,认为该种汽油的平均价格为115美分.
>> [h,sig,ci]=ztest(x,115,4,0.01,0)
h = 0
sig =
0.8668
ci =
112.8461 117.4539
>> [h,sig,ci]=ztest(x,115,4,0.01,1)
h =0
sig =
0.4334
ci =
113.0693 Inf
>> [h,sig,ci]=ztest(x,115,4,0.01,-1)
h=0
sig =
0.5666
ci =
-Inf 117.2307
Ttest
功能:单一样本均值的t检验
格式:h=ttest(x,m)
h=ttest(x,m,alpha)
[h,sig,ci]=ttest(x,m,alpha,tail)
说 明:用于正态总体标准差未知时对均值的t检验.Tail功能与ztest作用一致.
>> x=random('Normal',0,1,100,1);
>> [h,sig,ci]=ttest(x,0,0.01,-1)
h =
0
sig =
0.0648
ci =
-Inf 0.0808
>> [h,sig,ci]=ttest(x,0,0.001,1)
h =
0
sig =
0.9352
ci =
-0.4542 Inf
Signtest
功能:成对样本的符号检验
格式:p=signtest(x,y,alpha)
[p,h]=signtest(x,y,alpha)
说明:p给出两个配对样本x和y的中位数(对于正态分布,中位数,就是平均值.相等的显著性概率.X与y的长度相等.Y也可以为标量,计算x的中位数与常数y之间差异的概率.[p,h]返回结果h.如果这样两个样本的中位数之间差几乎为0,则h=0,否则有显著差异,则h=1.
>> x=[0 1 0 1 1 1 1 0 1 0];
>> y=[1 1 0 0 0 0 1 1 0 0];
>> [p,h]=signtest(x,y,0.05)
p =
0.6875
h =
0
Signrank
功 能:威尔科克符号秩检验
格式:p=signrank(x,y,alpha)
[p,h]=signrank(x,y,alpha)
说明:p给出两个配对样本x和y的中位数(对于正态分布,中位数和均值等)相等的假设的显著性的概率.X与y的长度相同.[p,h]返回假设检验的结果,如果两个样本的中位数之差极护卫零,则h=0;否则,有显著差异,则h=1.
>> x=random('Normal',0,1,200,1);
>> y=random('Normal',0.1,2,200,1);
>> [p,h]=signrank(x,y,0.05)
p =
0.9757
h =
0
Ranksum
功能:两个总体一致性的威尔科克秩和的检验
格 式:p=ranksum(x,y,alpha)
[p,h]=ranksum(x,y,alpha)
说明:p返回两个总体样本x和y一致的显著性概率.X和y的长度可以不同.但长度长的排在前面.[p,h]返回检验结果,如果总体x和y并非明显不一致,返回h=0,否则,h=1.
>> x=random('Normal',0,2,20,1);
>> y=random('Normal',0.1,4,10,1);
>> [p,h]=ranksum(x,y,0.05)
p =
0.7918
h =
0
[size=2] [color=blue]第5节 统计绘图[/color][/size]
统计绘图就是用图形表达函数,以便直观地,充分的表现样本及其统计量的 内在本质性.
Box图
功能:数据样本的box图
格式:boxplot(X) boxplot(X,notch) boxplot(X,notch,'sym')
boxplot(X,notch,'sym,vert) boxplot(X,notch,'sym',vert,whis)
说明1:"盒子"的上底和下底间为四分位间距,"盒子"的上下两条线分别表示样本的25%和75%分位数."盒子"中间线为样本中位数.如果盒子中间线不在盒子中间,表示样本存在一定的篇度.
虚线贯穿"盒子"上下,表示样 本的其余部分(除非有野值).样本最大值为虚线顶端,样本最小值为虚线底端.用"+"表示野值.
"切口"是样本的置信区间,却省时,没有切口
说明2:notch=0,盒子没有切口,notch=1,盒子有切口;'sym'为野值标记符号,缺省时,"+"表示.Vert=0时候,box图水平放置,vert=1时,box图垂直放置.Whis定义虚线长度为内四分位间距(IQR)的函数(缺省时为1.5*IQR),若whis=0,box图用 'sym'规定的记号显示盒子外所有数据.
>> x1=random('Normal',2,1,100,1);
>> x2=random('Normal',1,2,100,1);
>> x=[x1 x2];
>> boxplot(x,1,'*',1,0)
绘图结果见下页
Errorbar 误差条图
功能:误差条图
格 式:errorbar(X,Y,L,U,symbol)
errorbar(X,Y,L)
errorbar(Y,L)
说明:误差条 是距离点(X,Y)上面的长度为U(i) ,下面的长度为L(i) 的直线.X,Y,L,U的长度必须相同.Symbol为一字符 串,可以规定线条类型,颜色等.
>> U=ones(20,1);
>> L=ones(20,1);
>> errorbar(r1,r2,L,U,'+')
>> r1=random('Poisson',2,10,1);
>>r2=random('Poisson',10,10,1);
>> U=ones(10,1);
>> L=U;
>> errorbar(r1,r2,L,U,'+')
Lsline 绘制最小二乘拟合线
功能:绘制数据的最小二乘拟合曲线
格式:lsline
h=lsline
说明:lsline为当前坐 标系中的每一个线性数据给出其最小二乘拟合线.
>> y=[2 3.4 5.6 8 11 12.3 13.8 16 18.8 19.9]';
>> plot(y,'+')
>> lsline
Refcurve 参考多项式
功 能:在当前图形中给出多项式拟合曲线
格式:h=refcurve(p)
说明:在当前图形中给出多项式p(系数向量)的曲线,n阶多项式为
y=p1*x^n+p2*x^(n-1)+…+pn*x+p0
则p=[p1 p2 … pn p0]
>> h=[85 162 230 289 339 381 413 437 452 458 456 440 400 356];
>> plot(h,'+')
>> refcurve([-4.9,100,0])
回上善若水的空间首页

matlab中统计工具箱函数大全(转帖)

  • 写于2011-01-19 10:18:47

http://hi.baidu.com/�ҵİٶȿ���/blog/item/09e5fd1f7e1d490d304e1503.html

matlab中统计工具箱函数大全

MATLAB统计工具箱包括概率分布、方差分析、假设检验、分布检验、非参数检验、回归分析、判别分析、主成分分析、因子分析、系统聚类分析、K均值聚类分析、试验设计、决策树、多元方差分析、统计过程控制和统计图形绘制等。优化工具箱包括无约束最优化、有约束最优化、二次规划、多目标规划、最大最小化、半元限问题、方程求解以及大型优化问题的求解等。

Ⅰ-1 概率密度函数



betapdf
贝塔分布的概率密度函数

binopdf
二项分布的概率密度函数

chi2pdf
卡方分布的概率密度函数

exppdf
指数分布的概率密度函数

fpdf f
分布的概率密度函数

gampdf
伽玛分布的概率密度函数

geopdf
几何分布的概率密度函数

hygepdf
超几何分布的概率密度函数

normpdf
正态(高斯)分布的概率密度函数

lognpdf
对数正态分布的概率密度函数

nbinpdf
负二项分布的概率密度函数

ncfpdf
非中心f分布的概率密度函数

nctpdf
非中心t分布的概率密度函数

ncx2pdf
非中心卡方分布的概率密度函数

poisspdf
泊松分布的概率密度函数

raylpdf
雷利分布的概率密度函数

tpdf
学生氏t分布的概率密度函数

unidpdf
离散均匀分布的概率密度函数

unifpdf
连续均匀分布的概率密度函数

weibpdf
威布尔分布的概率密度函数


Ⅰ-2 累加分布函数
函数名
对应分布的累加函数



betacdf
贝塔分布的累加函数

binocdf
二项分布的累加函数

chi2cdf
卡方分布的累加函数

expcdf
指数分布的累加函数

fcdf f
分布的累加函数

gamcdf
伽玛分布的累加函数

geocdf
几何分布的累加函数

hygecdf
超几何分布的累加函数

logncdf
对数正态分布的累加函数

nbincdf
负二项分布的累加函数

ncfcdf
非中心f分布的累加函数

nctcdf
非中心t分布的累加函数

ncx2cdf
非中心卡方分布的累加函数

normcdf
正态(高斯)分布的累加函数

poisscdf
泊松分布的累加函数

raylcdf
雷利分布的累加函数

tcdf
学生氏t分布的累加函数

unidcdf
离散均匀分布的累加函数

unifcdf
连续均匀分布的累加函数

weibcdf
威布尔分布的累加函数




Ⅰ-11 线性模型函数

anova1
单因子方差分析

anova2
双因子方差分析

anovan
多因子方差分析

aoctool
协方差分析交互工具

dummyvar
拟变量编码

friedman Friedman
检验

glmfit
一般线性模型拟合

kruskalwallis Kruskalwallis
检验

leverage
中心化杠杆值

lscov
已知协方差矩阵的最小二乘估计

manova1
单因素多元方差分析

manovacluster
多元聚类并用冰柱图表示

multcompare
多元比较

多项式评价及误差区间估计

polyfit
最小二乘多项式拟合

polyval
多项式函数的预测值

polyconf
残差个案次序图

regress
多元线性回归

regstats
回归统计量诊断


Ridge
岭回归

rstool
多维响应面可视化

robustfit
稳健回归模型拟合

stepwise
逐步回归

x2fx
用于设计矩阵的因子设置矩阵



Ⅰ-12 非线性回归函数

nlinfit
非线性最小二乘数据拟合(牛顿法)

nlintool
非线性模型拟合的交互式图形工具

nlparci
参数的置信区间

nlpredci
预测值的置信区间

nnls
非负最小二乘



Ⅰ-13 试验设计函数

cordexch D-
优化设计(列交换算法

daugment
递增D-优化设计

dcovary
固定协方差的D-优化设计

ff2n
二水平完全析因设计

fracfact
二水平部分析因设计

fullfact
合水平的完全析因设计

hadamard Hadamard
矩阵(正交数组)

rowexch D-
优化设计(行交换算法)




Ⅰ-14 主成分分析函数

barttest Barttest
检验

pcacov
源于协方差矩阵的主成分

pcares
源于主成分的方差

princomp
根据原始数据进行主成分分析



Ⅰ-15 多元统计函数

classify
聚类分析

mahal
马氏距离

manova1
单因素多元方差分析

manovacluster
多元聚类分析



Ⅰ-16 假设检验函数

ranksum
秩和检验

signrank
符号秩检验

signtest
符号检验

ttest
单样本t检验

ttest2
双样本t检验

ztest z
检验




Ⅰ-17 分布检验函数

jbtest
正态性的Jarque-Bera检验

kstest
单样本Kolmogorov-Smirnov检验

kstest2
双样本Kolmogorov-Smirnov检验

lillietest
正态性的Lilliefors检验



Ⅰ-18 非参数函数

friedman Friedman
检验

kruskalwallis Kruskalwallis
检验

ranksum
秩和检验

signrank
符号秩检验

signtest
符号检验



Ⅰ-19 文件输入输出函数

caseread
读取个案名

casewrite
写个案名到文件

tblread
以表格形式读数据

tblwrite
以表格形式写数据到文件

tdfread
从表格间隔形式的文件中读取文本或数值数据



Ⅰ-20 演示函数

aoctool
协方差分析的交互式图形工具

disttool
探察概率分布函数的GUI工具

glmdemo
一般线性模型演示

randtool
随机数生成工具

polytool
多项式拟合工具

rsmdemo
响应拟合工具

robustdemo
稳健回归拟合工具


统计工具箱是matlab提供给人们的一个强有力的统计分析工具.包含200多个m文件(函数),主要支持以下各方面的内容.
〉〉概率分布:提供了20种概率分布,包含离散和连续分布,且每种分布,提供了5个有用的函数,即概率密度函数,累积分布函数,逆累积分布函数,随机产生器与方差计算函数.
〉〉 参数估计:依据特殊分布的原始数据,可以计算分布参数的估计值及其置信区间.
〉〉描述性统计:提供描述数据样本特征的函数,包括位置和散布的度 量,分位数估计值和数据处理缺失情况的函数等.
〉〉线性模型:针对线性模型,工具箱提供的函数涉及单因素方差分析,双因素方差分析,多重线性回 归,逐步回归,响应曲面和岭回归等.
〉〉非线性模型:为非线性模型提供的函数涉及参数估计,多维非线性拟合的交互预测和可视化以及参数和预计值的 置信区间计算等.
〉〉 假设检验: 此间提供最通用的假设检验函数:t检验和z检验
〉〉其它的功能就不再介绍.
统计工具箱函数主 要分为两类:
〉数值计算函数(M文件)
〉交互式图形函数(Gui)
matlab惯例:beta 线性模型中的参数,E(x) x的数学期望, f(x|a,b) 概率密度函数, F(x|a,b) 累积分布函数 ,I([a,b]) 指示(Indicator)函数
p,q p事件发生的概率.
[size=2][color=blue]第1节 概率分布[/color][/size]
统计工具箱提供的常见分 布
Uniform均匀,Weibull威布尔,Noncentral t,Rayleigh瑞利,Poisson泊松,Student's t,Normal正态,Negative Binomial,Noncentral F
Lognormal对数,正态,Hyper G,F分布,Gamma,Geometric几何,Noncentral chi-square,Exponential指数,Binomial二项,Chi-square
Beta(分 布),discrete,Continuous,Continuous,离散分布,统计量连续分布,数据连续分布,概率密度函数 pdf,probbability density function
〉〉功能:可选的通用概率密度函数
〉〉格 式:Y=pdf('Name',X,A1,A1,A3)
'Name' 为特定的分布名称,第一个字母必须大写
X 为分布函数自变量取值矩阵
A1,A2,A3 分别为相应分布的参数值
Y 存放结果,为概率密度值矩阵
算例:
>> y=pdf('Normal',-2:2,0,1)
y =
0.0540 0.2420 0.3989 0.2420 0.0540
>> Y=pdf('Normal',-2:0.5:2,1,4)
Y =
0.0753 0.0820 0.0880 0.0930 0.0967 0.0990 0.0997 0.0990 0.0967
>> p=pdf('Poisson',0:2:8,2)
p =
0.1353 0.2707 0.0902 0.0120 0.0009
>> p=pdf('F',1:2:10,4,7)
p =
0.4281 0.0636 0.0153 0.0052 0.0021
我们 也可以利用这种计算功能和作图功能,绘制一下密度函数曲线,例如,绘制不同的正态分布的密度曲线
>> x=[-6:0.05:6];
>> y1=pdf('Normal',x,0,0.5);
>> y2=pdf('Normal',x,0,1);
>> y3=pdf('Normal',x,0,2);
>> y4=pdf('Normal',x,0,4);
>>plot(x,y1,'K-',x,y2,'K--',x,y3,'*',x,y4,'+')
这 个程序计算了mu=0,而sigma取不同值时的正态分布密度函数曲线的形态,可以看出,sigma越大,曲线越平坦.
累积分布函数及逆累积分布 函数 cdf icdf
〉〉功能:计算可选分布函数的累积分布和逆累积分布函数
〉〉格 式:P=cdf('Name',X,A1,A2,A3)
X=icdf('Name',P,A1,A2,A3)
>> x=[-3:0.5:3];
>> p=cdf('Normal',x,0,1)
p =
0.0013 0.0062 0.0228 0.0668 0.1587 0.3085 0.5000 0.6915 0.8413 0.9332 0.9772 0.9938 0.9987
>> x=icdf('Normal',p,0,1)
x =
-3.0000 -2.5000 -2.0000 -1.5000 -1.0000 -0.5000 0 0.5000 1.0000 1.5000 2.0000 2.5000 3.0000
随机数产生器 random
〉〉功能:产生可选分布的随机数
〉〉格 式:y=random('Name',A1,A2,A3,m,n)
A1,A2,A3 分布的参数
'Name' 分布的名称
m,n 确定y的数量,如果参数是标量,则y是m*n矩阵
例如 产生服从参数为(9,10)的F-分布的4个随机数值
>> y=random('F',9,10,2,2)
y =
3.4907 1.6762
0.5702 1.1534
均值和方差 以'stat'结尾的函数
均值和方差的计算函数
[m,v]=normstat(mu,sigma)
正态分布
[mn,v]=hygestat(M,K,N)
超 几何分布
[m,v]=geostat(P)
几何分布
[m,v]=gamstat(A,B)
Gamma分布
[m,v]=fstat(v1,v2)
F 分布
[m,v]=expstat(mu)
指数分布
[m,v]=chi2stat(nu)
Chi-squrare分布
[m,v]=binostat(N,P)
二 项分布
[m,v]=betastat(A,B)
Beta 分布
函数名称及调用格式
分布类型名称
[m,v]=weibstat(A,B)
威 尔分布
[m,v]=unistat(A,B)
连续均匀分布
[m,v]=unidstat(N)
离散均匀分布
[m,v]=tstat(nu)
t 分布
[m,v]=raylstat(B)
瑞利分布
[m,v]=poisstat(lambda)
泊松分布
[m,v]=ncx2stat(nu,delta)
非 中心chi2分布
[m,v]=nctstat(nu,delta)
非中心t分布
[m,v]=ncfstat(nu1,nu2,delta)
非 中心F分布
[m,v]=nbinstat(R,P)
负二项分布
[m,v]=lognstat(mu,sigma)
对数正 态分布
[size=2][color=blue]第2节 参数估计[/color][/size]
参数估计是总体的分布形式已经知道,且 可以用有限个参数表示的估计问题.分为点估计(极大似燃估计Maximum likehood estimation, MLE)和区间估计.求取各种分布的最大似然估计估计量 mle
〉〉格式:phat=mle('dist',da
ta)
[phat,pci]=mle('dist',da
ta)
[phat,pci]=mle('dist',da
ta,alpha)
[phat,pci]=mle('dist',data,alpha,p1)
〉〉 'dist' 给定的特定分布的名称,'beta','binomial'等.Data为数据样本,矢量形式给出.Alpha用户给定的置信度值,以给出100(1-alpha)%的置信区间,缺省为0.05.最后一种是仅供二项分布参数估计,p1为实验次数.
例1 计算beta 分布的两个参数的似然估计和区间估计(alpha=0.1,0.05,0.001),样本由随机数产生.
>> random('beta',4,3,100,1);
>> [p,pci]=mle('beta',r,0.1)
p =
4.6613 3.5719
pci =
3.6721 2.7811
5.6504 4.3626
>> [p,pci]=mle('beta',r,0.05)
p =
4.6613 3.5719
pci =
3.4827 2.6296
5.8399 4.5141
>> [p,pci]=mle('beta',r,0.001)
p =
4.6613 3.5719
pci =
2.6825 1.9900
6.6401 5.1538
例 2 计算二项分布的参数估计与区间估计,alpha=0.01.
>> r=random('Binomial',10,0.2,10,1);
>> [p,pci]=mle('binomial',r,0.01,10)
p =
0.2000 0.2000 0.1000 0.4000 0.2000 0.2000 0.4000 0 0.1000 0.2000
pci =
0.0109 0.0109 0.0005 0.0768 0.0109 0.0109 0.0768 NaN 0.0005 0.0109
0.6482 0.6482 0.5443 0.8091 0.6482 0.6482 0.8091 0.4113 0.5443 0.6482
[size=2][color=blue] 第3节 描述统计[/color][/size]
描述性统计包括:位置度量,散布度量,缺失数据下的统计处理,相关系数,样本分位数,样本峰度, 样本偏度,自助法等
〉〉位置度量:几何均值(geomean),调和均值(harmmean),算术平均值(mean),中位数 (median),修正的样本均值(trimean).
〉〉散布度量:方差(var),内四分位数间距(iqr),平均绝对偏差(mad),样本极差(range),标准差(std),任意阶中心矩(moment),协方差矩阵(cov).
〉〉缺失数据情况下的处理:忽视缺失数据的最大值 (nanmax),忽视缺失数据的平均值(nanmean),忽视缺失数据的中位数 (nanmedian),忽视缺失数据的最小值(nanmin),忽视缺失数据的标准差(nanstd),忽视缺失数据的和(namsum).
〉〉 相关系数:corrcoef ,计算相关系数
〉〉样本分位数:prctile,计算样本的经验分位数
〉〉样本峰度:kurtosis,计 算样本峰度
〉〉样本偏度:skewness,计算样本偏度
〉〉自助法:bootstrp,对样本从新采样进行自助统计
中心趋势 (位置)度量
样本中心趋势度量的目的在于对数据样本在分布线上分布的中心位置予以定为.均值是对中心位置简单和通常的估计量.不幸的是,几乎所有的实际数据都存在野值 (输入错误或其它小的技术问题造成的).样本均值对这样的值非常敏感.中位数和修正(剔除样本高值和低值)后的均值则受野值干扰很小.而几何均值和调和均值对野值也较敏感.下面逐个说明这些度量函数.
〉〉geomean
功能:样本的几何均值
格式:m=geomean(X)
若 X为向量,则返回X中元素的几何均值;若X位矩阵,给出的结果为一个行向量,即每列几何均值.
例 1 计算随机数产生的样本的几何均值
>> X=random('F',10,10,100,1);
>> m=geomean(X)
m =
1.1007
>> X=random('F',10,10,100,5);
>> m=geomean(X)
m =
0.9661 1.0266 0.9703 1.0268 1.0333
〉〉harmmean
功能:样本的调和均值
格 式:m=harmmean(X)
例 2 计算随机数的调和均值
>> X=random('Normal',0,1,50,5);
>> m=harmmean(X)
m =
-0.2963 -0.0389 -0.9343 5.2032 0.7122
〉〉mean
功能:样本数据的算术平均值
格 式:m=mean(x)
例 3 计算正态随机数的算术平均数
>>X=random('Normal',0,1,300,5);
>> xbar=mean(X)
xbar =
0.0422 -0.0011 -0.0282 0.0616 -0.0080
〉〉 median
功能:样本数据的中值(中位数),是对中心位值的鲁棒估计.
格式:m=median(X)
例 4 计算本的中值
>> X=random('Normal',0,1,5,3)
X =
0.0000 0.8956 0.5689
-0.3179 0.7310 -0.2556
1.0950 0.5779 -0.3775
-1.8740 0.0403 -0.2959
0.4282 0.6771 -1.4751
>> m=median(X)
m =
0.0000 0.6771 -0.2959
〉〉 trimmean
功能:剔除极端数据的样本均值.
格式:m=trimmean(X,percent)
说明:计算剔除观测值中最高 percent%和最低percent%的数据后的均值
例5 计算修改后的样本均值
>> X=random('F',9,10,100,4);
>> m=trimmean(X,10)
m =
1.1470 1.1320 1.1614 1.0469
散布度量
散布度量是描述样本中数据离其中心的程度,也称离差.常用的有极差,标准差,平均绝对 差,四分位数间距
〉〉iqr
功能:计算样本的内四分位数的间距,是样本的鲁棒估计
格式:y=iqr(X)
说明:计算样本 的75%和25%的分位数之差,不受野值影响.
例6 计算样本的四分位间距
>> X=random('Normal',0,1,100,4);
>> m=iqr(X)
m =
1.3225 1.2730 1.3018 1.2322
〉〉mad
功能:样本数据的平均绝对偏差
格式:y=mad(X)
说明:正态分 布的标准差sigma可以用mad乘以1.3估计
例7 计算样本数据的绝对偏差
>> X=random('F',10,10,100,4);
>> y=mad(X)
y =
0.5717 0.5366 0.6642 0.7936
>> y1=var(X)
y1 =
0.6788 0.6875 0.7599 1.3240
>> y2=y*1.3
y2 =
0.8824 0.8938 0.9879 1.7212
〉〉 range
功能:计算样本极差
格式:y=range(X)
说明:极差对野值敏感
例 8 计算样本值的极差
>> X=random('F',10,10,100,4);
>> y=range(X)
y =
10.8487 3.5941 4.2697 4.0814
〉〉var
功能:计算样本方差
格式:y=var(X) y=var(X,1) y=var(X,w)
Var(X)经过n-1进行了标准化,Var(X,1)经过n进行了标准变化
例 9 计算各类方差
>> X=random('Normal',0,1,100,4);
>> y=var(X)
y =
0.9645 0.8209 0.9595 0.9295
>> y1=var(X,1)
y1 =
0.9548 0.8126 0.9499 0.9202
>> w=[1:1:100];
>> y2=var(X,w)
y2 =
0.9095 0.7529 0.9660 0.9142
〉〉std
功能:样本的标准差
格式:y=std(X)
说明:经过n-1标准 化后的标准差
例 10计算随机样本的标准差
>> X=random('Normal',0,1,100,4);
>> y=std(X)
y =
0.8685 0.9447 0.9569 0.9977
〉〉cov
功能:协方差矩阵
格 式:C=cov(X) C=cov(x,y) C=cov([x y])
说明:若X为向量,cov(X)返回一个方差标量;若X为矩阵,则返回协 方差矩阵;cov(x,y)与cov([x y])相同,x与y的长度相同.
例 11 计算协方差
>> x=random('Normal',2,4,100,1);
>> y=random('Normal',0,1,100,1);
>> C=cov(x,y)
C =
12.0688 -0.0583
-0.0583 0.8924
处理缺失数据的函数
在 对大量数据样本时,常常遇到一些无法确定的或者无法找到确切的值.在这种情况下,用符号"NaN"(not a number )标注这样的数据.这种情况下,一般的函数得不到任何信息.
例如 m中包含nan数据
>> m=magic(3);
>> m([1 5 9])=[NaN NaN NaN];
>> sum(m)
ans =
NaN NaN NaN
但 是通过缺失数据的处理,得到有用的信息.
>> nansum(m)
ans =
7 10 13
〉〉 nanmax
功能:忽视NaN,求其它数据的最大值
格式:m=nanmax(X)
[m,ndx]=nanmax(X)
m=nanmax(a,b)
说 明:nanmax(X)返回X中数据除nan外的其它的数据的最大值,[m,ndx]=nanmax(X)还返回X最大值的序号给 ndx.m=nanmax(a,b)返回a或者b的最大值,a,b长度同
>> m=magic(3);
>> m([1 5 9])=[NaN NaN NaN];
>> [m,ndx]=nanmax(m)
m =
4 9 7
ndx =
3 3 2
处理缺失数据的常用函数
Y=nansum(X)
求包含确实数据的和
nansum
Y=nanstd(X)
求 包含确实数据的标准差
Nanstd
Y=nanmedian(X)
求包含确实数据中位数
Nanmedian
Y=nanmean(X)
求 包含确实数据的平均值
Nanmean
同上
求包含确实数据的最小值
Nanmin
(略)
求包含确实数据的最 大值
Nanmax
调用格式
功能
函数名称
中心矩 moment
功能:任意阶的中心矩
格 式:m=moment(X,order)
说明:order为阶,函数本身除以X的长度
例 12 计算样本函数的中心矩
>> X=random('Poisson',2,100,4);
>> m=moment(X,1)
m =
0 0 0 0
>> m=moment(X,2)
m =
1.7604 2.0300 1.6336 2.3411
>> m=moment(X,3)
m =
1.3779 2.5500 2.3526 2.2964
百分位数及其图形描述
白分位 数图形可以直观观测到样本的大概中心位置和离散程度,可以对中心趋势度量和散布度量作补充说明
〉〉prctile
功能:计算样本的百分位 数
格式:y=prctile(X,p)
说明:计算X中数据大于P%的值,P的取值区间为[0,100],如果X为向量,返回X中P百分位数;X为矩阵,给出一个向量;如果P为向量,则y的第i个行对应于X的p(i) 百分位数.例如
>> x=(1:5)'*(1:5)
x =
1 2 3 4 5
2 4 6 8 10
3 6 9 12 15
4 8 12 16 20
5 10 15 20 25
>> y=prctile(x,[25,50,75])
y =
1.7500 3.5000 5.2500 7.0000 8.7500
3.0000 6.0000 9.0000 12.0000 15.0000
4.2500 8.5000 12.7500 17.0000 21.2500
做出相应的百分位数的图形
>> boxplot(x)
5列分位数构 造5个盒图,见下页.
相关系数 corrcoef
功能:相关系数
格式:R=corrcoef(X)
例13 合金的强度y与含碳量x的样本如下,试计算r(x,y).
>> X=[41 42.5 45 45.5 45 47.5 49 51 50 55 57.5 59.5;
0.1,0.11 0.12 0.13 0.14 0.15 0.16 0.17 0.18 0.20 0.22 0.24]';
>> R=corrcoef(X)
R =
1.0000 0.9897
0.9897 1.0000
样本峰度 kurtosis
功能:样本峰度
格式:k=kurtosis(X)
说明:峰度为单峰分布区线" 峰的平坦程度"的度量,其定义为
Matlab 工具箱中峰度不采用一般定义(k-3,标准正态分布的峰度为0).而是定义标准正态分布峰度为3,曲线比正态分布平坦,峰度大于3,反之,小于3.
例14 计算随机样本的峰度
>> X=random('F',10,20,100,4);
>> k=kurtosis(X)
k =
6.5661 5.5851
6.0349 7.0129
样本偏度 skewness
功 能:样本偏度
格式:y=skewness(X)
说明:偏度是度量样本围绕其均值的对称情况.如果偏度为负,则数据分布偏向左边,反之,偏 向右边.其定义为
>> X=random('F',9,10,100,4);
>> y=skewness(X)
y =
1.0934 1.5513 2.0522 2.9240
自助法 bootstrap
引例:一组来自15个法律学校的学生的 lsat分数 和gpa进行比较的样本.
> load lawdata
>> x=[lsat gpa]
x =
576.0000 3.3900
635.0000 3.3000
558.0000 2.8100
578.0000 3.0300
666.0000 3.4400
580.0000 3.0700
555.0000 3.0000
661.0000 3.4300
651.0000 3.3600
605.0000 3.1300
653.0000 3.1200
575.0000 2.7400
545.0000 2.7600
572.0000 2.8800
594.0000 2.9600
绘图,并进行曲线拟合
>> plot(lsat,gpa,'+')
>> lsline
通过上图的拟合可以看出,lsat随着gpa增长而提高,但是我们 确信此结论的程度是多少曲线只给出了直观表现,没有量的表示.计算相关系数
>> y=corrcoef(lsat,gpa)
y =
1.0000 0.7764
0.7764 1.0000
相关系数是0.7764,但是由于样本容量n=15比较小,我们仍然不能确定在统计上相关的显著性多大.应此,必须采用bootstrp函数对lsat和gpa样本来从新采样,并考察相关系数的变化.
>> y1000=bootstrp(1000,'corrcoef',lsat,gpa);
>> hist(y1000(:,2),30)
绘制lsat,gpa和相关系数得直方图如下
结果显示,相关系数绝大多数在区间[0.4,1] 内,表明lsat分数和gpa具有确定的相关性,这样的分析,不需要对象关系数的概率分布做出很强的假设.
[size=2] [color=blue]第4节 假设检验[/color][/size]
基本概念
H0:零假设,即初始判断.
H1:备择假设, 也称对立假设.
Alpha :显著水平,在小样本的前提下,不能肯定自己的结论,所以事先约定,如果观测到的符合零假设的样本值的概率小于alpha,则拒绝零假设.典型的显著水平取alpha=0.05.如果想减少犯错误的可能,可取更小的值.
P-值:在零假设为真的条件下,观测给定样本结果的概率值.如果Pmu tail=-1——x>x =[119 117 115 116 112 121 115 122 116 118 109 112 119 112 117 113 114 109 109 118];
>> h=ztest(x,115,4)
h =
0
表 明,接受H0,认为该种汽油的平均价格为115美分.
>> [h,sig,ci]=ztest(x,115,4,0.01,0)
h = 0
sig =
0.8668
ci =
112.8461 117.4539
>> [h,sig,ci]=ztest(x,115,4,0.01,1)
h =0
sig =
0.4334
ci =
113.0693 Inf
>> [h,sig,ci]=ztest(x,115,4,0.01,-1)
h=0
sig =
0.5666
ci =
-Inf 117.2307
Ttest
功能:单一样本均值的t检验
格式:h=ttest(x,m)
h=ttest(x,m,alpha)
[h,sig,ci]=ttest(x,m,alpha,tail)
说 明:用于正态总体标准差未知时对均值的t检验.Tail功能与ztest作用一致.
>> x=random('Normal',0,1,100,1);
>> [h,sig,ci]=ttest(x,0,0.01,-1)
h =
0
sig =
0.0648
ci =
-Inf 0.0808
>> [h,sig,ci]=ttest(x,0,0.001,1)
h =
0
sig =
0.9352
ci =
-0.4542 Inf
Signtest
功能:成对样本的符号检验
格式:p=signtest(x,y,alpha)
[p,h]=signtest(x,y,alpha)
说明:p给出两个配对样本x和y的中位数(对于正态分布,中位数,就是平均值.相等的显著性概率.X与y的长度相等.Y也可以为标量,计算x的中位数与常数y之间差异的概率.[p,h]返回结果h.如果这样两个样本的中位数之间差几乎为0,则h=0,否则有显著差异,则h=1.
>> x=[0 1 0 1 1 1 1 0 1 0];
>> y=[1 1 0 0 0 0 1 1 0 0];
>> [p,h]=signtest(x,y,0.05)
p =
0.6875
h =
0
Signrank
功 能:威尔科克符号秩检验
格式:p=signrank(x,y,alpha)
[p,h]=signrank(x,y,alpha)
说明:p给出两个配对样本x和y的中位数(对于正态分布,中位数和均值等)相等的假设的显著性的概率.X与y的长度相同.[p,h]返回假设检验的结果,如果两个样本的中位数之差极护卫零,则h=0;否则,有显著差异,则h=1.
>> x=random('Normal',0,1,200,1);
>> y=random('Normal',0.1,2,200,1);
>> [p,h]=signrank(x,y,0.05)
p =
0.9757
h =
0
Ranksum
功能:两个总体一致性的威尔科克秩和的检验
格 式:p=ranksum(x,y,alpha)
[p,h]=ranksum(x,y,alpha)
说明:p返回两个总体样本x和y一致的显著性概率.X和y的长度可以不同.但长度长的排在前面.[p,h]返回检验结果,如果总体x和y并非明显不一致,返回h=0,否则,h=1.
>> x=random('Normal',0,2,20,1);
>> y=random('Normal',0.1,4,10,1);
>> [p,h]=ranksum(x,y,0.05)
p =
0.7918
h =
0
[size=2] [color=blue]第5节 统计绘图[/color][/size]
统计绘图就是用图形表达函数,以便直观地,充分的表现样本及其统计量的 内在本质性.
Box图
功能:数据样本的box图
格式:boxplot(X) boxplot(X,notch) boxplot(X,notch,'sym')
boxplot(X,notch,'sym,vert) boxplot(X,notch,'sym',vert,whis)
说明1:"盒子"的上底和下底间为四分位间距,"盒子"的上下两条线分别表示样本的25%和75%分位数."盒子"中间线为样本中位数.如果盒子中间线不在盒子中间,表示样本存在一定的篇度.
虚线贯穿"盒子"上下,表示样 本的其余部分(除非有野值).样本最大值为虚线顶端,样本最小值为虚线底端.用"+"表示野值.
"切口"是样本的置信区间,却省时,没有切口
说明2:notch=0,盒子没有切口,notch=1,盒子有切口;'sym'为野值标记符号,缺省时,"+"表示.Vert=0时候,box图水平放置,vert=1时,box图垂直放置.Whis定义虚线长度为内四分位间距(IQR)的函数(缺省时为1.5*IQR),若whis=0,box图用 'sym'规定的记号显示盒子外所有数据.
>> x1=random('Normal',2,1,100,1);
>> x2=random('Normal',1,2,100,1);
>> x=[x1 x2];
>> boxplot(x,1,'*',1,0)
绘图结果见下页
Errorbar 误差条图
功能:误差条图
格 式:errorbar(X,Y,L,U,symbol)
errorbar(X,Y,L)
errorbar(Y,L)
说明:误差条 是距离点(X,Y)上面的长度为U(i) ,下面的长度为L(i) 的直线.X,Y,L,U的长度必须相同.Symbol为一字符 串,可以规定线条类型,颜色等.
>> U=ones(20,1);
>> L=ones(20,1);
>> errorbar(r1,r2,L,U,'+')
>> r1=random('Poisson',2,10,1);
>>r2=random('Poisson',10,10,1);
>> U=ones(10,1);
>> L=U;
>> errorbar(r1,r2,L,U,'+')
Lsline 绘制最小二乘拟合线
功能:绘制数据的最小二乘拟合曲线
格式:lsline
h=lsline
说明:lsline为当前坐 标系中的每一个线性数据给出其最小二乘拟合线.
>> y=[2 3.4 5.6 8 11 12.3 13.8 16 18.8 19.9]';
>> plot(y,'+')
>> lsline
Refcurve 参考多项式
功 能:在当前图形中给出多项式拟合曲线
格式:h=refcurve(p)
说明:在当前图形中给出多项式p(系数向量)的曲线,n阶多项式为
y=p1*x^n+p2*x^(n-1)+…+pn*x+p0
则p=[p1 p2 … pn p0]
>> h=[85 162 230 289 339 381 413 437 452 458 456 440 400 356];
>> plot(h,'+')
>> refcurve([-4.9,100,0])
matlab中统计工具箱函数大全
MATLAB统计工具箱包括概率分布、方差分析、假设检验、分布检验、非参数检验、回归分析、判别分析、主成分分析、因子分析、系统聚类分析、K均值聚类分析、试验设计、决策树、多元方差分析、统计过程控制和统计图形绘制等。优化工具箱包括无约束最优化、有约束最优化、二次规划、多目标规划、最大最小化、半元限问题、方程求解以及大型优化问题的求解等。

Ⅰ-1 概率密度函数



betapdf
贝塔分布的概率密度函数

binopdf
二项分布的概率密度函数

chi2pdf
卡方分布的概率密度函数

exppdf
指数分布的概率密度函数

fpdf f
分布的概率密度函数

gampdf
伽玛分布的概率密度函数

geopdf
几何分布的概率密度函数

hygepdf
超几何分布的概率密度函数

normpdf
正态(高斯)分布的概率密度函数

lognpdf
对数正态分布的概率密度函数

nbinpdf
负二项分布的概率密度函数

ncfpdf
非中心f分布的概率密度函数

nctpdf
非中心t分布的概率密度函数

ncx2pdf
非中心卡方分布的概率密度函数

poisspdf
泊松分布的概率密度函数

raylpdf
雷利分布的概率密度函数

tpdf
学生氏t分布的概率密度函数

unidpdf
离散均匀分布的概率密度函数

unifpdf
连续均匀分布的概率密度函数

weibpdf
威布尔分布的概率密度函数


Ⅰ-2 累加分布函数
函数名
对应分布的累加函数



betacdf
贝塔分布的累加函数

binocdf
二项分布的累加函数

chi2cdf
卡方分布的累加函数

expcdf
指数分布的累加函数

fcdf f
分布的累加函数

gamcdf
伽玛分布的累加函数

geocdf
几何分布的累加函数

hygecdf
超几何分布的累加函数

logncdf
对数正态分布的累加函数

nbincdf
负二项分布的累加函数

ncfcdf
非中心f分布的累加函数

nctcdf
非中心t分布的累加函数

ncx2cdf
非中心卡方分布的累加函数

normcdf
正态(高斯)分布的累加函数

poisscdf
泊松分布的累加函数

raylcdf
雷利分布的累加函数

tcdf
学生氏t分布的累加函数

unidcdf
离散均匀分布的累加函数

unifcdf
连续均匀分布的累加函数

weibcdf
威布尔分布的累加函数




Ⅰ-11 线性模型函数

anova1
单因子方差分析

anova2
双因子方差分析

anovan
多因子方差分析

aoctool
协方差分析交互工具

dummyvar
拟变量编码

friedman Friedman
检验

glmfit
一般线性模型拟合

kruskalwallis Kruskalwallis
检验

leverage
中心化杠杆值

lscov
已知协方差矩阵的最小二乘估计

manova1
单因素多元方差分析

manovacluster
多元聚类并用冰柱图表示

multcompare
多元比较

多项式评价及误差区间估计

polyfit
最小二乘多项式拟合

polyval
多项式函数的预测值

polyconf
残差个案次序图

regress
多元线性回归

regstats
回归统计量诊断


Ridge
岭回归

rstool
多维响应面可视化

robustfit
稳健回归模型拟合

stepwise
逐步回归

x2fx
用于设计矩阵的因子设置矩阵



Ⅰ-12 非线性回归函数

nlinfit
非线性最小二乘数据拟合(牛顿法)

nlintool
非线性模型拟合的交互式图形工具

nlparci
参数的置信区间

nlpredci
预测值的置信区间

nnls
非负最小二乘



Ⅰ-13 试验设计函数

cordexch D-
优化设计(列交换算法

daugment
递增D-优化设计

dcovary
固定协方差的D-优化设计

ff2n
二水平完全析因设计

fracfact
二水平部分析因设计

fullfact
合水平的完全析因设计

hadamard Hadamard
矩阵(正交数组)

rowexch D-
优化设计(行交换算法)




Ⅰ-14 主成分分析函数

barttest Barttest
检验

pcacov
源于协方差矩阵的主成分

pcares
源于主成分的方差

princomp
根据原始数据进行主成分分析



Ⅰ-15 多元统计函数

classify
聚类分析

mahal
马氏距离

manova1
单因素多元方差分析

manovacluster
多元聚类分析



Ⅰ-16 假设检验函数

ranksum
秩和检验

signrank
符号秩检验

signtest
符号检验

ttest
单样本t检验

ttest2
双样本t检验

ztest z
检验




Ⅰ-17 分布检验函数

jbtest
正态性的Jarque-Bera检验

kstest
单样本Kolmogorov-Smirnov检验

kstest2
双样本Kolmogorov-Smirnov检验

lillietest
正态性的Lilliefors检验



Ⅰ-18 非参数函数

friedman Friedman
检验

kruskalwallis Kruskalwallis
检验

ranksum
秩和检验

signrank
符号秩检验

signtest
符号检验



Ⅰ-19 文件输入输出函数

caseread
读取个案名

casewrite
写个案名到文件

tblread
以表格形式读数据

tblwrite
以表格形式写数据到文件

tdfread
从表格间隔形式的文件中读取文本或数值数据



Ⅰ-20 演示函数

aoctool
协方差分析的交互式图形工具

disttool
探察概率分布函数的GUI工具

glmdemo
一般线性模型演示

randtool
随机数生成工具

polytool
多项式拟合工具

rsmdemo
响应拟合工具

robustdemo
稳健回归拟合工具


统计工具箱是matlab提供给人们的一个强有力的统计分析工具.包含200多个m文件(函数),主要支持以下各方面的内容.
〉〉概率分布:提供了20种概率分布,包含离散和连续分布,且每种分布,提供了5个有用的函数,即概率密度函数,累积分布函数,逆累积分布函数,随机产生器与方差计算函数.
〉〉 参数估计:依据特殊分布的原始数据,可以计算分布参数的估计值及其置信区间.
〉〉描述性统计:提供描述数据样本特征的函数,包括位置和散布的度 量,分位数估计值和数据处理缺失情况的函数等.
〉〉线性模型:针对线性模型,工具箱提供的函数涉及单因素方差分析,双因素方差分析,多重线性回 归,逐步回归,响应曲面和岭回归等.
〉〉非线性模型:为非线性模型提供的函数涉及参数估计,多维非线性拟合的交互预测和可视化以及参数和预计值的 置信区间计算等.
〉〉 假设检验: 此间提供最通用的假设检验函数:t检验和z检验
〉〉其它的功能就不再介绍.
统计工具箱函数主 要分为两类:
〉数值计算函数(M文件)
〉交互式图形函数(Gui)
matlab惯例:beta 线性模型中的参数,E(x) x的数学期望, f(x|a,b) 概率密度函数, F(x|a,b) 累积分布函数 ,I([a,b]) 指示(Indicator)函数
p,q p事件发生的概率.
[size=2][color=blue]第1节 概率分布[/color][/size]
统计工具箱提供的常见分 布
Uniform均匀,Weibull威布尔,Noncentral t,Rayleigh瑞利,Poisson泊松,Student's t,Normal正态,Negative Binomial,Noncentral F
Lognormal对数,正态,Hyper G,F分布,Gamma,Geometric几何,Noncentral chi-square,Exponential指数,Binomial二项,Chi-square
Beta(分 布),discrete,Continuous,Continuous,离散分布,统计量连续分布,数据连续分布,概率密度函数 pdf,probbability density function
〉〉功能:可选的通用概率密度函数
〉〉格 式:Y=pdf('Name',X,A1,A1,A3)
'Name' 为特定的分布名称,第一个字母必须大写
X 为分布函数自变量取值矩阵
A1,A2,A3 分别为相应分布的参数值
Y 存放结果,为概率密度值矩阵
算例:
>> y=pdf('Normal',-2:2,0,1)
y =
0.0540 0.2420 0.3989 0.2420 0.0540
>> Y=pdf('Normal',-2:0.5:2,1,4)
Y =
0.0753 0.0820 0.0880 0.0930 0.0967 0.0990 0.0997 0.0990 0.0967
>> p=pdf('Poisson',0:2:8,2)
p =
0.1353 0.2707 0.0902 0.0120 0.0009
>> p=pdf('F',1:2:10,4,7)
p =
0.4281 0.0636 0.0153 0.0052 0.0021
我们 也可以利用这种计算功能和作图功能,绘制一下密度函数曲线,例如,绘制不同的正态分布的密度曲线
>> x=[-6:0.05:6];
>> y1=pdf('Normal',x,0,0.5);
>> y2=pdf('Normal',x,0,1);
>> y3=pdf('Normal',x,0,2);
>> y4=pdf('Normal',x,0,4);
>>plot(x,y1,'K-',x,y2,'K--',x,y3,'*',x,y4,'+')
这 个程序计算了mu=0,而sigma取不同值时的正态分布密度函数曲线的形态,可以看出,sigma越大,曲线越平坦.
累积分布函数及逆累积分布 函数 cdf icdf
〉〉功能:计算可选分布函数的累积分布和逆累积分布函数
〉〉格 式:P=cdf('Name',X,A1,A2,A3)
X=icdf('Name',P,A1,A2,A3)
>> x=[-3:0.5:3];
>> p=cdf('Normal',x,0,1)
p =
0.0013 0.0062 0.0228 0.0668 0.1587 0.3085 0.5000 0.6915 0.8413 0.9332 0.9772 0.9938 0.9987
>> x=icdf('Normal',p,0,1)
x =
-3.0000 -2.5000 -2.0000 -1.5000 -1.0000 -0.5000 0 0.5000 1.0000 1.5000 2.0000 2.5000 3.0000
随机数产生器 random
〉〉功能:产生可选分布的随机数
〉〉格 式:y=random('Name',A1,A2,A3,m,n)
A1,A2,A3 分布的参数
'Name' 分布的名称
m,n 确定y的数量,如果参数是标量,则y是m*n矩阵
例如 产生服从参数为(9,10)的F-分布的4个随机数值
>> y=random('F',9,10,2,2)
y =
3.4907 1.6762
0.5702 1.1534
均值和方差 以'stat'结尾的函数
均值和方差的计算函数
[m,v]=normstat(mu,sigma)
正态分布
[mn,v]=hygestat(M,K,N)
超 几何分布
[m,v]=geostat(P)
几何分布
[m,v]=gamstat(A,B)
Gamma分布
[m,v]=fstat(v1,v2)
F 分布
[m,v]=expstat(mu)
指数分布
[m,v]=chi2stat(nu)
Chi-squrare分布
[m,v]=binostat(N,P)
二 项分布
[m,v]=betastat(A,B)
Beta 分布
函数名称及调用格式
分布类型名称
[m,v]=weibstat(A,B)
威 尔分布
[m,v]=unistat(A,B)
连续均匀分布
[m,v]=unidstat(N)
离散均匀分布
[m,v]=tstat(nu)
t 分布
[m,v]=raylstat(B)
瑞利分布
[m,v]=poisstat(lambda)
泊松分布
[m,v]=ncx2stat(nu,delta)
非 中心chi2分布
[m,v]=nctstat(nu,delta)
非中心t分布
[m,v]=ncfstat(nu1,nu2,delta)
非 中心F分布
[m,v]=nbinstat(R,P)
负二项分布
[m,v]=lognstat(mu,sigma)
对数正 态分布
[size=2][color=blue]第2节 参数估计[/color][/size]
参数估计是总体的分布形式已经知道,且 可以用有限个参数表示的估计问题.分为点估计(极大似燃估计Maximum likehood estimation, MLE)和区间估计.求取各种分布的最大似然估计估计量 mle
〉〉格式:phat=mle('dist',da
ta)
[phat,pci]=mle('dist',da
ta)
[phat,pci]=mle('dist',da
ta,alpha)
[phat,pci]=mle('dist',data,alpha,p1)
〉〉 'dist' 给定的特定分布的名称,'beta','binomial'等.Data为数据样本,矢量形式给出.Alpha用户给定的置信度值,以给出100(1-alpha)%的置信区间,缺省为0.05.最后一种是仅供二项分布参数估计,p1为实验次数.
例1 计算beta 分布的两个参数的似然估计和区间估计(alpha=0.1,0.05,0.001),样本由随机数产生.
>> random('beta',4,3,100,1);
>> [p,pci]=mle('beta',r,0.1)
p =
4.6613 3.5719
pci =
3.6721 2.7811
5.6504 4.3626
>> [p,pci]=mle('beta',r,0.05)
p =
4.6613 3.5719
pci =
3.4827 2.6296
5.8399 4.5141
>> [p,pci]=mle('beta',r,0.001)
p =
4.6613 3.5719
pci =
2.6825 1.9900
6.6401 5.1538
例 2 计算二项分布的参数估计与区间估计,alpha=0.01.
>> r=random('Binomial',10,0.2,10,1);
>> [p,pci]=mle('binomial',r,0.01,10)
p =
0.2000 0.2000 0.1000 0.4000 0.2000 0.2000 0.4000 0 0.1000 0.2000
pci =
0.0109 0.0109 0.0005 0.0768 0.0109 0.0109 0.0768 NaN 0.0005 0.0109
0.6482 0.6482 0.5443 0.8091 0.6482 0.6482 0.8091 0.4113 0.5443 0.6482
[size=2][color=blue] 第3节 描述统计[/color][/size]
描述性统计包括:位置度量,散布度量,缺失数据下的统计处理,相关系数,样本分位数,样本峰度, 样本偏度,自助法等
〉〉位置度量:几何均值(geomean),调和均值(harmmean),算术平均值(mean),中位数 (median),修正的样本均值(trimean).
〉〉散布度量:方差(var),内四分位数间距(iqr),平均绝对偏差(mad),样本极差(range),标准差(std),任意阶中心矩(moment),协方差矩阵(cov).
〉〉缺失数据情况下的处理:忽视缺失数据的最大值 (nanmax),忽视缺失数据的平均值(nanmean),忽视缺失数据的中位数 (nanmedian),忽视缺失数据的最小值(nanmin),忽视缺失数据的标准差(nanstd),忽视缺失数据的和(namsum).
〉〉 相关系数:corrcoef ,计算相关系数
〉〉样本分位数:prctile,计算样本的经验分位数
〉〉样本峰度:kurtosis,计 算样本峰度
〉〉样本偏度:skewness,计算样本偏度
〉〉自助法:bootstrp,对样本从新采样进行自助统计
中心趋势 (位置)度量
样本中心趋势度量的目的在于对数据样本在分布线上分布的中心位置予以定为.均值是对中心位置简单和通常的估计量.不幸的是,几乎所有的实际数据都存在野值 (输入错误或其它小的技术问题造成的).样本均值对这样的值非常敏感.中位数和修正(剔除样本高值和低值)后的均值则受野值干扰很小.而几何均值和调和均值对野值也较敏感.下面逐个说明这些度量函数.
〉〉geomean
功能:样本的几何均值
格式:m=geomean(X)
若 X为向量,则返回X中元素的几何均值;若X位矩阵,给出的结果为一个行向量,即每列几何均值.
例 1 计算随机数产生的样本的几何均值
>> X=random('F',10,10,100,1);
>> m=geomean(X)
m =
1.1007
>> X=random('F',10,10,100,5);
>> m=geomean(X)
m =
0.9661 1.0266 0.9703 1.0268 1.0333
〉〉harmmean
功能:样本的调和均值
格 式:m=harmmean(X)
例 2 计算随机数的调和均值
>> X=random('Normal',0,1,50,5);
>> m=harmmean(X)
m =
-0.2963 -0.0389 -0.9343 5.2032 0.7122
〉〉mean
功能:样本数据的算术平均值
格 式:m=mean(x)
例 3 计算正态随机数的算术平均数
>>X=random('Normal',0,1,300,5);
>> xbar=mean(X)
xbar =
0.0422 -0.0011 -0.0282 0.0616 -0.0080
〉〉 median
功能:样本数据的中值(中位数),是对中心位值的鲁棒估计.
格式:m=median(X)
例 4 计算本的中值
>> X=random('Normal',0,1,5,3)
X =
0.0000 0.8956 0.5689
-0.3179 0.7310 -0.2556
1.0950 0.5779 -0.3775
-1.8740 0.0403 -0.2959
0.4282 0.6771 -1.4751
>> m=median(X)
m =
0.0000 0.6771 -0.2959
〉〉 trimmean
功能:剔除极端数据的样本均值.
格式:m=trimmean(X,percent)
说明:计算剔除观测值中最高 percent%和最低percent%的数据后的均值
例5 计算修改后的样本均值
>> X=random('F',9,10,100,4);
>> m=trimmean(X,10)
m =
1.1470 1.1320 1.1614 1.0469
散布度量
散布度量是描述样本中数据离其中心的程度,也称离差.常用的有极差,标准差,平均绝对 差,四分位数间距
〉〉iqr
功能:计算样本的内四分位数的间距,是样本的鲁棒估计
格式:y=iqr(X)
说明:计算样本 的75%和25%的分位数之差,不受野值影响.
例6 计算样本的四分位间距
>> X=random('Normal',0,1,100,4);
>> m=iqr(X)
m =
1.3225 1.2730 1.3018 1.2322
〉〉mad
功能:样本数据的平均绝对偏差
格式:y=mad(X)
说明:正态分 布的标准差sigma可以用mad乘以1.3估计
例7 计算样本数据的绝对偏差
>> X=random('F',10,10,100,4);
>> y=mad(X)
y =
0.5717 0.5366 0.6642 0.7936
>> y1=var(X)
y1 =
0.6788 0.6875 0.7599 1.3240
>> y2=y*1.3
y2 =
0.8824 0.8938 0.9879 1.7212
〉〉 range
功能:计算样本极差
格式:y=range(X)
说明:极差对野值敏感
例 8 计算样本值的极差
>> X=random('F',10,10,100,4);
>> y=range(X)
y =
10.8487 3.5941 4.2697 4.0814
〉〉var
功能:计算样本方差
格式:y=var(X) y=var(X,1) y=var(X,w)
Var(X)经过n-1进行了标准化,Var(X,1)经过n进行了标准变化
例 9 计算各类方差
>> X=random('Normal',0,1,100,4);
>> y=var(X)
y =
0.9645 0.8209 0.9595 0.9295
>> y1=var(X,1)
y1 =
0.9548 0.8126 0.9499 0.9202
>> w=[1:1:100];
>> y2=var(X,w)
y2 =
0.9095 0.7529 0.9660 0.9142
〉〉std
功能:样本的标准差
格式:y=std(X)
说明:经过n-1标准 化后的标准差
例 10计算随机样本的标准差
>> X=random('Normal',0,1,100,4);
>> y=std(X)
y =
0.8685 0.9447 0.9569 0.9977
〉〉cov
功能:协方差矩阵
格 式:C=cov(X) C=cov(x,y) C=cov([x y])
说明:若X为向量,cov(X)返回一个方差标量;若X为矩阵,则返回协 方差矩阵;cov(x,y)与cov([x y])相同,x与y的长度相同.
例 11 计算协方差
>> x=random('Normal',2,4,100,1);
>> y=random('Normal',0,1,100,1);
>> C=cov(x,y)
C =
12.0688 -0.0583
-0.0583 0.8924
处理缺失数据的函数
在 对大量数据样本时,常常遇到一些无法确定的或者无法找到确切的值.在这种情况下,用符号"NaN"(not a number )标注这样的数据.这种情况下,一般的函数得不到任何信息.
例如 m中包含nan数据
>> m=magic(3);
>> m([1 5 9])=[NaN NaN NaN];
>> sum(m)
ans =
NaN NaN NaN
但 是通过缺失数据的处理,得到有用的信息.
>> nansum(m)
ans =
7 10 13
〉〉 nanmax
功能:忽视NaN,求其它数据的最大值
格式:m=nanmax(X)
[m,ndx]=nanmax(X)
m=nanmax(a,b)
说 明:nanmax(X)返回X中数据除nan外的其它的数据的最大值,[m,ndx]=nanmax(X)还返回X最大值的序号给 ndx.m=nanmax(a,b)返回a或者b的最大值,a,b长度同
>> m=magic(3);
>> m([1 5 9])=[NaN NaN NaN];
>> [m,ndx]=nanmax(m)
m =
4 9 7
ndx =
3 3 2
处理缺失数据的常用函数
Y=nansum(X)
求包含确实数据的和
nansum
Y=nanstd(X)
求 包含确实数据的标准差
Nanstd
Y=nanmedian(X)
求包含确实数据中位数
Nanmedian
Y=nanmean(X)
求 包含确实数据的平均值
Nanmean
同上
求包含确实数据的最小值
Nanmin
(略)
求包含确实数据的最 大值
Nanmax
调用格式
功能
函数名称
中心矩 moment
功能:任意阶的中心矩
格 式:m=moment(X,order)
说明:order为阶,函数本身除以X的长度
例 12 计算样本函数的中心矩
>> X=random('Poisson',2,100,4);
>> m=moment(X,1)
m =
0 0 0 0
>> m=moment(X,2)
m =
1.7604 2.0300 1.6336 2.3411
>> m=moment(X,3)
m =
1.3779 2.5500 2.3526 2.2964
百分位数及其图形描述
白分位 数图形可以直观观测到样本的大概中心位置和离散程度,可以对中心趋势度量和散布度量作补充说明
〉〉prctile
功能:计算样本的百分位 数
格式:y=prctile(X,p)
说明:计算X中数据大于P%的值,P的取值区间为[0,100],如果X为向量,返回X中P百分位数;X为矩阵,给出一个向量;如果P为向量,则y的第i个行对应于X的p(i) 百分位数.例如
>> x=(1:5)'*(1:5)
x =
1 2 3 4 5
2 4 6 8 10
3 6 9 12 15
4 8 12 16 20
5 10 15 20 25
>> y=prctile(x,[25,50,75])
y =
1.7500 3.5000 5.2500 7.0000 8.7500
3.0000 6.0000 9.0000 12.0000 15.0000
4.2500 8.5000 12.7500 17.0000 21.2500
做出相应的百分位数的图形
>> boxplot(x)
5列分位数构 造5个盒图,见下页.
相关系数 corrcoef
功能:相关系数
格式:R=corrcoef(X)
例13 合金的强度y与含碳量x的样本如下,试计算r(x,y).
>> X=[41 42.5 45 45.5 45 47.5 49 51 50 55 57.5 59.5;
0.1,0.11 0.12 0.13 0.14 0.15 0.16 0.17 0.18 0.20 0.22 0.24]';
>> R=corrcoef(X)
R =
1.0000 0.9897
0.9897 1.0000
样本峰度 kurtosis
功能:样本峰度
格式:k=kurtosis(X)
说明:峰度为单峰分布区线" 峰的平坦程度"的度量,其定义为
Matlab 工具箱中峰度不采用一般定义(k-3,标准正态分布的峰度为0).而是定义标准正态分布峰度为3,曲线比正态分布平坦,峰度大于3,反之,小于3.
例14 计算随机样本的峰度
>> X=random('F',10,20,100,4);
>> k=kurtosis(X)
k =
6.5661 5.5851
6.0349 7.0129
样本偏度 skewness
功 能:样本偏度
格式:y=skewness(X)
说明:偏度是度量样本围绕其均值的对称情况.如果偏度为负,则数据分布偏向左边,反之,偏 向右边.其定义为
>> X=random('F',9,10,100,4);
>> y=skewness(X)
y =
1.0934 1.5513 2.0522 2.9240
自助法 bootstrap
引例:一组来自15个法律学校的学生的 lsat分数 和gpa进行比较的样本.
> load lawdata
>> x=[lsat gpa]
x =
576.0000 3.3900
635.0000 3.3000
558.0000 2.8100
578.0000 3.0300
666.0000 3.4400
580.0000 3.0700
555.0000 3.0000
661.0000 3.4300
651.0000 3.3600
605.0000 3.1300
653.0000 3.1200
575.0000 2.7400
545.0000 2.7600
572.0000 2.8800
594.0000 2.9600
绘图,并进行曲线拟合
>> plot(lsat,gpa,'+')
>> lsline
通过上图的拟合可以看出,lsat随着gpa增长而提高,但是我们 确信此结论的程度是多少曲线只给出了直观表现,没有量的表示.计算相关系数
>> y=corrcoef(lsat,gpa)
y =
1.0000 0.7764
0.7764 1.0000
相关系数是0.7764,但是由于样本容量n=15比较小,我们仍然不能确定在统计上相关的显著性多大.应此,必须采用bootstrp函数对lsat和gpa样本来从新采样,并考察相关系数的变化.
>> y1000=bootstrp(1000,'corrcoef',lsat,gpa);
>> hist(y1000(:,2),30)
绘制lsat,gpa和相关系数得直方图如下
结果显示,相关系数绝大多数在区间[0.4,1] 内,表明lsat分数和gpa具有确定的相关性,这样的分析,不需要对象关系数的概率分布做出很强的假设.
[size=2] [color=blue]第4节 假设检验[/color][/size]
基本概念
H0:零假设,即初始判断.
H1:备择假设, 也称对立假设.
Alpha :显著水平,在小样本的前提下,不能肯定自己的结论,所以事先约定,如果观测到的符合零假设的样本值的概率小于alpha,则拒绝零假设.典型的显著水平取alpha=0.05.如果想减少犯错误的可能,可取更小的值.
P-值:在零假设为真的条件下,观测给定样本结果的概率值.如果Pmu tail=-1——x>x =[119 117 115 116 112 121 115 122 116 118 109 112 119 112 117 113 114 109 109 118];
>> h=ztest(x,115,4)
h =
0
表 明,接受H0,认为该种汽油的平均价格为115美分.
>> [h,sig,ci]=ztest(x,115,4,0.01,0)
h = 0
sig =
0.8668
ci =
112.8461 117.4539
>> [h,sig,ci]=ztest(x,115,4,0.01,1)
h =0
sig =
0.4334
ci =
113.0693 Inf
>> [h,sig,ci]=ztest(x,115,4,0.01,-1)
h=0
sig =
0.5666
ci =
-Inf 117.2307
Ttest
功能:单一样本均值的t检验
格式:h=ttest(x,m)
h=ttest(x,m,alpha)
[h,sig,ci]=ttest(x,m,alpha,tail)
说 明:用于正态总体标准差未知时对均值的t检验.Tail功能与ztest作用一致.
>> x=random('Normal',0,1,100,1);
>> [h,sig,ci]=ttest(x,0,0.01,-1)
h =
0
sig =
0.0648
ci =
-Inf 0.0808
>> [h,sig,ci]=ttest(x,0,0.001,1)
h =
0
sig =
0.9352
ci =
-0.4542 Inf
Signtest
功能:成对样本的符号检验
格式:p=signtest(x,y,alpha)
[p,h]=signtest(x,y,alpha)
说明:p给出两个配对样本x和y的中位数(对于正态分布,中位数,就是平均值.相等的显著性概率.X与y的长度相等.Y也可以为标量,计算x的中位数与常数y之间差异的概率.[p,h]返回结果h.如果这样两个样本的中位数之间差几乎为0,则h=0,否则有显著差异,则h=1.
>> x=[0 1 0 1 1 1 1 0 1 0];
>> y=[1 1 0 0 0 0 1 1 0 0];
>> [p,h]=signtest(x,y,0.05)
p =
0.6875
h =
0
Signrank
功 能:威尔科克符号秩检验
格式:p=signrank(x,y,alpha)
[p,h]=signrank(x,y,alpha)
说明:p给出两个配对样本x和y的中位数(对于正态分布,中位数和均值等)相等的假设的显著性的概率.X与y的长度相同.[p,h]返回假设检验的结果,如果两个样本的中位数之差极护卫零,则h=0;否则,有显著差异,则h=1.
>> x=random('Normal',0,1,200,1);
>> y=random('Normal',0.1,2,200,1);
>> [p,h]=signrank(x,y,0.05)
p =
0.9757
h =
0
Ranksum
功能:两个总体一致性的威尔科克秩和的检验
格 式:p=ranksum(x,y,alpha)
[p,h]=ranksum(x,y,alpha)
说明:p返回两个总体样本x和y一致的显著性概率.X和y的长度可以不同.但长度长的排在前面.[p,h]返回检验结果,如果总体x和y并非明显不一致,返回h=0,否则,h=1.
>> x=random('Normal',0,2,20,1);
>> y=random('Normal',0.1,4,10,1);
>> [p,h]=ranksum(x,y,0.05)
p =
0.7918
h =
0
[size=2] [color=blue]第5节 统计绘图[/color][/size]
统计绘图就是用图形表达函数,以便直观地,充分的表现样本及其统计量的 内在本质性.
Box图
功能:数据样本的box图
格式:boxplot(X) boxplot(X,notch) boxplot(X,notch,'sym')
boxplot(X,notch,'sym,vert) boxplot(X,notch,'sym',vert,whis)
说明1:"盒子"的上底和下底间为四分位间距,"盒子"的上下两条线分别表示样本的25%和75%分位数."盒子"中间线为样本中位数.如果盒子中间线不在盒子中间,表示样本存在一定的篇度.
虚线贯穿"盒子"上下,表示样 本的其余部分(除非有野值).样本最大值为虚线顶端,样本最小值为虚线底端.用"+"表示野值.
"切口"是样本的置信区间,却省时,没有切口
说明2:notch=0,盒子没有切口,notch=1,盒子有切口;'sym'为野值标记符号,缺省时,"+"表示.Vert=0时候,box图水平放置,vert=1时,box图垂直放置.Whis定义虚线长度为内四分位间距(IQR)的函数(缺省时为1.5*IQR),若whis=0,box图用 'sym'规定的记号显示盒子外所有数据.
>> x1=random('Normal',2,1,100,1);
>> x2=random('Normal',1,2,100,1);
>> x=[x1 x2];
>> boxplot(x,1,'*',1,0)
绘图结果见下页
Errorbar 误差条图
功能:误差条图
格 式:errorbar(X,Y,L,U,symbol)
errorbar(X,Y,L)
errorbar(Y,L)
说明:误差条 是距离点(X,Y)上面的长度为U(i) ,下面的长度为L(i) 的直线.X,Y,L,U的长度必须相同.Symbol为一字符 串,可以规定线条类型,颜色等.
>> U=ones(20,1);
>> L=ones(20,1);
>> errorbar(r1,r2,L,U,'+')
>> r1=random('Poisson',2,10,1);
>>r2=random('Poisson',10,10,1);
>> U=ones(10,1);
>> L=U;
>> errorbar(r1,r2,L,U,'+')
Lsline 绘制最小二乘拟合线
功能:绘制数据的最小二乘拟合曲线
格式:lsline
h=lsline
说明:lsline为当前坐 标系中的每一个线性数据给出其最小二乘拟合线.
>> y=[2 3.4 5.6 8 11 12.3 13.8 16 18.8 19.9]';
>> plot(y,'+')
>> lsline
Refcurve 参考多项式
功 能:在当前图形中给出多项式拟合曲线
格式:h=refcurve(p)
说明:在当前图形中给出多项式p(系数向量)的曲线,n阶多项式为
y=p1*x^n+p2*x^(n-1)+…+pn*x+p0
则p=[p1 p2 … pn p0]
>> h=[85 162 230 289 339 381 413 437 452 458 456 440 400 356];
>> plot(h,'+')
>> refcurve([-4.9,100,0])
关闭
  
posted @ 2013-10-13 10:27  DAVID‘sVISION  阅读(2404)  评论(0编辑  收藏  举报