统计学知识小结

统计量及其统计抽样分布

统计量

def.统计量

\(\quad\quad\) 不依赖于任何未知参数,仅与样本相关的量,一般记为\(T(X_1, \ldots,X_n)\)

常用统计量

\(\quad\quad\) \(m_k =\frac{1}{n} \sum_{i=1}^{n}X_i^k\) 样本k阶(原点)矩 反映 总体k阶矩

\(\quad\quad\) $\overline{X} = \frac{1}{n} \sum_{i=1}^{n}X_i $样本均值 反映 总体X数学期望,即样本一阶原点矩

\(\quad\quad\) \(\nu_k = \frac{1}{n-1} \sum_{i-1}^{n}(X_i - \overline{X})^2\) 样本k阶中心矩 反映 总体k阶中心距

\(\quad\quad\) \(S^2 = \frac{1}{n-1} \sum_{i=1}^{n} (X_i - \overline{X})^2\) 样本方差 反映 总体X方差,即样本二阶中心矩

\(\quad\quad\) 值得注意的是

\(\quad\quad\)\(\quad\quad\) 中心距的\(\frac{1}{n}\) 被修正为\(\frac{1}{n-1}\)

次序统计量

\(\quad\quad\) 如中位数,分位数,极差等,都是由次序决定的一类重要统计量

充分统计量

\(\quad\quad\) 假如某个统计量被提取后能 包含 有关总体的全部信息,称其为充分统计量

\(\quad\quad\) 比如,当已知\(X=(X_1,\ldots,X_n)\) 为来自\(N(\mu, \sigma^2)\)

\(\quad\quad\)\(\quad\quad\quad\)\(\sigma^2\) 已知,则认为\(\overline{X}=\frac{1}{n}\sum_{i=1}^{n}X_i\)\(\mu\) 的 充分统计量

渐近分布

\(\quad\quad\) 我们想要知道当样本量\(n\to\infty\) 时,统计量\(T(X_1, \ldots,X_n)\) 的极限分布会是怎么样

\(\quad\quad\) 比如在下文中的中心极限定理,其实就是在说\(\frac{\sqrt{n}\thinspace \overline{X}} {\sigma} \to N(0,1)\)

\(\quad\quad\) 同时我们也不难知道\(S^2 \to \sigma ^2\) ,因此其实可以说\(\frac{\sqrt{n}\thinspace \overline{X}} {S} \to N(0,1)\)

正态分布导出的统计学三大分布

def.\(\chi^2\) 分布

\(\quad\quad\)\(X_1,\ldots,X_n\) 相互独立并且服从\(N(0,1)\) 分布,则他们的平方和\(\sum_{i=1}^{n} {X_i ^2}\) 服从\(\chi^2(n)\) 分布

\(\quad\quad\) 此处我们暂时不关心它的密度函数,仅仅给出一些常用统计量和它的性质

\(\quad\quad\)\(\quad\quad\) 数学期望\(E(\chi^2) =n\)

\(\quad\quad\)\(\quad\quad\) 方差\(D(\chi^2) = 2n\)

\(\quad\quad\)\(\quad\quad\) 可加性,若\(\chi_1^2 \sim\chi^2(n_1), \chi_2^3\sim\chi^2(n_2)\) ,且相互独立,则\(\chi_1^2 + \chi_2^2 \sim\chi^2(n_1+n_2)\)

def.\(t\thinspace\)分布

\(\quad\quad\) 若随机变量\(X \sim N(0,1)\) ,\(Y\sim\chi^2(n)\)\(X,Y\) 相互独立,\(t(n)=\frac{X}{\sqrt{Y/n}}\) 称为t分布

\(\quad\quad\) 待补充。

def.\(F\)分布

\(\quad\quad\) 若随机变量\(Y,Z\) 相互独立,且分别服从自由度为m与n的\(\chi^2\) 分布,

\(\quad\quad\) \(F(m,n)=\frac{Y/m}{Z/n}\)

\(\quad\quad\)讲了一大堆我并不懂统计学三大分布存在的意义是什么!wtf?

样本均值的分布与中心极限定理

\(\overline{X}\) 的抽样分布

\(\quad\quad\)\(X \sim N(\mu,\sigma^2)\)时,\(\overline{X} \sim N(\mu, \frac{\sigma^2}{n})\)

\(\quad\quad\) (几乎等于废话)

中心极限定理

\(\quad\quad\) 懒得做赘述了...就是假设总体分布不是很偏的情况下,最终样本均值分布会逼近正态分布

参数估计

参数估计基本原理

估计量与估计值

\(\quad\quad\) 比如一个班级的某次考试分数,抽样得到的样本均值\(\overline{x}\) 为我们的 估计量,而其具体值80分是我们的 估计值

点估计与区间估计

点估计

\(\quad\quad\) 用样本统计量的某个取值直接作为总体参数\(\theta\) 的估计值

\(\quad\quad\) 但想想都觉得通过一个统计量就定下估计值太不可靠了...于是引出区间估计

区间估计

\(\quad\quad\) 在点估计的基础上,给出一个由总体参数估计得到的一个区间范围

\(\quad\quad\) 比如在我们估计样本均值时,由之前的中心极限定理我们知道\(\overline{X}\) 的抽样分布应该是一个正态分布,且这个正态分布应该以总体期望\(\mu\) 为中心。因此,由68-95-99.7法则可以说,有95%的样本均值会落在离\(\mu\) 两个标准差的范围以内。现在问题在于我们是要用\(\overline{X}\) 去估计\(\mu\)\(\mu\) 未知,因此我们说,对于\(\overline{X} \pm 2\sigma\) 这个区间里包括\(\mu\) 的概率是95%, 也就是我们常说的置信度

posted @ 2018-02-10 22:16  K.Nick  阅读(330)  评论(0编辑  收藏  举报
$a = (1-\sin(\theta))$