统计(1 - 2)

  1. 统计学基础定义

    Statistics的前部分为“state”,政府,原由是统计是300年前被首次应用在政府部门统计人口出生和死亡信息的;如今的统计学早已被应用在各个专业领域;

    统计学是用以收集数据、分析数据和数据推论的一组概念、原则和方法;是将数据转化为比数据本身更为复杂的知识,为其他学科提供一套研究对象的方法;(是不是应该叫统计哲学);

    统计学的主要思想包括随机性和规律性概率变量常量

    1) 随机性和规律性

      投一枚硬币,我们不知道下次是正面朝上还是反面朝上,此为随机性;而如果投各多次,我们发现正面和反面差不多,此为规律性;

      随机性中的规律性:把随机的事件放在一起,寻找其中的规律,这是统计思想的基础,如多次投硬币;

      规律性中的随机性:每次观察一组重复的实验结果都波动不一样,比如投100次硬币得到的正面数;这样,波动的差异就是数据本身随机性带来的,但如何判断波动是随机带来的还是事物本身带来的,波动是否超出随机性所能解释的程度,这后续会有数据偏差问题的研究;

    2)概率是取值在0-1的数,告诉我们一个特定事件以多大的机会会发生;从数据中得到结论的基础,比如我们可能不知道下次随机性的波动范围是多大,但是我们可以确定落在范围内的概率;

    3)变量是可以取多个值的特征、特质或属性;变量的值是对其的度量;对与那些生活中可观察的变量成为经验变量(性别、年龄);对于用数学方法推导出来的变量称之为理论变量(z,t,x2

    4)常量是一个固定的值,重复试验,其值不变,如已训练好模型的参数;

  2. 数据的收集

    一位统计学家说过:世上有两种数据,好数据和坏数据;精辟;好数据是根据合理、正确的统计原理收集到的数据;反之,坏数据是其他方法收集的;好数据的收集方法包括:

    1)定义变量:仔细的考虑给变量一个无歧义、清晰的、详尽的定义;比如统计家庭小孩个数中小孩的定义:多大年龄?继父母算不算?寄养怎么办?父母离婚了小孩没人管怎么办?。。。

    2)观测数据:总体(population)包含所有研究的个体;普查(census)基于收集整个总体数据的过程;样本(sample)总体中被选中的个体;

      怎么选择样本呢?想想我们做饭的时候怎么判断咸淡吧,挖一小勺尝一尝,要想这一小勺代表整个锅的味道,就要来回搅一搅,使得这一勺是随机的;因此样本应该选择随机样本,总体的每一个个体都有已知的机会包含在样本中;

      还记得前面提到的规律性的随机行,即便是随机的,那每次随机抽样也不一样,这里把每次抽样的diff波动定义为抽样误差(sampling error),它告诉我们样本距离总体实际值有多远;如何计算抽样误差,是根据极限定理推导的,后面会详细介绍,这里可简单记为如果样本大小为n,则抽样误差可近似为1/sqrt(n);

    3)实验数据:通过实验组(ecperimental group)和对照组(control group)确认某些变量是否起作用;多个变量同时研究的“拉丁方设计”,由Fisher发明,没错,就是Fisher分类器的R.A.Fisher;

     

    (R.A.Fisher英国著名统计学习、生物学家和遗传学家,现代数理统计学和推断统计学奠基人,数理遗传学创始人,提出最大似然用于假设检验,引领统计学从“描述统计学”发展到“推断统计学”,这一段发展过渡阶段被成为Fisher时代。http://jpkc.njmu.edu.cn/course/tongjixue/file/jxzy/tjmj02.htm

    拉丁方设计:http://image.sciencenet.cn/olddata/kexue.com.cn/upload/blog/file/2009/9/2009912152943720.pdf

 

posted @ 2013-10-27 22:40  SunJerdege  阅读(207)  评论(0编辑  收藏  举报