关于高考一分一档数据分布的研究

UPD.笔者写这篇文章的时候以为高考发分只给成绩,不给一分一档,然后这篇文章试图从偏态分布的角度去研究,现在看来是多此一举,大家就权当乐呵看吧。

前言:今天下午,用百度搜了近几年高考一分一档分布图,发现并不类似于学校所讲的正态分布,问了群里的dalao才得知这叫偏态分布;因而这篇博客旨在研究偏态分布及其应用。

以下是偏态分布的定义:
偏态分布是与“正态分布”相对,分布曲线左右不对称的数据次数分布,是连续随机变量概率分布的一种。可以通过峰度和偏度的计算,衡量偏态的程度。可分为正偏态和负偏态,前者曲线右侧偏长,左侧偏短;后者曲线左侧偏长,右侧偏短。 ——《简明心理学辞典(杨治良,上海辞书出版社,2007.8)》


(图片来源:CSDN-专业开发者社区)

不难看出,历年来的高考一分一档,并不完全符合我们高中所学习的正态分布,相对而言更符合上面介绍的偏态分布。

image

偏态分布数据宜用中位数描述其分布的集中趋势。——兰州大学《卫生统计学》

根据瞪眼法,大致可以得到每组数据的中位数(如上图);由于高考一分一档的数据是离散的而不是连续的,所以在所有人的成绩(一分一档)都公布后,我们很容易通过代码实现中位数的准确求值,这里不再赘述。
根据每一年的中位数,我们可以大致推测此年份的题目难易程度。

不难看出,历年高考一分一档大致符合正偏态分布,因而符合平均数>中数(有时等于中位数)>众数;然鹅,从图中不难看出,某个分数突然扎撒个刺,所以“众数”一性质不符合,舍去;于是大致有 平均数大于中位数;也就是说,有超过一半的人,分数可以高于平均分。

tag.待补充:偏离系数(留了个坑,主要因为是LATEX不好打,而且博客园渲染太慢,先浅摆烂一下)。

偏离系数的计算客观得到本年题目是不是很离谱;一般而言,越偏(我是说函数图像)分数越高,分数线越高;甚至有一种可能,根据前几年的数据可以得到偏离系数和 本科线/强基线 等分数线 的代数关系,并据此预测之后的分数线
值得注意的是,省控线是报志愿之前被公布;而全省的偏离系数,一定程度上可以通过许多人的得分进行大致拟合(样方法(bushi)),进而得到偏离系数,求得更为精确的 本科线/强基线 等分数线。

同样的,得到上述数据之后,个人的一分一档排名可以通过上述的SPSS(社会科学统计软件包)进行拟合。

END。

多数大学的统计数学/应用数学课程内容就止步于此了,如果你并没有得到想要的东西,可以选择往更深方向研究。

推荐相关论文:

点击查看代码
1、The Generalized-Alpha-Beta-Skew-Normal Distribution: Properties and Applications
Sricharan Shah, Subrata Chakraborty, Partha Jyoti Hazarika, M. Masoom Ali

在这篇论文中,引入了广义版的Alpha Beta偏斜的正态分布,研究了它的一些基本性质。 本文还研究了该分布的扩展,通过比较Akaike信息标准(AIC)和贝叶斯信息标准(BIC)的值与其他一些已知的相关分布的值以进行更好的模型选择的值。并且验证了所提出的分布的适当性。

2、Balakrishnan Alpha Skew Normal Distribution: Properties and Applications
P. J. Hazarika, S. Shah, S. Chakraborty

论文根据Balakrishnan机制提出了一种新型的Alpha偏态分布,并研究了其矩和分布特性。通过数据拟合实验检验了所提出分布的适用性,并通过AIC、BIC与相关分布的比较检验了模型的充分性。采用似然比检验对正态分布和拟态分布进行区分

3、Conjugate Bayes for probit regression via unified skew-normal distributions
Daniele Durante

二元分类数据的回归模型在统计学中无处不在。除了对二元响应的推断有用外,这些方法还可以作为更复杂公式的构建模块,如密度回归、非参数分类和图形模型。在贝叶斯框架内,通过更新系数(通常设置为高斯分布)的先验,利用probit或logit回归对响应进行的可能性进行推断。在这种更新中,由于明显缺乏可处理的后验,因此产生了各种计算方法,包括马尔可夫链蒙特卡洛过程和近似后验的算法。但是马尔可夫链蒙特卡洛策略在大p和小n研究中面临混合或时间效率低下的问题,而近似算法无法捕捉到在后验中观察到的偏态。所以这篇论文证明了在高斯先验下,probit系数的后验分布具有统一的偏正态核。这样的结果使高效的贝叶斯推理适用于更广泛的应用,这些进展在一项遗传学研究中得到了概述。

4、On the Approximation of the Sum of Lognormals by a Log Skew Normal Distribution
Marwane Ben Hcine, Ridha Bouallegue

虽然已经有几种方法来近似对数正态分布的总和。但是这些方法的精度高度依赖于所检查的结果分布的区域,以及单个对数正态参数,即均值和方差。没有一种方法在所有情况都能够提供所需的准确性。这篇论文在对数斜偏正态逼近的基础上,提出了一种通用而又简单的对数法线和逼近方法。它主要贡献是提出了一种对数偏正态参数估计的解析方法。对于任何相关系数,所提出的方法提供了在整个dB扩散范围内对数正态分布之和的高度精确的近似。仿真结果表明,这个方法优于之前提出的所有方法,在所有情况下提供了0.01 dB以内的精度。
posted @ 2023-06-22 19:11  欢黎明陌  阅读(211)  评论(0编辑  收藏  举报