关于高考一分一档数据分布的研究

UPD.笔者写这篇文章的时候以为高考发分只给成绩，不给一分一档，然后这篇文章试图从偏态分布的角度去研究，现在看来是多此一举，大家就权当乐呵看吧。

前言：今天下午，用百度搜了近几年高考一分一档分布图，发现并不类似于学校所讲的正态分布，问了群里的dalao才得知这叫偏态分布；因而这篇博客旨在研究偏态分布及其应用。

以下是偏态分布的定义：
偏态分布是与“正态分布”相对，分布曲线左右不对称的数据次数分布，是连续随机变量概率分布的一种。可以通过峰度和偏度的计算，衡量偏态的程度。可分为正偏态和负偏态，前者曲线右侧偏长，左侧偏短；后者曲线左侧偏长，右侧偏短。 ——《简明心理学辞典（杨治良，上海辞书出版社，2007.8）》

（图片来源：CSDN-专业开发者社区）

不难看出，历年来的高考一分一档，并不完全符合我们高中所学习的正态分布，相对而言更符合上面介绍的偏态分布。

偏态分布数据宜用中位数描述其分布的集中趋势。——兰州大学《卫生统计学》

根据瞪眼法，大致可以得到每组数据的中位数（如上图）；由于高考一分一档的数据是离散的而不是连续的，所以在所有人的成绩（一分一档）都公布后，我们很容易通过代码实现中位数的准确求值，这里不再赘述。
根据每一年的中位数，我们可以大致推测此年份的题目难易程度。

不难看出，历年高考一分一档大致符合正偏态分布，因而符合平均数>中数（有时等于中位数）>众数；然鹅，从图中不难看出，某个分数突然扎撒个刺，所以“众数”一性质不符合，舍去；于是大致有 平均数大于中位数；也就是说，有超过一半的人，分数可以高于平均分。

tag.待补充：偏离系数（留了个坑，主要因为是LATEX不好打，而且博客园渲染太慢，先浅摆烂一下）。

偏离系数的计算客观得到本年题目是不是很离谱；一般而言，越偏（我是说函数图像）分数越高，分数线越高；甚至有一种可能，根据前几年的数据可以得到偏离系数和本科线/强基线等分数线的代数关系，并据此预测之后的分数线
值得注意的是，省控线是报志愿之前被公布；而全省的偏离系数，一定程度上可以通过许多人的得分进行大致拟合（样方法（bushi）），进而得到偏离系数，求得更为精确的本科线/强基线等分数线。

同样的，得到上述数据之后，个人的一分一档排名可以通过上述的SPSS（社会科学统计软件包）进行拟合。

END。

多数大学的统计数学/应用数学课程内容就止步于此了，如果你并没有得到想要的东西，可以选择往更深方向研究。

推荐相关论文：

点击查看代码

1、The Generalized-Alpha-Beta-Skew-Normal Distribution: Properties and Applications
Sricharan Shah, Subrata Chakraborty, Partha Jyoti Hazarika, M. Masoom Ali

在这篇论文中，引入了广义版的Alpha Beta偏斜的正态分布，研究了它的一些基本性质。 本文还研究了该分布的扩展，通过比较Akaike信息标准（AIC）和贝叶斯信息标准（BIC）的值与其他一些已知的相关分布的值以进行更好的模型选择的值。并且验证了所提出的分布的适当性。

2、Balakrishnan Alpha Skew Normal Distribution: Properties and Applications
P. J. Hazarika, S. Shah, S. Chakraborty

论文根据Balakrishnan机制提出了一种新型的Alpha偏态分布，并研究了其矩和分布特性。通过数据拟合实验检验了所提出分布的适用性，并通过AIC、BIC与相关分布的比较检验了模型的充分性。采用似然比检验对正态分布和拟态分布进行区分

3、Conjugate Bayes for probit regression via unified skew-normal distributions
Daniele Durante

二元分类数据的回归模型在统计学中无处不在。除了对二元响应的推断有用外，这些方法还可以作为更复杂公式的构建模块，如密度回归、非参数分类和图形模型。在贝叶斯框架内，通过更新系数(通常设置为高斯分布)的先验，利用probit或logit回归对响应进行的可能性进行推断。在这种更新中，由于明显缺乏可处理的后验，因此产生了各种计算方法，包括马尔可夫链蒙特卡洛过程和近似后验的算法。但是马尔可夫链蒙特卡洛策略在大p和小n研究中面临混合或时间效率低下的问题，而近似算法无法捕捉到在后验中观察到的偏态。所以这篇论文证明了在高斯先验下，probit系数的后验分布具有统一的偏正态核。这样的结果使高效的贝叶斯推理适用于更广泛的应用，这些进展在一项遗传学研究中得到了概述。

4、On the Approximation of the Sum of Lognormals by a Log Skew Normal Distribution
Marwane Ben Hcine, Ridha Bouallegue

虽然已经有几种方法来近似对数正态分布的总和。但是这些方法的精度高度依赖于所检查的结果分布的区域，以及单个对数正态参数，即均值和方差。没有一种方法在所有情况都能够提供所需的准确性。这篇论文在对数斜偏正态逼近的基础上，提出了一种通用而又简单的对数法线和逼近方法。它主要贡献是提出了一种对数偏正态参数估计的解析方法。对于任何相关系数，所提出的方法提供了在整个dB扩散范围内对数正态分布之和的高度精确的近似。仿真结果表明，这个方法优于之前提出的所有方法，在所有情况下提供了0.01 dB以内的精度。

posted @ 2023-06-22 19:11 欢黎明陌阅读(211) 评论(0) 编辑收藏举报

刷新页面返回顶部

明陌的博客

关于高考一分一档数据分布的研究

UPD.笔者写这篇文章的时候以为高考发分只给成绩，不给一分一档，然后这篇文章试图从偏态分布的角度去研究，现在看来是多此一举，大家就权当乐呵看吧。

公告