关于高考一分一档数据分布的研究

UPD.笔者写这篇文章的时候以为高考发分只给成绩,不给一分一档,然后这篇文章试图从偏态分布的角度去研究,现在看来是多此一举,大家就权当乐呵看吧。

前言:今天下午,用百度搜了近几年高考一分一档分布图,发现并不类似于学校所讲的正态分布,问了群里的dalao才得知这叫偏态分布;因而这篇博客旨在研究偏态分布及其应用。

以下是偏态分布的定义:
偏态分布是与“正态分布”相对,分布曲线左右不对称的数据次数分布,是连续随机变量概率分布的一种。可以通过峰度和偏度的计算,衡量偏态的程度。可分为正偏态和负偏态,前者曲线右侧偏长,左侧偏短;后者曲线左侧偏长,右侧偏短。 ——《简明心理学辞典(杨治良,上海辞书出版社,2007.8)》


(图片来源:CSDN-专业开发者社区)

不难看出,历年来的高考一分一档,并不完全符合我们高中所学习的正态分布,相对而言更符合上面介绍的偏态分布。

image

偏态分布数据宜用中位数描述其分布的集中趋势。——兰州大学《卫生统计学》

根据瞪眼法,大致可以得到每组数据的中位数(如上图);由于高考一分一档的数据是离散的而不是连续的,所以在所有人的成绩(一分一档)都公布后,我们很容易通过代码实现中位数的准确求值,这里不再赘述。
根据每一年的中位数,我们可以大致推测此年份的题目难易程度。

不难看出,历年高考一分一档大致符合正偏态分布,因而符合平均数>中数(有时等于中位数)>众数;然鹅,从图中不难看出,某个分数突然扎撒个刺,所以“众数”一性质不符合,舍去;于是大致有 平均数大于中位数;也就是说,有超过一半的人,分数可以高于平均分。

tag.待补充:偏离系数(留了个坑,主要因为是LATEX不好打,而且博客园渲染太慢,先浅摆烂一下)。

偏离系数的计算客观得到本年题目是不是很离谱;一般而言,越偏(我是说函数图像)分数越高,分数线越高;甚至有一种可能,根据前几年的数据可以得到偏离系数和 本科线/强基线 等分数线 的代数关系,并据此预测之后的分数线
值得注意的是,省控线是报志愿之前被公布;而全省的偏离系数,一定程度上可以通过许多人的得分进行大致拟合(样方法(bushi)),进而得到偏离系数,求得更为精确的 本科线/强基线 等分数线。

同样的,得到上述数据之后,个人的一分一档排名可以通过上述的SPSS(社会科学统计软件包)进行拟合。

END。

多数大学的统计数学/应用数学课程内容就止步于此了,如果你并没有得到想要的东西,可以选择往更深方向研究。

推荐相关论文:

点击查看代码
1、The Generalized-Alpha-Beta-Skew-Normal Distribution: Properties and Applications
Sricharan Shah, Subrata Chakraborty, Partha Jyoti Hazarika, M. Masoom Ali

在这篇论文中,引入了广义版的Alpha Beta偏斜的正态分布,研究了它的一些基本性质。 本文还研究了该分布的扩展,通过比较Akaike信息标准(AIC)和贝叶斯信息标准(BIC)的值与其他一些已知的相关分布的值以进行更好的模型选择的值。并且验证了所提出的分布的适当性。

2Balakrishnan Alpha Skew Normal Distribution: Properties and Applications
P. J. Hazarika, S. Shah, S. Chakraborty

论文根据Balakrishnan机制提出了一种新型的Alpha偏态分布,并研究了其矩和分布特性。通过数据拟合实验检验了所提出分布的适用性,并通过AIC、BIC与相关分布的比较检验了模型的充分性。采用似然比检验对正态分布和拟态分布进行区分

3、Conjugate Bayes for probit regression via unified skew-normal distributions
Daniele Durante

二元分类数据的回归模型在统计学中无处不在。除了对二元响应的推断有用外,这些方法还可以作为更复杂公式的构建模块,如密度回归、非参数分类和图形模型。在贝叶斯框架内,通过更新系数(通常设置为高斯分布)的先验,利用probit或logit回归对响应进行的可能性进行推断。在这种更新中,由于明显缺乏可处理的后验,因此产生了各种计算方法,包括马尔可夫链蒙特卡洛过程和近似后验的算法。但是马尔可夫链蒙特卡洛策略在大p和小n研究中面临混合或时间效率低下的问题,而近似算法无法捕捉到在后验中观察到的偏态。所以这篇论文证明了在高斯先验下,probit系数的后验分布具有统一的偏正态核。这样的结果使高效的贝叶斯推理适用于更广泛的应用,这些进展在一项遗传学研究中得到了概述。

4、On the Approximation of the Sum of Lognormals by a Log Skew Normal Distribution
Marwane Ben Hcine, Ridha Bouallegue

虽然已经有几种方法来近似对数正态分布的总和。但是这些方法的精度高度依赖于所检查的结果分布的区域,以及单个对数正态参数,即均值和方差。没有一种方法在所有情况都能够提供所需的准确性。这篇论文在对数斜偏正态逼近的基础上,提出了一种通用而又简单的对数法线和逼近方法。它主要贡献是提出了一种对数偏正态参数估计的解析方法。对于任何相关系数,所提出的方法提供了在整个dB扩散范围内对数正态分布之和的高度精确的近似。仿真结果表明,这个方法优于之前提出的所有方法,在所有情况下提供了0.01 dB以内的精度。
posted @   欢黎明陌  阅读(274)  评论(0编辑  收藏  举报
相关博文:
阅读排行:
· 震惊!C++程序真的从main开始吗?99%的程序员都答错了
· 【硬核科普】Trae如何「偷看」你的代码?零基础破解AI编程运行原理
· 单元测试从入门到精通
· 上周热点回顾(3.3-3.9)
· winform 绘制太阳,地球,月球 运作规律
  1. 1 一期一会《未闻花名》 周深
  2. 2 所念皆星河(演唱版) 房东的猫
  3. 3 起风了 买辣椒也用券
  4. 4 错位时空 艾辰
  5. 5 ツギハギスタッカート(拼凑的断音) とあ / 初音ミク
错位时空 - 艾辰
00:00 / 00:00
An audio error has occurred, player will skip forward in 2 seconds.

作词 : 周仁

作曲 : 张博文

编曲 : 陈林

制作人 : 艾辰

OP:腾煌星象

出品:网易飓风

填不满半排观众的电影

直到散场时突然亮起灯

字幕定格在某某出品和发行

我目送 他们行色匆匆

像个自不量力的复读生

完不成金榜题名的使命

命不是猜剪刀石头布的决定

那么任性

我吹过你吹过的晚风

那我们算不算 相拥

可如梦初醒般的两手空空

心也空

我吹过你吹过的晚风

是否看过同样 风景

像扰乱时差留在错位时空

终是空 是空

数不完见证许愿的繁星

没灵验谁来安慰坏心情

十字路口闪烁不停的信号灯

有个人 显然心事重重

三个字 只能说给自己听

仰着头不要让眼泪失控

哪里有可以峰回路转的宿命

我不想听

我吹过你吹过的晚风

那我们算不算 相拥

可如梦初醒般的两手空空

心也空

我吹过你吹过的晚风

是否看过同样 风景

像扰乱时差留在错位时空

终是空 是空

我吹过你吹过的晚风

空气里弥漫着 心痛

可我们 最后 在这错位时空

终成空

我吹过你吹过的晚风

空气里弥漫着 心痛

可我们 最后 在这错位时空

终成空 成空

分轨混音:何世渝

分轨混音:何世渝

贝斯:谭玮

吉他:望雷

监制/统筹:孙斌@子文沐凡

贴唱/和声:沙栩帆

企划:丁柏昕/袁晓童

宣发:徐思灵/苏琦惠

出品人:谢奇笛/凌联兴

点击右上角即可分享
微信分享提示
❤做自己就好了 我会喜欢你的❤