随笔分类 - 统计相关
统计相关的内容
摘要:假如我们的分析库只能使用mysql,那么我们在分析库中查询数据时,有几个优化的方法可以使用。1. 创建索引索引确实可以显著提高查询速度,但重要的是要确保索引是有效且必要的。当两个表进行关联查询时,确保它们的关联字段数据类型保持一致,且尽量是整形。这种一致性不仅有助于查询的正确执行,还能提高查询的性能
阅读全文
摘要:在数据分析具体项目中,表命名往往是一项颇具挑战性的任务。尤其当项目时间紧迫时,如何为不同应用场景下的各类数据表进行合理命名,着实让人抓耳挠腮。我们平时工作总使用的是TIDB,在此,结合工作中的一些实践,期望能为读者提供一些有益的帮助。 1. 分层命名规范 1.1. 分层命名规则 在数据仓库的构建过程
阅读全文
摘要:因为在工作之中,我总是遇到这种现象,姑且称此现象为大分母规律。
阅读全文
摘要:4.1 简介 F分布英文名称F-distribution,最初由英国统计学家Fisher提出。 图4.1 F分布 4.2 性质 4.3 应用 4.3.1 ANOVA ANOVA全称analysis of variance,又称“变异数分析”或“F检验”,用于两个及两个以上样本均数差别的显著性检验。
阅读全文
摘要:3.1 简介 t分布英文名称t-distribution,最初由英国统计学家Gosset提出。 图3.1 t分布 t分布是William S. Gosset以笔名 Student发表的论文中提出的,所以也称为Student分布。 3.2 性质 3.3 应用 3.3.1 单样本t检验 单样本t检验是检
阅读全文
摘要:2.1 简介 卡方分布英文名称chi-square distribution,最初由法国数学家Abbe提出,后来德国科学家Helmert和英国数学家Pearson也分别导出。 则其概率密度函数如下,具体分布图如图2.1: 图2.1 卡方分布 2.2 性质 2.3 应用 2.3.1 卡方检验 卡方检验
阅读全文
摘要:1.1 简介 正态分布英文名称为Normal Distribution,也称常态分布,最初由法国数学家棣莫弗提出,德国数学家高斯也从另一个角度导出了它,并最先应用于天文学研究。 若随机变量X服从μ和σ参数且概率密度如下的函数: 则称该随机变量服从正态分布,即为, 具体如图1.1; 当μ=0且σ=1时
阅读全文
摘要:1. elo等级分的应用 被广泛应用于足球、国际象棋、围棋等运动,以及很多网游与电子竞技产业。 游戏界比较著名的应用有: WOW(魔兽世界)、DOTA、LOL。运动方面,国际足联的国家队成绩排名。 2. elo等级分的原理 Wa: A队赛前分数 Wb: B队赛前分数 WEa: 预期A队的胜负值 WE
阅读全文
摘要:1. TPR、FPR、Precision、Recall、Sensitivity、Specificity、F1 表格1.1 混淆矩阵 True Positive=TP; False Negative=FN,Type I Error; False Positive=FP,Type II Error; T
阅读全文