一种基于Welch's t检验的二元关系挖掘
现实中常常需要挖掘两种因素之间的关联,Welch's t检验很适合其中的nomial-numerical的关系挖掘。比如天气状况对销量的影响,或者天气情况对交通流量的影响等等。我们可以按照下雨/不下雨将样本总体划分为两个样本,然后对比这两个样本的情况下numerical型变量的均值差异的显著性。下面以天气情况对销量的影响为例,使用Welch's t检验来分析。
假定样本$S_i=\{X_t|W_t=w_i\}; i=1,2; w_1=下雨, w_2=不下雨$,计算这两个样本的统计$t$变量和自由度变量$\nu$如下:
$t=\frac{\bar{X_1}-\bar{X_2}}{\sqrt{\frac{s_1^2}{N_1}+\frac{s_2^2}{N_2}}}$
$\nu=\frac{(\frac{s_1^2}{N_1}+\frac{s_2^2}{N_2})^2}{\frac{s_1^4}{N_1^2(N_1-1)}+\frac{s_2^4}{N_2^2(N_2-1)}}$
其中$\bar{X_i}, s_i, N_i, i=1,2$分别为两个样本的均值、标准差、样本个数。
根据计算出来的$t$和$\nu$以及t分布表http://www.sjsu.edu/faculty/gerstman/StatPrimer/t-table.pdf选择合适的阈值即可按二元关系的显著性进行过滤。
引用文献:
[1] Welch's t test: http://en.wikipedia.org/wiki/Welch%27s_t_test
[2] Student's t Distribution: http://en.wikipedia.org/wiki/Student's_t-distribution
【推荐】编程新体验,更懂你的AI,立即体验豆包MarsCode编程助手
【推荐】凌霞软件回馈社区,博客园 & 1Panel & Halo 联合会员上线
【推荐】抖音旗下AI助手豆包,你的智能百科全书,全免费不限次数
【推荐】博客园社区专享云产品让利特惠,阿里云新客6.5折上折
【推荐】轻量又高性能的 SSH 工具 IShell:AI 加持,快人一步