卡方检验
参考:什么是卡方检验
连续投掷硬币50次,其中22次为正面,28次为方面,问这枚硬币是否是正常硬币?
这是个假设检验的问题。
若用卡方检验来做,需要先用上面的公式计算卡方值X2,然后查表看卡方值有没有落入指定区间,即可判定是否应该接受假设。
类似的抛骰子的例子:抛36次,已知各个点数朝上的次数,问是否骰子均衡?
卡方检验在机器学习中可以用来筛选特征,判断某个特征与标签之间是否存在显著关联,相关性有多大等。例如,
>>> from sklearn.datasets import load_iris >>> from sklearn.feature_selection import SelectKBest >>> from sklearn.feature_selection import chi2 #导入卡方检验工具 >>> iris = load_iris() >>> X, y = iris.data, iris.target >>> X.shape (150, 4) >>> X_new = SelectKBest(chi2, k=2).fit_transform(X, y) >>> X_new.shape (150, 2)