卡方检验
卡方检验——好的资料介绍推荐:https://wenku.baidu.com/view/36f0a603a1c7aa00b42acb59.html
用途:1.拟合优度检验(比如检验是否服从泊松分布,是否服从9:3:3:1分布)
2. 独立性检验(比如检验药物种类和治疗成功人数的关联,比如检验某特征和标签,如果不显著,可以不加入模型中)
3. 卡方分桶(特征工程),链接:https://www.shangmayuan.com/a/39a838124cdd41c6b56d2ca4.html
卡方分箱的原理
卡方分箱是自底向上的(即基于合并的)数据离散化方法。它依赖于卡方检验:具备最小卡方值的相邻区间合并在一块儿,直到知足肯定的中止准则。
基本思想:对于精确的离散化,相对类频率在一个区间内应当彻底一致。所以,若是两个相邻的区间具备很是相似的类分布,则这两个区间能够合并;不然,它们应当保持分开。而低卡方值代表它们具备类似的类分布。