决策树算法4:CHAID

原理:

其中 n = a+b+c+d

 

卡方计算(例子)使用 sklearn完成

data.csv中的部分数据

#如何使用卡方检测相关度
from sklearn.feature_selection import SelectKBest,chi2
import pandas as pd 

file='data.csv'
df=pd.read_csv(file,encoding='gbk') #数据本身
X=df.iloc[:,:-1].values     #iloc取下标位置
y=df.iloc[:,-1].values
new_data=SelectKBest(chi2,k=2).fit_transform(X,y)  #k表示取几个与y最相关的属性
print() 

 

posted @ 2021-05-01 11:36  北极星!  阅读(999)  评论(0编辑  收藏  举报