决策树算法4:CHAID
原理:
其中 n = a+b+c+d
卡方计算(例子)使用 sklearn完成
data.csv中的部分数据
#如何使用卡方检测相关度 from sklearn.feature_selection import SelectKBest,chi2 import pandas as pd file='data.csv' df=pd.read_csv(file,encoding='gbk') #数据本身 X=df.iloc[:,:-1].values #iloc取下标位置 y=df.iloc[:,-1].values new_data=SelectKBest(chi2,k=2).fit_transform(X,y) #k表示取几个与y最相关的属性 print()
我们向往远方,却忽略了此刻的美丽