CFS-GA 相关性特征选择与遗传算法 特征选择/特征提取
CFS-GA特征选择/特征提取
CFS
对于一个样本空间,构造一个二维矩阵A代表此样本空间,A中每行代表一条数据,每列代表一个特征
样本中的数据分为数个特征,其中\(A_i\)表示第\(i\)个特征,\(a_{ij}\)表示第i行第j列那条数据
计算特征\(A_i\)的熵
\[H(A_i)=-\sum\limits_{{}{k}}p(a_{ik})log_2(p(a_{ik}))
\]
计算已知特征\(A_j\)的情况下\(A_i\)的熵的公式
\[H(A_i|A_j)=-\sum\limits_{{}{t}}p(a_{jt})\sum\limits_{{}{k}}p(a_{ik}|a_{jt})log_2(p(a_{ik}|a_{jt}))
\]
对称不确定方法
用以确保信息增益规格化,使其是可比较和具有相同效果
\[SU=2.0×[\frac{H(A_i)-H(A_i|A_j)}{H(A_i)+H(A_j)}]
\]
计算适应度
\[Fitness(h)=\frac{m·\overline{r_{ca}(h)}}{\sqrt{m+m·(m-1)·\overline{r_{aa}(h)}}}
\]
\(h\)为特征子集