2015年11月7日

信息增益

摘要: 首先说下信息熵其中X可以取x1,x2,...xn,Pi为X取xi的概率,信息熵反应X携带的信息量引申到分类系统,类别C可以取值C1,C2...Cn,整个分类系统的熵为其中P(Ci)=Ci类文档数/文档集总文档数信息增益针对的是特征词t,整个系统有t和没t的信息量的差就是信息增益。(1)系统有t时候的... 阅读全文

posted @ 2015-11-07 19:33 IvanSSSS 阅读(272) 评论(0) 推荐(0) 编辑

TF-IDF

摘要: TF-IDF可以用于特征提取,也可以用于特征权重计算,这里讲的是后者。 TF=文档d中特征词t的词频 IDF=log(文档总数/出现t的文档数) TF-IDF=TF*IDF (上式为weka中TFIDF计算公式,也是最经典的公式) 特征词的TFIDF权值代表了其在相应文档中的重要程度。 在朴素贝叶斯 阅读全文

posted @ 2015-11-07 01:21 IvanSSSS 阅读(448) 评论(0) 推荐(0) 编辑

导航