2013年3月31日

基于卡方统计的种子词扩展

摘要: 1.首先介绍下卡方公式其中,t代表候选特征,c代表对应分类,A代表t在c中出现的次数。B代表t不在c中出现的次数,C代表c中不出现t的次数。D代表文档集中c和t都不出现的次数,N代表整个文档集的大小。(次数不是指t的次数,均指样本数)2.扩展过程a.首先,既然是扩展,那么就一定有原始的种子,这个可以人工挑出来。种子词不必很多,但要有强烈类别代表性。b.假设有n个类别,先用n个类别的种子词在总的数据中匹配,当数据的一个样本中匹配到了一个种子词,则这个样本被划为这个种子词所属的类别。这样一个样本可能会被划分到多个类别。c.在b步骤已经把数据分为了n+1类,对这些类中的每个特征词进行卡方统计,然后分 阅读全文

posted @ 2013-03-31 12:57 BruceLv 阅读(590) 评论(0) 推荐(0) 编辑

导航