2013 年 3月 31 日随笔档案 - BruceLv

2013年3月31日

基于卡方统计的种子词扩展

摘要： 1.首先介绍下卡方公式其中，t代表候选特征，c代表对应分类，A代表t在c中出现的次数。B代表t不在c中出现的次数，C代表c中不出现t的次数。D代表文档集中c和t都不出现的次数，N代表整个文档集的大小。（次数不是指t的次数，均指样本数）2.扩展过程a.首先，既然是扩展，那么就一定有原始的种子，这个可以人工挑出来。种子词不必很多，但要有强烈类别代表性。b.假设有n个类别，先用n个类别的种子词在总的数据中匹配，当数据的一个样本中匹配到了一个种子词，则这个样本被划为这个种子词所属的类别。这样一个样本可能会被划分到多个类别。c.在b步骤已经把数据分为了n+1类，对这些类中的每个特征词进行卡方统计，然后分阅读全文

posted @ 2013-03-31 12:57 BruceLv 阅读(590) 评论(0) 推荐(0) 编辑

吕秀才

基于卡方统计的种子词扩展

导航

公告