2016年9月27日

自然语言处理2.3——词典资源

摘要: 词典或者词典资源是一个词和/或者短语及其相关信息的集合,例如:词性和词意定义等相关信息。词典资源隶属于文本,并且通过在文本的基础上创建和丰富。例如定义了一个文本my_text,然后通过vocab=sorted(set(my_text))建立my_text的词汇表,再利用word_Freq=FreqD 阅读全文

posted @ 2016-09-27 21:54 波比12 阅读(2526) 评论(0) 推荐(0) 编辑

自然语言处理2.2——条件频率分布

摘要: 前面我们学习过使用FreqDist(textlist)函数来计算textlist链表中每个项目出现的次数,现在我们推广这一想法。 当语料文本分为几类(文体、主题、作者)时,可以计算每个类别独立的频率分布,这样就可以研究类别之间的系统性差异。——nltk.ConditionalFreqDist来实现、 阅读全文

posted @ 2016-09-27 12:48 波比12 阅读(1885) 评论(0) 推荐(0) 编辑

导航