nltk.probability.FreqDist 自动识别语料库中词汇的频率分布
自动识别语料库中词汇的频率分布
方法 | 描述 |
---|---|
fdist=FreqDist(samples) | 创建包含给定样本的频率分布(samples可以是nltk.text.Text、空格分割的字符串、列表或者其他) |
fdist.inc(sample) | 增加样本 |
fdist[word] | word在样本中出现的次数 |
fdist.freq(word) | word在样本中出现的频率 |
fdist.N() | 样本总数 |
fdist.keys() | 样本list |
for sample in fdist: | 以频率递减顺序遍历样本 |
fdist.max() | 数值最大样本 |
fdist.plot() | 绘制频率分布图 |
fdist.plot(cumulative=True) | 绘制累积频率分布图 |
>>> fdist = FreqDist(text1)
>>> fdist.plot(50, cumulative=True)
时刻记着自己要成为什么样的人!