摘要: 使用文本编辑器创建程序我们可以通过Idle创建一个新的文件,然后输入代码,最后进行保存。比如我们保存了一个名为monty.py的文件,想引进做同样的事情的时候,就可以使用From monty import *函数例如我们可以自己定义具有某种功能的函数:def lexical_diversity(my_text_data): Word_count=len(my_text_data) Vocab_size=len(set(my_text_data)) Diversity_score=word_count/vocab_size return diversity_score模块在一个文件中... 阅读全文
posted @ 2013-05-22 12:32 createMoMo 阅读(270) 评论(0) 推荐(0) 编辑
摘要: 条件概率分布是频率分布的集合,每个频率分布有一个不同的条件。这个条件通常是文本的类别。它的每对的形式是:(条件、事件)按文体计数词汇#先从语料库中设置条件频率分布From nltk.corpus import brownCfd=nltk.ConditionalFreqDist((genre,word)For genre in brown.categories()For word in brown.words(categories=genre)#可以选择自己感兴趣的进行查看,组成一个以对为元素的链表Genre_word=[(genre,word)For genre in [‘news’,’rom 阅读全文
posted @ 2013-05-22 12:30 createMoMo 阅读(644) 评论(0) 推荐(0) 编辑
摘要: 古藤堡语料库(电子文本档案经过挑选的一小部分文本)#语料库中所有的文件Import nltkNltk.corpus.gutenberg.fileids() From nltk.corpus import GutenbergGutenberg.fileids()Emma=Gutenberg.words(‘austen-emma.txt’) #挑选其中的某一部著作进行操作Emma=nltk.corpus.gutenberg.words(‘austen-emma.txt’)Num_chars=len(Gutenberg.raw(fileid))Num_words=len(Gutenberg.word 阅读全文
posted @ 2013-05-22 12:27 createMoMo 阅读(2530) 评论(0) 推荐(0) 编辑