随笔档案「2013年5月22日」：【语言处理与Python】2.3更多关于Python：代码重用 ... - createMoMo

2013年5月22日

摘要：使用文本编辑器创建程序我们可以通过Idle创建一个新的文件，然后输入代码，最后进行保存。比如我们保存了一个名为monty.py的文件，想引进做同样的事情的时候，就可以使用From monty import *函数例如我们可以自己定义具有某种功能的函数：def lexical_diversity(my_text_data): Word_count=len(my_text_data) Vocab_size=len(set(my_text_data)) Diversity_score=word_count/vocab_size return diversity_score模块在一个文件中... 阅读全文

posted @ 2013-05-22 12:32 createMoMo 阅读(289) 评论(0) 推荐(0)

【语言处理与Python】2.2条件频率分布

摘要：条件概率分布是频率分布的集合，每个频率分布有一个不同的条件。这个条件通常是文本的类别。它的每对的形式是：（条件、事件）按文体计数词汇#先从语料库中设置条件频率分布From nltk.corpus import brownCfd=nltk.ConditionalFreqDist((genre,word)For genre in brown.categories()For word in brown.words(categories=genre)#可以选择自己感兴趣的进行查看,组成一个以对为元素的链表Genre_word=[(genre,word)For genre in [‘news’,’rom 阅读全文

posted @ 2013-05-22 12:30 createMoMo 阅读(669) 评论(0) 推荐(0)

【语言处理与Python】2.1获取文本语料库

摘要：古藤堡语料库（电子文本档案经过挑选的一小部分文本）#语料库中所有的文件Import nltkNltk.corpus.gutenberg.fileids() From nltk.corpus import GutenbergGutenberg.fileids()Emma=Gutenberg.words(‘austen-emma.txt’) #挑选其中的某一部著作进行操作Emma=nltk.corpus.gutenberg.words(‘austen-emma.txt’)Num_chars=len(Gutenberg.raw(fileid))Num_words=len(Gutenberg.word 阅读全文

posted @ 2013-05-22 12:27 createMoMo 阅读(2588) 评论(0) 推荐(0)

createMoMo

公告