<NLP with python>笔记：三

Accessing Text Corpora and Lexical Resources(文本语料库和词汇资源)

　　常用文本预料和词汇资源，如何通过python访问这些资源。

2.1 Accessing Text Corpora

　　语料：大量的文本资源。

　　访问语料的三个接口： raw(fileids) /sents(fileids) / words(fileids)

Gutenberg Corpora

　　nltk.corpus.gutenberg，通过raw(fileid)/sents(fileid)/words(fileid)访问文本内容。

　　nltk.corpus.gutenberg.words(fileids=None):根据文件id返回文件对应的内容。,可以将其转换为nltk.text对象，从可以可以使用nltk.text.Text中的方法，concordance,collocations,count等；

　　nltk.corpus.gutenberg.sents(fileids=None):根据文件id返回文件对应的句子。

　　nltk.corpus.gutenberg.raw(fileid=None):返回原始文件。　

Web and Chat Text

　　来自web上的论坛/对话等资源，相对不太正式的语言。

　　nltk.corpus.webtext:论坛文本资源；

　　nltk.corpus.nps_chat：对话资源

Brown Corpus

　　第一个百万级别的英文电子语料。　　

　　nltk.corpus.brown。words(fildids)/sents(fileids)/raw(fileids)

　　常用语研究不同文体直接的差别

　　条件频率分布：nltk.probability.ConditionalFreqDist（cond_simple)

Reuter Corpus

　　nltk.corpus.reuter　. 注释文本语料

Corpus in Other Language

2.2 Conditional Freqency Distributions

　　nltk.probability.ConditionalFreqDist(cond_sample)：从样本中生成条件分布。其中，每个样本由条件-样本对组成，不同于nltk.probability.FeqDist的由样本组成。

　　在很多nlp任务中都非常有用。

2.3 More Python: Reusing Code

2.4 Lexical Resources

　　词汇资源：单词/词语和对应的信息，如pos等。

Wordlist Corpora

　　来自unix/usr/dict/words的资源，主要用于拼写检查。

　　nltk.corpus.stopwords

发音字典

　　单词和他对应的发音。

2.5 WordNet(MATTER)

　　面向语义的英语词典

　　nltk.corpus.wordnet

2.6 Summary

posted @ 2016-06-23 22:02 Mscer 阅读(540) 评论(0) 收藏举报

刷新页面返回顶部

Mscer