随笔分类 -  NLP笔记

摘要:任务一:现在有一篇长文《中国的蜜蜂养殖》,用计算机提取它的关键词。 1、词频:如果某个词很重要,它应该在这篇文章中多次出现。我们进行"词频"(Term Frequency,缩写为TF)统计。 2、停用词:结果你肯定猜到了,出现次数最多的词是 "的"、"是"、"在" 这一类最常用的词。它们叫做"停用词 阅读全文
posted @ 2016-10-19 10:22 小_龟 阅读(35118) 评论(0) 推荐(3) 编辑
摘要:词性标注器 CC 并列连词 RB 副词 IN 连词 JJ 形容词 帮助文档使用 nltk.help.upenn_tagset( 'RB*') text = nltk.Text(word.lower() for word in nltk.corpus.brown.words()) text.simil 阅读全文
posted @ 2016-10-18 17:08 小_龟 阅读(329) 评论(0) 推荐(0) 编辑
摘要:功能 1):分词 jieba.cut方法接受两个输入参数: 1) 第一个参数为需要分词的字符串 2)cut_all参数用来控制是否采用全模式 jieba.cut_for_search方法接受一个参数:需要分词的字符串,该方法适合用于搜索引擎构建倒排索引的分词,粒度比较细 注意:待分词的字符串可以是g 阅读全文
posted @ 2016-10-18 17:07 小_龟 阅读(235) 评论(0) 推荐(0) 编辑

点击右上角即可分享
微信分享提示