lecture1-Word2vec实战班-七月在线nlp

nltk的全称是natural language toolkit，是一套基于python的自然语言处理工具集。自带语料库、词性分类库、自带分类分词等功能、强大社区支持、很多简单版wrapper

文本处理：

preprocess -》分词 tokenize -》make features，成为数字化表示的东西 -》 ml方法产生label、targets

中文nlp - 分词 - 1、启发式：就像对着大辞典，今是一个单词吗，今天是个。。，。。~类似贪婪算法找拟合词 2、ml：HMM\CRF -- import jieba

例如像社交网络上的表情、字符等tokensize后就会出错 -》利用正则表达式

inflection变化-不影响词性

derivation引申-影响词性

stemming词干提取 -- 把不影响词性的inflection的小尾巴砍掉

lemmatination词形归-- wordnet -- 如went~go、was ~ be -- 》went 1、过去式go 2、英文名温特 ~需要算法告诉我词性是什么，默认是名词

pos-tag：中文是n、v等，英文是WDTdeng

停止词：一千个the会指代一千个事，如果引入的话会造成很大的歧义 -- 从nltk.corpus中import stopwords -- 如果是判断有木有语病、文章相似度高不高，则不能去除停止词

自然语言 ----》特征工程 --》计算机识别的01

情感分析 ~广告投放中

posted on 2018-03-06 22:36 rosyYY 阅读(542) 评论(0) 收藏举报

刷新页面返回顶部

导航