【465】词干提取与词形还原
词干(word stem)表示每个单词的主体部分。词干提取(stemming)就是提取词干的过程,通常是删除常见的后缀来实现。
词形还原(lemmatization)考虑了单词在句子中的作用,单词的标准化形式为词元(lemma)。
词干提取和词形还原这两种处理方法都是标准化(normalization)的形式之一,标准化是指尝试提取一个单词的某种标准形式。
对比一种词干提取的方法(Poter词干提取器,从 nltk 包导入)与 spacy 包中实现词形还原。
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 | import spacy import nltk # 加载 spacy 的英语模型,可以分词 en_nlp = spacy.load( 'en' ) # 将 nltk 的 Porter 词干提取器实例化 stemmer = nltk.stem.PorterStemmer() # 定义一个函数来对比区别 def compare_normalization(doc): # 在 spacy 中对文档进行分词 doc_spacy = en_nlp(doc) # 打印出 spacy 找到的词元 print ( "Lemmatization:" ) print ([token.lemma_ for token in doc_spacy]) # 打印出 Porter 词干提取器找到的词例 print ( "Stemming:" ) print ([stemmer.stem(token.norm_.lower()) for token in doc_spacy]) compare_normalization(u "Our meeting today was worse than yesterday, " "I'm scared of meeting the clients tomorrow." ) output: Lemmatization: [ '-PRON-' , 'meeting' , 'today' , 'be' , 'bad' , 'than' , 'yesterday' , ',' , '-PRON-' , 'be' , 'scared' , 'of' , 'meet' , 'the' , 'client' , 'tomorrow' , '.' ] Stemming: [ 'our' , 'meet' , 'today' , 'wa' , 'wors' , 'than' , 'yesterday' , ',' , 'i' , 'am' , 'scare' , 'of' , 'meet' , 'the' , 'client' , 'tomorrow' , '.' ] |
总结:词形还原效果更好。
分类:
AI Related / NLP
posted on 2020-05-18 23:58 McDelfino 阅读(1376) 评论(0) 编辑 收藏 举报
【推荐】国内首个AI IDE,深度理解中文开发场景,立即下载体验Trae
【推荐】编程新体验,更懂你的AI,立即体验豆包MarsCode编程助手
【推荐】抖音旗下AI助手豆包,你的智能百科全书,全免费不限次数
【推荐】轻量又高性能的 SSH 工具 IShell:AI 加持,快人一步
· AI与.NET技术实操系列(二):开始使用ML.NET
· 记一次.NET内存居高不下排查解决与启示
· 探究高空视频全景AR技术的实现原理
· 理解Rust引用及其生命周期标识(上)
· 浏览器原生「磁吸」效果!Anchor Positioning 锚点定位神器解析
· DeepSeek 开源周回顾「GitHub 热点速览」
· 记一次.NET内存居高不下排查解决与启示
· 物流快递公司核心技术能力-地址解析分单基础技术分享
· .NET 10首个预览版发布:重大改进与新特性概览!
· .NET10 - 预览版1新功能体验(一)