NLP笔记

 

词性标注器

>>> text = nltk.word_tokenize('what are your name?')
>>> text

>>> nltk.pos_tag(text)
[('what', 'WDT'), ('are', 'VBP'), ('your', 'PRP$'), ('name', 'NN'), ('?', '.')]

 

CC 并列连词

RB 副词

IN 连词

JJ 形容词

 

帮助文档使用

nltk.help.upenn_tagset( 'RB*')

 

text = nltk.Text(word.lower() for word in nltk.corpus.brown.words())

text.similar('woman')  #找出与woman相似的词

 

nltk.tag.str2tuple()  #已标记的词构建为列表

nltk.corpus.brown.tagged_words()  

nltk.corpus.nps_chat.tagged_words()

nltk.corpus.conll2000.tagged_words()

 

posted @   小_龟  阅读(328)  评论(0编辑  收藏  举报
编辑推荐:
· .NET Core 托管堆内存泄露/CPU异常的常见思路
· PostgreSQL 和 SQL Server 在统计信息维护中的关键差异
· C++代码改造为UTF-8编码问题的总结
· DeepSeek 解答了困扰我五年的技术问题
· 为什么说在企业级应用开发中,后端往往是效率杀手?
阅读排行:
· 清华大学推出第四讲使用 DeepSeek + DeepResearch 让科研像聊天一样简单!
· 推荐几款开源且免费的 .NET MAUI 组件库
· 实操Deepseek接入个人知识库
· 易语言 —— 开山篇
· Trae初体验
点击右上角即可分享
微信分享提示