spacy安装以及使用
spaCy简介
spaCy是一个用于高级自然语言处理的Python库。它由Matthew Honnibal和Ines Montani于2015年创立。spaCy的设计目标是高性能、易于使用和可扩展性。spaCy内置了多种预训练模型,可用于处理多种语言,包括英语、法语、德语、中文等。它还提供了许多工具和接口,以便用户能够轻松地开发自定义NLP应用程序。
安装库
国内清华镜像
pip install -U spcay -i https://pypi.tuna.tsinghua.edu.cn/simple
安装模型
https://github.com/explosion/spacy-models/releases
我选的中文最大的模型 zh_core_web_trf-3.7.2 。注意此处要和spacy的版本一致
396M的体积,官网下载有点慢,建议复制链接,用迅雷下载。
实体识别
import spacy nlp = spacy.load("zh_core_web_sm") text = '广东省广州市' doc = nlp(text) for ent in doc.ents: print(ent.text, ent.label_)``` 广东省 GPE 广州市 GPE
词性标注
词性标注是为文本中的每个单词分配一个词性(例如名词、动词等)的过程。spaCy使用预训练模型自动完成词性标注。
for token in doc: print(token.text, token.pos_)
命名实体识别
for ent in doc.ents: print(ent.text, ent.label_)
依存关系解析
依存关系解析是确定文本中单词之间的句法关系(如主语、宾语等)的过程。spaCy可以自动分析单词之间的依存关系,从而帮助我们更好地理解文本结构。
for token in doc: print(token.text, token.dep_, token.head.text)
以上列举了spaCy的一些基本功能。实际上,spaCy还包括许多其他功能,如文本相似度计算、词向量生成、句子边界检测等。你可以通过阅读spaCy官方文档来了解更多关于spaCy的信息。
【推荐】国内首个AI IDE,深度理解中文开发场景,立即下载体验Trae
【推荐】编程新体验,更懂你的AI,立即体验豆包MarsCode编程助手
【推荐】抖音旗下AI助手豆包,你的智能百科全书,全免费不限次数
【推荐】轻量又高性能的 SSH 工具 IShell:AI 加持,快人一步
· TypeScript + Deepseek 打造卜卦网站:技术与玄学的结合
· Manus的开源复刻OpenManus初探
· 写一个简单的SQL生成工具
· AI 智能体引爆开源社区「GitHub 热点速览」
· C#/.NET/.NET Core技术前沿周刊 | 第 29 期(2025年3.1-3.9)