spacy安装以及使用

参考链接

spaCy简介

spaCy是一个用于高级自然语言处理的Python库。它由Matthew Honnibal和Ines Montani于2015年创立。spaCy的设计目标是高性能、易于使用和可扩展性。spaCy内置了多种预训练模型,可用于处理多种语言,包括英语、法语、德语、中文等。它还提供了许多工具和接口,以便用户能够轻松地开发自定义NLP应用程序。

安装库

国内清华镜像
pip install -U spcay -i https://pypi.tuna.tsinghua.edu.cn/simple

安装模型

https://github.com/explosion/spacy-models/releases

我选的中文最大的模型 zh_core_web_trf-3.7.2 。注意此处要和spacy的版本一致
396M的体积,官网下载有点慢,建议复制链接,用迅雷下载。

实体识别

import spacy
nlp = spacy.load("zh_core_web_sm")
text = '广东省广州市'
doc = nlp(text)
for ent in doc.ents:
print(ent.text, ent.label_)```
广东省 GPE
广州市 GPE

词性标注

词性标注是为文本中的每个单词分配一个词性(例如名词、动词等)的过程。spaCy使用预训练模型自动完成词性标注。

for token in doc:
print(token.text, token.pos_)

命名实体识别

for ent in doc.ents:
print(ent.text, ent.label_)

依存关系解析

依存关系解析是确定文本中单词之间的句法关系(如主语、宾语等)的过程。spaCy可以自动分析单词之间的依存关系,从而帮助我们更好地理解文本结构。

for token in doc:
print(token.text, token.dep_, token.head.text)

以上列举了spaCy的一些基本功能。实际上,spaCy还包括许多其他功能,如文本相似度计算、词向量生成、句子边界检测等。你可以通过阅读spaCy官方文档来了解更多关于spaCy的信息。

posted on   耀扬  阅读(338)  评论(0编辑  收藏  举报

相关博文:
阅读排行:
· TypeScript + Deepseek 打造卜卦网站:技术与玄学的结合
· Manus的开源复刻OpenManus初探
· 写一个简单的SQL生成工具
· AI 智能体引爆开源社区「GitHub 热点速览」
· C#/.NET/.NET Core技术前沿周刊 | 第 29 期(2025年3.1-3.9)

导航

< 2025年3月 >
23 24 25 26 27 28 1
2 3 4 5 6 7 8
9 10 11 12 13 14 15
16 17 18 19 20 21 22
23 24 25 26 27 28 29
30 31 1 2 3 4 5
点击右上角即可分享
微信分享提示