2022年必须要了解的20个开源NLP 库
在本文中,我列出了当今最常用的 NLP 库,并对其进行简要说明。它们在不同的用例中都有特定的优势和劣势,因此它们都可以作为专门从事 NLP 的优秀数据科学家备选方案。每个库的描述都是从它们的 GitHub 中提取的。
NLP库
以下是顶级库的列表,排序方式是在GitHub上的星数倒序。
1、Hugging Face Transformers
57.1k GitHub stars.
Transformers 提供了数千个预训练模型来执行不同形式的任务,例如文本、视觉和音频。这些模型可应用于文本(文本分类、信息提取、问答、摘要、翻译、文本生成,支持超过 100 种语言)、图像(图像分类、对象检测和分割)和音频(语音识别和音频分类 )。Transformer 模型还可以结合多种模式执行任务,例如表格问答、OCR、从扫描文档中提取信息、视频分类和视觉问答。
2、spaCy
22.2k GitHub stars.spaCy是 Python 和 Cython 中用于自然语言处理的免费开源库。它从一开始就设计用于生产环境。spaCy 带有预训练的管道,目前支持 60 多种语言的标记化和训练。它具有最先进的神经网络模型,可以用于标记、解析、命名实体识别、文本分类、并且使用 BERT 等预训练Transformers进行多任务学习,可以对模型进行 打包、部署和工作,方便生产环境的部署。spaCy 是商业开源软件,在 MIT 许可下发布。
完整文章:
https://www.overfit.cn/post/a95c29726cba4e3aa969066fb7c80ad5