NLP常用工具
1、统计类工具:可参见【统计学习常用Python扩展包】
2、linux自带工具:可参见【【整理】Linux常用文本处理命令】
3、简繁转换工具:opencc
Open Chinese Convert(OpenCC)是一個中文簡繁轉換開源項目,提供高質量的簡繁轉換詞庫和可供調用的函數庫(libopencc)。還提供命令行簡繁轉換工具,人工校對工具,詞典生成程序,以及圖形用戶界面。(https://code.google.com/p/opencc/wiki/Introduction)
-
嚴格區分「一簡對多繁」、「一簡對多異」和「地域用詞差別」。
-
支持異體字轉換,兼容陸港澳臺等不同地區用字差別。
-
嚴格審校一簡對多繁詞條,原則爲「能分則不合」,用戶可自定義合併。
-
支持中國大陸、臺灣、香港異體字和地區習慣用詞轉換,如「裏」「裡」、「鼠標」「滑鼠」。
-
詞庫和函數庫完全分離,可以自由修改、導入、擴展。
-
支持C,C++,Python,PHP等多種語言調用,命令行直接調用,以及圖形界面。
-
兼容Windows、Linux等多種平臺。
-
2011年12月,支持地區異體字和習慣用詞轉換。
-
2011年7月,圖形版本發佈。
-
OpenCC創立於2009年,初期一直在蒐集整理詞庫,2010年6月正式對外發佈。
-
已經用於ibus-pinyin、fcitx的繁體模式輸入。U
Ubuntu 下安装如下:
上面的安装只是作为shell的命令调用,如果要在python中import 的话,可以使用下面方法安装:
参考:OpenCC 0.1
使用pip或者easy_install从pip源中下载并安装,如下:以easy_install为例
使用如下:
zhs2zhtw_p.ini zhs2zhtw_v.ini zhs2zhtw_vp.ini zht2zhtw_p.ini zht2zhtw_v.ini zht2zhtw_vp.ini zhtw2zhs.ini zhtw2zht.ini zhtw2zhcn_s.ini zhtw2zhcn_t.ini zhs2zht.ini:简体转繁体 zht2zhs.ini:繁体转简体
【推荐】国内首个AI IDE,深度理解中文开发场景,立即下载体验Trae
【推荐】编程新体验,更懂你的AI,立即体验豆包MarsCode编程助手
【推荐】抖音旗下AI助手豆包,你的智能百科全书,全免费不限次数
【推荐】轻量又高性能的 SSH 工具 IShell:AI 加持,快人一步
· go语言实现终端里的倒计时
· 如何编写易于单元测试的代码
· 10年+ .NET Coder 心语,封装的思维:从隐藏、稳定开始理解其本质意义
· .NET Core 中如何实现缓存的预热?
· 从 HTTP 原因短语缺失研究 HTTP/2 和 HTTP/3 的设计差异
· 分享一个免费、快速、无限量使用的满血 DeepSeek R1 模型,支持深度思考和联网搜索!
· 基于 Docker 搭建 FRP 内网穿透开源项目(很简单哒)
· ollama系列1:轻松3步本地部署deepseek,普通电脑可用
· 按钮权限的设计及实现
· 【杂谈】分布式事务——高大上的无用知识?