摘要: 最近因为相关项目需要考虑中文文本检错,然后就发现了爱奇艺发布的号称SOTA的FASPell已经开源代码,所以开始着手实现。 检错思想两步:一,掩码语言模型(MLM)产生候选字符;二,CSD过滤候选字符。 资源与数据文件 开源代码中不包含任何处理好的数据,全部需要自己处理。训练和测试使用的SIGHAN 阅读全文
posted @ 2019-12-24 16:12 Junzz 阅读(3156) 评论(12) 推荐(0) 编辑