随笔 - 1263  文章 - 0 评论 - 16 阅读 - 75万
< 2025年3月 >
23 24 25 26 27 28 1
2 3 4 5 6 7 8
9 10 11 12 13 14 15
16 17 18 19 20 21 22
23 24 25 26 27 28 29
30 31 1 2 3 4 5



拼音输入法输出的候选分成两个部分,系统词以及短句(智能组词),智能组词是通过model以及解码弄出来的,兴许再说。
系统词就是那些经常使用的词(词组)收录到词典中。用户的输入和词典中的词match时,直接吐出来,而不须要解码获得。

系统词以及相应的rank(score)对输入法的体验非常大,毕竟大多数用户还是继续短词输入。

系统词包括几个部分:
1.基础词
2.高频短串
3.细胞词库

当中基础词的比較复杂,也没有统一的方法。一般的做法是:
1.对训练语料进行分词。然后取top 20-50w的词作为基础词,假设有知识库等分类的词典,能够依照类别,比方电商等能够引入一些词
2.获取第三方的核心词典,将大家都有的,或者基于一定的规范,选择出来。作为核心词典。

这个非常重要。可是基本上高频的都能被cover住。而中低频的就看产品需求了。

针对高频短串,比方“去哪里”等等,没有必要通过智能组词来解决,智能组词毕竟是有错误率的。
同一时候,加到核心词库里面后。在展现上比較方便控制。
毕竟智能组词一版智能选一个最好的,而系统词能够有多个,“去哪里”去那里“
posted on   lxjshuju  阅读(259)  评论(1编辑  收藏  举报
编辑推荐:
· 10年+ .NET Coder 心语,封装的思维:从隐藏、稳定开始理解其本质意义
· .NET Core 中如何实现缓存的预热?
· 从 HTTP 原因短语缺失研究 HTTP/2 和 HTTP/3 的设计差异
· AI与.NET技术实操系列:向量存储与相似性搜索在 .NET 中的实现
· 基于Microsoft.Extensions.AI核心库实现RAG应用
阅读排行:
· 10年+ .NET Coder 心语 ── 封装的思维:从隐藏、稳定开始理解其本质意义
· 地球OL攻略 —— 某应届生求职总结
· 提示词工程——AI应用必不可少的技术
· Open-Sora 2.0 重磅开源!
· 字符编码:从基础到乱码解决
点击右上角即可分享
微信分享提示