2024年6月13日

摘要: 郑重声明:原文参见标题,如有侵权,请联系作者,将会撤销发布! Abstract 本文介绍了一种用于基于神经的文本处理(包括神经机器翻译)的与语言相关的子词标记器(tokenizer)和去标记器(detokenizer)。它为子字单元提供了开源C++和Python实现。虽然现有的子词分割工具假设输入被 阅读全文
posted @ 2024-06-13 10:35 穷酸秀才大草包 阅读(45) 评论(0) 推荐(0) 编辑

导航