会员
周边
众包
新闻
博问
闪存
赞助商
所有博客
当前博客
我的博客
我的园子
账号设置
简洁模式
...
退出登录
注册
登录
穷酸秀才大艹包
上海交通大学CS博士生
2024年6月13日
SentencePiece: A simple and language independent subword tokenizer and detokenizer for Neural Text Processing
摘要: 郑重声明:原文参见标题,如有侵权,请联系作者,将会撤销发布! Abstract 本文介绍了一种用于基于神经的文本处理(包括神经机器翻译)的与语言相关的子词标记器(tokenizer)和去标记器(detokenizer)。它为子字单元提供了开源C++和Python实现。虽然现有的子词分割工具假设输入被
阅读全文
posted @ 2024-06-13 10:35 穷酸秀才大草包
阅读(45)
评论(0)
推荐(0)
编辑
导航
博客园
首页
新随笔
联系
订阅
管理
公告