会员
周边
众包
新闻
博问
闪存
赞助商
所有博客
当前博客
我的博客
我的园子
账号设置
简洁模式
...
退出登录
注册
登录
sunshine丶23
博客园
首页
新随笔
联系
订阅
管理
2023年9月25日
基于SentencePiece扩充LLaMa中文词表
摘要: Sentencepiece是google开源的文本Tokenzier工具,其主要原理是利用统计算法,在语料库中生成一个类似分词器的工具,外加可以将词token化的功能;对比开源的分词器,它会将频繁出现的字符串作为词,然后形成词库进行切分,所以它会切分的粒度会更大些。当前各个大模型的分词器基本都是基于
阅读全文
posted @ 2023-09-25 09:54 sunshine丶23
阅读(859)
评论(0)
推荐(0)
编辑
公告