会员
周边
捐助
新闻
博问
闪存
赞助商
Chat2DB
所有博客
当前博客
我的博客
我的园子
账号设置
简洁模式
...
退出登录
注册
登录
风生水起
善战者,求之于势,不责于人,故能择人而任势。
博客园
首页
新随笔
联系
订阅
管理
2024年7月25日
LLAMA3.1数据处理
摘要: 预训练数据 我们从各种包含知识的数据源创建语言模型预训练数据集,直到2023年底。我们对每个数据源应用多种重复数据消除方法和数据清理机制,以获得高质量的令牌。我们删除了包含大量个人身份信息(PII)的域名,以及包含已知成人内容的域名。 3.1.1网络数据管理 我们使用的大部分数据都是从网上获得的,我
阅读全文
posted @ 2024-07-25 23:49 风生水起
阅读(398)
评论(0)
推荐(0)
编辑