01 2025 档案
摘要:大模型分词技术: BPE(Byte Pair Encoding): 执行分析的算法/模型:Tokenizer 分出来的最小粒度的组成部分:Token 分词的目标:尽可能使token蕴含更多有用的信息(1、上下文信息 2、shiyong更高频、丰富的字词作为token) 整个过程称为 Tokeniza
阅读全文
摘要:定义: 将人类语言与数字建立联系的强大方法 嵌入技术的演变: Wod2Vec CBOW(Continuous Bag of Words):根据上下文词汇预测目标词汇(情感分析、文本分类、词相似性) Skip-Gram:根据目标单词预测周围单词 在训练Word2Vec模型时,包含词典和词向量模型的训练
阅读全文
积分与排名
- 积分 - 49902
- 排名 - 33875
随笔档案
- 2025年2月(1)
- 2025年1月(2)
- 2024年5月(3)
- 2024年3月(1)
- 2023年12月(3)
- 2023年10月(2)
- 2023年3月(1)
- 2023年1月(2)
- 2022年12月(2)
- 2022年11月(7)
- 2022年10月(3)
- 2022年9月(4)
- 2022年8月(1)
- 2022年7月(1)
- 2022年6月(2)
- 2022年5月(4)
- 2022年4月(3)
- 2022年3月(3)
- 2022年2月(3)
- 2022年1月(3)
- 2021年11月(1)
- 2021年9月(1)
- 2021年8月(4)
- 2021年7月(5)
- 2021年5月(9)
- 2021年4月(4)
- 2021年3月(2)
- 2021年1月(8)
- 2020年12月(6)
- 2020年11月(11)
- 2020年10月(5)
- 2020年9月(5)
- 2020年8月(1)
- 2020年7月(1)
- 2020年6月(2)
- 2020年4月(2)
- 2020年3月(2)
- 2020年1月(1)
- 2019年12月(4)
- 2019年11月(1)
- 更多
阅读排行榜
- 1. 浅析export * from 与 export {default} from用法(5870)
- 2. Vue项目使用svg图标(并使svg图标如icon一样可修改font-size、color)(3608)
- 3. npm 更改模块版本(2303)
- 4. react渲染数据3种方式(2112)
- 5. 在VMware虚拟机Ubuntu使用traceroute(1899)
- 6. Conv2d参数详解及复写(1876)
- 7. pycharm远程调试、开发(详细操作)(1791)
- 8. Object.defineProperty 详解(数据响应式原理) (1584)
- 9. promises-aplus-tests 测试手写promise过程(1453)
- 10. antd Paragraph展开可收起组件封装(1372)