Fork me on GitHub

Coding Poineer

Coding Poineer

Coding Poineer

Coding Poineer

Coding Poineer

Coding Poineer

Coding Poineer

Coding Poineer

Coding Poineer

Coding Poineer

Coding Poineer

01 2025 档案

摘要:大模型分词技术: BPE(Byte Pair Encoding): 执行分析的算法/模型:Tokenizer 分出来的最小粒度的组成部分:Token 分词的目标:尽可能使token蕴含更多有用的信息(1、上下文信息 2、shiyong更高频、丰富的字词作为token) 整个过程称为 Tokeniza 阅读全文
posted @ 2025-01-14 22:19 365/24/60 阅读(6) 评论(0) 推荐(0) 编辑
摘要:定义: 将人类语言与数字建立联系的强大方法 嵌入技术的演变: Wod2Vec CBOW(Continuous Bag of Words):根据上下文词汇预测目标词汇(情感分析、文本分类、词相似性) Skip-Gram:根据目标单词预测周围单词 在训练Word2Vec模型时,包含词典和词向量模型的训练 阅读全文
posted @ 2025-01-14 18:16 365/24/60 阅读(22) 评论(0) 推荐(0) 编辑

点击右上角即可分享
微信分享提示