随笔分类 -  大模型开发

摘要:目录背景和价值Word2Vec基本思想模型架构连续词袋模型(CBOW)跳字模型(Skip - Gram)训练方法词向量的获取ELMo核心概念工作原理优势局限性应用场景参考资料 背景和价值 Word2Vec Word2Vec 是一种用于将文本中的单词转换为向量表示的模型,由谷歌团队在2013年提出。其 阅读全文
posted @ 2025-03-02 09:26 向着朝阳 阅读(8) 评论(0) 推荐(0) 编辑
摘要:目录为什么要微调null业务概念向量流程数据算法算力编码器Input embedding 向量化处理位置编码(Positional Encoding)注意力(远近)机制 (Attention)全连接前馈网络- 关键字 : 激活函数解码器参考资料 什么是微调? 预训练的迷你版是微调 为什么要微调 全量 阅读全文
posted @ 2025-03-01 21:53 向着朝阳 阅读(6) 评论(0) 推荐(0) 编辑
摘要:目录RAG流程子流程1: 知识更新 (上图的1-7)--数据准备阶段数据提取和清晰数据切分Embedding 嵌入存储(向量数据库)子流程2 知识检索/ 增强生成查询(Query)Embedding 嵌入生成向量查询向量数据库返回Related Text Chunks (一阶段检索)重排序 rera 阅读全文
posted @ 2025-02-27 21:11 向着朝阳 阅读(3) 评论(0) 推荐(0) 编辑
摘要:目录业务概念微调(Fine-Tuning)和检索增强生成(RAG)相似点不同点应用架构应用层应用架构层应用技术层Agent智能体knowledgeworkfowRAG/检索增强生成Prompt/提示词工程Fine-tuning/微调COT/ 思维链数据抓取数据清洗数据向量访问控制模型层作为一个企业, 阅读全文
posted @ 2025-02-27 17:38 向着朝阳 阅读(2) 评论(0) 推荐(0) 编辑
摘要:目录DEEPSEEK1 DeepSeek 深度优化混合专家模型2 MLA 多头潜注意力3 多令牌预测机制Deepseek的 MLA VS OpenapiI的 MHL计算和存储优化方面位置编码处理方面模型性能和应用场景方面参考资料 DEEPSEEK 3个创新 1 DeepSeek 深度优化混合专家模型 阅读全文
posted @ 2025-02-27 17:25 向着朝阳 阅读(13) 评论(0) 推荐(0) 编辑
摘要:目录Agent的定义智能体工作原理1. 必须做的核心工作:领域微调(Fine Turing),目的是为了做领域适配2. 知识增强,使用 RAG(检索增强生成)Retrieval - Augmented Generation 英 /ɔːɡˈmentɪd/RAG VS 微调大模型Agent主流开发模式 阅读全文
posted @ 2025-02-26 22:14 向着朝阳 阅读(2) 评论(0) 推荐(0) 编辑

点击右上角即可分享
微信分享提示