随笔分类 - AI
摘要:1. KV 缓存是什么? KV 缓存(KV Cache)是一种优化大语言模型(LLM, Large Language Models)推理速度的关键技术。最近爆火的DeepSeek,其首创的MLA技术,使得KV Cache降低了93%,在大语言模型的训练和推理上有效降低了对高性能GPU的性能要求(比如
阅读全文
摘要:ComfyUI 上手, 工作流, 图生图, 自定义节点, VAE, ControlNet, LoRA
阅读全文
摘要:LLM,合成数据,生成文本数据,生成格式化数据,Kmeans, elbow
阅读全文
摘要:基础版 Few-shot Prompt Role-play Prompt Personality-added Prompt Multi-rounded Prompt Chain-of-Thought Prompt Self-Reflection Prompt 进阶版 Task break-down
阅读全文
摘要:long context: context length 128k, more accurate over a long context control JSON Mode Function calling, call many functions at once Reproducible outp
阅读全文
摘要:# BASE模型 模型大小:15.5B 训练数据量:800GB (1T token) 硬件资源:512张 Tesla A100 训练时长:24天 # 微调模型 微调模型:ZeRO-3 硬件资源:8张 Tesla A100 训练时长:3小时 # 有用链接 https://github.com/bigc
阅读全文
摘要:# StarCoderBase HF: https://huggingface.co/bigcode/starcoderbase Training dataset: [The Stack v1.2](https://huggingface.co/datasets/bigcode/the-stack)
阅读全文