刷新
【202406】预训练器的数据指南:衡量数据年龄、领域覆盖、质量和毒性的影响

- 值得注意的内容: - 数据年龄问题,表面上越新越好,训练数据比评估数据旧就会导致性能下降。 - 但是,评估的内容是具有时间标签的,理所应当当然需要更新的模型来理解。 - 时间退化概念,本文之前就有人提出,2022年。 - 领域覆盖:多样性很重要。 - 质量和毒性的影响... ...

SgLang代码细读-3.Cache

博主头像 Sglang代码细读的最后一篇, 主要集中分析了框架中的二级显存池, cache复用相关的ChunkCache/RadixCache, 以及PD分离后KVCache是如何进行传输的 这三部分内容 ...

hexo基于TianliGPT使用免费的Spark-Lite制作AI摘要

博主头像 本人博客 https://www.konoxin.top/ 前提环境 Vercel账号 GitHub仓库 域名 大家也可以根据代码修改自己想要的效果 ✒️申请星火Spark-Lite 打开讯飞星火大模型API-大模型API-大模型接口-科大讯飞 下滑到如下,选择Spark-Lite,点击立即调用 会 ...

RocketMQ客户端是如何感知Broker节点的?

博主头像 本文已收录在Github,关注我,紧跟本系列专栏文章,咱们下篇再续! 魔都架构师 | 全网30W技术追随者 大厂分布式系统/数据中台实战专家 主导交易系统百万级流量调优 & 车联网平台架构 AIGC应用开发先行者 | 区块链落地实践者 以技术驱动创新,我们的征途是改变世 ...

Trae开发工具中配置Qwen3-235B-A22B

博主头像 Cline 是一款用于智能编程的 VSCode 插件,您可以集成阿里云百炼提供的通义千问或 DeepSeek 模型,完成复杂的编程任务。先看最终效果: Qwen3-235B-A22B 是阿里巴巴通义实验室发布的 Qwen3 系列旗舰级开源大模型,采用 混合专家架构(Mixture-of-Expert ...

补全llm知识体系的地基:Transformer

博主头像 Transformer模型结构: 示例:输入“我爱你”,输出“I love you”第一步:分词,将序列变为一个个token组成的向量,形状:[seq_len,]。本步涉及tokenizer相关技术 第二步:input embedding,将分词结果中的每一个token,编码成一个固定维数的embe ...

EKO 智能体SDK架构介绍

博主头像 EKO 智能体SDK架构的概述EKO 智能体SDK(Eko框架)是由清华大学、复旦大学和斯坦福大学联合开发的智能体开发框架,旨在通过自然语言与简单代码快速构建“虚拟员工”,实现自动化任务执行。以下是其核心功能与技术特点的详细解析:核心功能与应用场景自动化任务执行数据收集与分析:例如,自动抓取雅虎财经 ...

大模型评估排障指南 | 关于可复现性

博主头像 这是 大模型评估排障指南 系列文章的第三篇,敬请关注系列文章: 关于推理 关于 \(\LaTeX\) 公式解析 关于可复现性 假设你读了一篇最近的新模型技术报告,然后心血来潮想要在本机复现他们的结果,却发现根本没法复现,这是为什么? 让我们来探讨一下原因。 代码库不同 要想复现论文或报告的评估得分并 ...

中国版 Cursor”CodeBuddy 初体验:Java 后端轻松上手 Vue3+Node.js,从零打造 AI 工具导航站

博主头像 本文已收录在Github,关注我,紧跟本系列专栏文章,咱们下篇再续! 魔都架构师 | 全网30W技术追随者 大厂分布式系统/数据中台实战专家 主导交易系统百万级流量调优 & 车联网平台架构 AIGC应用开发先行者 | 区块链落地实践者 以技术驱动创新,我们的征途是改变世 ...

JSDoc:不仅仅是JavaScript的JavaDoc

博主头像 本文已收录在Github,关注我,紧跟本系列专栏文章,咱们下篇再续! 魔都架构师 | 全网30W技术追随者 大厂分布式系统/数据中台实战专家 主导交易系统百万级流量调优 & 车联网平台架构 AIGC应用开发先行者 | 区块链落地实践者 以技术驱动创新,我们的征途是改变世 ...

AI大模型基本原理

博主头像 AI大模型基本原理 什么是AI? AI大模型能做什么 大模型现阶段落地情况综述 怎样寻找企业中大模型落地场景 大模型的通俗原理 大模型技术的短板 大模型应用技术架构 DeepSeek本地部署和应用 什么是 AI? 「AI is bullshit。深蓝没用任何 AI 算法,就是硬件穷举棋步。」 思考: ...

<1···192021···29>