摘要:
最近模型圈出现一条重要消息。 OpenAI 宣布,不再推荐使用 SWE-bench Verified 作为代码能力评估基准。 这一基准曾被视为衡量大模型“真实工程修复能力”的重要指标,如今被官方主动弃用。与此同时,新的 SWE-bench Pro 被建议作为替代方案。 目录 发生了什么? 问题一:测 阅读全文
posted @ 2026-02-27 11:19
霍格沃兹测试开发学社
阅读(24)
评论(0)
推荐(0)
摘要:
春节期间,国产大模型迎来密集更新。智谱发布的 GLM-5 参数规模达到 7440 亿,同时在代理编程能力测试中位列全球第一。 如果只把它当成一次“模型升级”,意义其实有限。 真正值得关注的是:当模型开始具备稳定的多步决策与工具调用能力,自动化工程体系会不会发生变化? 这篇文章从工程与测试视角,拆解 阅读全文
posted @ 2026-02-27 11:18
霍格沃兹测试开发学社
阅读(14)
评论(0)
推荐(0)
摘要:
在测试工程中,Bug 定位是最消耗脑力也最容易卡进度的环节之一。对于复杂系统,你可能要反复在日志、代码、环境和配置中穿梭,不断猜测原因、验证假设。这个阶段往往既枯燥又费时。 最近,越来越多人尝试用 AI 来辅助 Bug 定位,从最早的提示词辅助思考,到现在工具链级别的自动推理与日志解析,AI 已经从 阅读全文
posted @ 2026-02-27 11:16
霍格沃兹测试开发学社
阅读(15)
评论(0)
推荐(0)
摘要:
最近在后台,陆续有同学问我,问的几乎都是同一个问题: “浩鲸科技 这家公司,适合作为测试工作的第一站吗?” 说实话,这个问题问得很到位。比起“能不能进”,“适不适合”才是对自己负责的思考方式。 浩鲸科技不是互联网大厂,没有字节腾讯那样的光环,但在企业服务领域深耕多年。今天这篇文章,我从测试工程师的职 阅读全文
posted @ 2026-02-27 11:15
霍格沃兹测试开发学社
阅读(13)
评论(0)
推荐(0)

浙公网安备 33010602011771号