AI时代应该写单元测试么？在放弃的边缘问GPT。

所谓 AI Native，是否意味着最终放弃人的已有经验？我在大型软件项目里做了大量的支持人工UT的工具链，同时接入AI组生成的UT来支持模块的覆盖率。在持续的搏斗中，有时候会感觉螳臂当车的无力感。这个问题我没有明确的答案，先尝试下诱导GPT回答2个灵魂拷问。

Q1：AI时代，应该放弃人工写单元测试么？全部交给GPT来写，考虑到代码量巨大的大型软件。

GPT回答：
在 AI 时代，完全放弃人工编写单元测试并不现实，但可以通过引入像 GPT 这样的工具，极大地提高单元测试的编写效率和覆盖率。以下是一些关键的考量点：

为什么不应完全放弃人工编写单元测试
    1.    业务逻辑的深度理解
单元测试的核心在于验证代码是否满足业务需求，而业务需求通常涉及复杂的上下文和隐含的约束。AI 在生成代码和测试时可能无法完全理解这些深层次的背景。
    2.    质量和准确性风险
AI 生成的测试可能会有以下问题：
    •    缺少对关键场景的覆盖。
    •    测试通过只是因为它们匹配了代码的当前行为，而非真实验证代码是否正确。
    3.    维护性与团队协作
    •    人工编写的测试更能体现开发者的意图，便于团队成员理解和维护。
    •    AI 生成的代码如果缺少适当的注释和解释，可能会增加调试成本。

AI 编写单元测试的价值
    1.    提升测试覆盖率
AI 可以快速生成针对大量代码分支和边界条件的测试，帮助补充遗漏的用例。
    2.    初步测试草稿
AI 可生成测试模板或基础用例，开发者在此基础上稍作修改即可，大幅减少重复劳动。
    3.    代码重构和遗留代码
在处理历史代码或代码重构时，AI 可快速生成回归测试用例，防止重构导致功能回退。

如何平衡人工与 AI
    1.    人类负责核心逻辑、AI负责补充覆盖
    •    人工编写关键测试用例，特别是复杂业务场景和边界条件。
    •    AI 用于生成大批量的基础测试用例，如常见输入输出、异常情况。
    2.    结合代码审查机制
    •    所有 AI 生成的测试需要经过人工审查，确保其逻辑正确且符合业务需求。
    •    测试结果分析可以借助静态分析工具来验证覆盖率和潜在问题。
    3.    制定标准化流程
建立统一的测试生成与验证流程，包括使用 AI 生成代码后的人工审查、与 CI/CD 工具的集成等。

在大型软件项目中的实践建议
    1.    引入 GPT 辅助工具
使用 GPT 自动生成单元测试框架和测试样例，例如为每个函数生成测试用例，覆盖正常输入和异常输入。
    2.    集成覆盖率分析工具
结合覆盖率工具（如 gcov 或 lcov），确保 AI 生成的测试能够覆盖尽可能多的代码分支。
    3.    持续改进模型与工具
结合团队的反馈，定制和优化生成的测试模板，使之更符合具体项目需求。
    4.    专注于高价值部分
针对业务逻辑复杂的模块，仍需人工精心编写测试；对于工具类或数据处理类模块，可以更多依赖 AI。

结论

AI 是一个强大的辅助工具，可以显著减轻开发者的测试编写负担，特别是在代码量巨大的大型软件项目中。然而，完全依赖 AI 编写单元测试可能无法满足质量和业务需求。最佳实践是通过人机协作，将 AI 生成测试用例作为基础，由开发者进行审查和完善，从而兼顾效率和质量。

Q2: 但是，当功能代码频繁变更，代码量巨大的时候，研发非常抗拒主动写UT，是否全面转向AI生成UT更合适。

GPT回答：

在代码频繁变更且代码量巨大的情况下，研发团队对编写单元测试的抗拒确实可以通过引入 AI 自动生成单元测试来缓解压力。全面转向 AI 生成 UT 是否合适需要结合具体的开发场景、团队文化以及软件的质量要求来权衡。以下是更深入的分析：

AI 全面生成 UT 的优点
    1.    减轻研发的心理负担
编写单元测试是许多开发者觉得枯燥但又必需的工作，使用 AI 自动生成 UT 可以释放研发的精力，专注于功能开发和逻辑实现。
    2.    适应频繁的代码变更
    •    AI 可以快速生成与最新代码匹配的测试用例，帮助跟上代码迭代的速度。
    •    对于已删除或重构的代码，AI 可以自动更新或提示废弃测试用例。
    3.    提升初始覆盖率
在大规模代码库中，AI 可以快速提供高覆盖率的测试，尤其是针对基础的边界条件、异常输入等简单场景。
    4.    增强自动化和 CI/CD 效率
结合代码分析工具（如 SonarQube 或 lcov），AI 生成的测试可以直接集成到 CI/CD 管道中，确保每次提交的代码都有基本的测试保护。

AI 全面生成 UT 的潜在风险
    1.    质量与准确性问题
    •    AI 生成的 UT 更倾向于“守护当前代码行为”，但未必能反映业务的正确性。
    •    如果代码逻辑本身有问题，AI 可能生成符合错误逻辑的测试用例，从而掩盖真实缺陷。
    2.    对开发者的业务认知减弱
单元测试本身是研发深入理解代码和业务的重要途径。依赖 AI 生成 UT 可能导致开发者对代码和需求的理解变得浅薄，增加后期维护成本。
    3.    AI 的边界
    •    无法处理复杂的业务场景或跨模块的逻辑约束。
    •    无法识别隐含需求和代码中的潜在问题。
    4.    技术债务堆积
长期依赖 AI 生成测试，可能导致测试冗余、不一致，后期清理成本较高。

如何让全面转向 AI 更加合理
    1.    从基础功能模块开始实践
    •    对于工具类、数据处理类等业务逻辑简单的模块，全面使用 AI 自动生成 UT。
    •    对于核心业务逻辑模块，采用“AI 辅助 + 人工优化”的方式，确保关键路径的测试可靠性。
    2.    结合变更检测与测试生成
使用工具（如 git diff + 静态代码分析）检测代码变更点，并仅生成与变更代码相关的单元测试，降低生成测试的冗余和过度成本。
    3.    自动评估 AI 生成的 UT 质量
    •    集成覆盖率分析工具，评估生成的测试是否达到预期覆盖率。
    •    定期运行测试失败统计，分析 AI 生成的 UT 在稳定性上的表现。
    4.    优化生成规则
定制 AI 生成 UT 的模板和策略，例如：
    •    生成包含输入边界值、异常路径的测试。
    •    强化对接口约定、异常处理逻辑的覆盖。
    5.    引导研发逐步参与优化
    •    鼓励开发者审查 AI 生成的 UT 并提出改进意见，而非完全放弃对 UT 的责任。
    •    提供工具辅助开发者快速修正和调整测试用例。

长期策略：让 AI 与开发者形成协同关系
    1.    文化建设
强调 UT 的目标是保护研发自身利益，AI 是工具，开发者是质量的最终守护者。
    2.    持续自动化
将 AI 生成的测试集成到持续交付流程，确保生成测试不仅快速，而且在每次代码变更后都能自动更新。
    3.    逐步推进测试责任“解耦”
将单元测试作为一个“自动化的服务”，由 AI 提供初始实现和持续维护；开发者专注于指导 AI 改进测试覆盖的方向。

结论

对于频繁变更且代码量巨大的项目，全面转向 AI 生成 UT 是一种合理的策略，但需要确保关键路径和业务逻辑由人工审查和优化。AI 可以承担 UT 编写的大部分基础工作，降低开发者的抗拒心理，同时通过工具化和流程化的方式，让测试质量与开发效率之间达到平衡。

posted @ 2024-12-13 20:42 ffl 阅读(359) 评论(0) 收藏举报

刷新页面返回顶部

Feilong's Blog

捕捉极限技术，关注微博 @幻灰龙保持改变的能力，探索无尽的前沿

AI时代应该写单元测试么？在放弃的边缘问GPT。

Q1：AI时代，应该放弃人工写单元测试么？全部交给GPT来写，考虑到代码量巨大的大型软件。

Q2: 但是，当功能代码频繁变更，代码量巨大的时候，研发非常抗拒主动写UT，是否全面转向AI生成UT更合适。

公告

Feilong's Blog

捕捉极限技术，关注微博 @幻灰龙 保持改变的能力，探索无尽的前沿

AI时代应该写单元测试么？在放弃的边缘问GPT。

Q1：AI时代，应该放弃人工写单元测试么？全部交给GPT来写，考虑到代码量巨大的大型软件。

Q2: 但是，当功能代码频繁变更，代码量巨大的时候，研发非常抗拒主动写UT，是否全面转向AI生成UT更合适。

公告

捕捉极限技术，关注微博 @幻灰龙保持改变的能力，探索无尽的前沿