AI应用测试及挑战

首先来分析为什么AI测评那么困难。经典的程序设计中,我们输入的是规则(程序)和需要这些规则处理的数据,系统输出的是答案。因此,经典的软件测试,我们可以通过对比答案来验证和确认程序的正确性。然而,数据驱动的AI系统,不是通过编写明确的逻辑,而是通过数据来训练程序,输入是数据和从这些数据中预期得到的答案,AI系统输出的是规则,这些规则可应用于新的数据,自动计算出答案。可见,数据驱动的AI系统是一种新的编程范式,这种编程范式给测试带来了极大的挑战。

(1)AI系统输出结果很难预测。

(2)AI系统测试通过的准则很难确定。

(3)AI 系统的输出结果随时间变化。

(4)AI系统需要更高效的持续测试方法。由于AI模型随着时间的变化,数据的演化,性能会下降,这时说明该模型已经无法拟合当前的数据,因此需要高效的测试方法,尽快训练、测评、部署更新版的模型。

(5)AI系统的性能依赖于数据。模型训练的数据规模、数据质量、数据类别的平衡性都会影响AI系统的性能。

AI测试从流程上来分大致可以分为5个步骤,分别为测试需求分析、测试环境准备、测试数据准备与验证、AI测试执行与分析、模型上线与监控。

面对智能化系统的各种不确定性,测试智能系统除了非智能系统的测试技术、方法外,也要有针对智能系统的独特的质量保证手段,具体来说包括以下几个方面:

  1. 数据收集和准备:为了测试智能系统,需要收集和准备足够的数据。数据应该涵盖各种情况和场景,以确保系统在各种情况下都能准确地运行。
  2. 功能测试:在这一步骤中,需要测试系统是否按照预期执行任务。例如,如果系统被设计用于图像分类,应该测试它是否能够正确地分类图像。
  3. 其他的测试:智能系统的性能测试、安全测试、兼容性测试等等和非智能系统的测试一样,本文就不再累述了

常出现的问题:

1,测试数据不规范,全都是单一化、类似的数据,数据分布不合理。

2,测试数据总量不足。不过这没办法,只有这么多。

3,有的结果返回两类,假设一类为正样本,另一类为负样本,测试结果中负样本一个都未被计入到正确数,即对的都是正样本 ,此时负样本缺失的情况,最终准确率结果已经不具备参考价值。

4,部分数据标注不准确,认知有些差异。

posted @   hjy1995  阅读(120)  评论(0编辑  收藏  举报
相关博文:
阅读排行:
· 阿里最新开源QwQ-32B,效果媲美deepseek-r1满血版,部署成本又又又降低了!
· 开源Multi-agent AI智能体框架aevatar.ai,欢迎大家贡献代码
· Manus重磅发布:全球首款通用AI代理技术深度解析与实战指南
· 被坑几百块钱后,我竟然真的恢复了删除的微信聊天记录!
· AI技术革命,工作效率10个最佳AI工具
点击右上角即可分享
微信分享提示