摘要: 原文地址 https://www.cnblogs.com/imyalost/p/16320776.html 阅读全文
posted @ 2024-11-24 14:40 hjy1995 阅读(5) 评论(0) 推荐(0) 编辑
摘要: 全链路压测? 基于实际的生产业务场景和系统环境,模拟海量的用户请求和数据,对整个业务链路进行各种场景的测试验证,持续发现并进行瓶颈调优,保障系统稳定性的一个技术工程。 针对业务场景越发复杂化、海量数据冲击,发现并解决整个业务系统的可用性、扩展性以及容错性的过程。 核心流程 全链路压测实施的核心流程如 阅读全文
posted @ 2024-11-24 14:39 hjy1995 阅读(10) 评论(0) 推荐(0) 编辑
摘要: 定义: TPS:单位时间(每秒)处理的事务数。 并发数:同一时刻系统同时处理的请求数(相对并发,绝对并发)。 线程数:一般情况下,指是的虚拟用户数。 1 两个场景 场景一:登录接口能够承受秒级 1000 并发。 那么,这里的并发是TPS?还是并发数?还是线程数?如果是你,你会如何解读呢?说说个人的理 阅读全文
posted @ 2024-11-24 14:34 hjy1995 阅读(37) 评论(0) 推荐(0) 编辑
摘要: 线程数、并发用户数 线程数: 主流的性能测试工具(Jmeter/Loadrunner),以线程式并发的方式,启动复数个线程,让每个线程独立向服务器端发出请求,帮我们达成“短时间内向服务器发送大量请求”的任务。 有时候我们在描述性能测试过程时,会将这个客户端的独立线程数表述为“并发数”。 注意: 这里 阅读全文
posted @ 2024-11-24 14:26 hjy1995 阅读(167) 评论(0) 推荐(0) 编辑
摘要: RAG在软件测试中的角色 在传统的软件测试中,测试人员通常会关注功能正确性、性能、安全性和用户体验。然而,当涉及到AI系统时,测试的维度变得更加复杂。RAG提供了一种结构化的方法来评估AI模型的预测能力,尤其是在处理未知数据时的表现。 RAG与软件测试人员 软件测试人员需要熟悉RAG,因为这有助于他 阅读全文
posted @ 2024-11-24 14:14 hjy1995 阅读(41) 评论(0) 推荐(0) 编辑
摘要: RAG基础 RAG也在很多行业积极实践中,在【RAG行业交流中发现的一些问题和改进方法】提到了,RAG应该算是核心底层,适配各行各业,依然需要基础组件和各行业的适配应用: 如果我们需要倾向于获取外部知识和重视透明度,RAG是我们的首选。另一方面,如果我们正在使用稳定的标记数据,并旨在使模型更接近特定 阅读全文
posted @ 2024-11-24 14:13 hjy1995 阅读(254) 评论(0) 推荐(0) 编辑
摘要: 为什么需要对RAG系统评估 评估是AI开发流程中的一个非常关键步骤,它被用于检查当前策略相对于其他策略的有效性,或在当你对流程进行更改时进行评估。因此在进行LLM项目的开发和改进时,必须要有衡量其表现的方法。 LlamaIndex中RAG处理过程(图片来源:https://docs.llamaind 阅读全文
posted @ 2024-11-24 14:04 hjy1995 阅读(22) 评论(0) 推荐(0) 编辑
摘要: 为了使计算机能够理解和处理非结构化数据(如文本,图片,视频),通常使用嵌入模型(Embedding)将非结构化数据编码为向量 [6]。可以理解为,向量就是非结构化数据的压缩。因此,在对非结构化数据进行相似性搜索、最近邻搜索(NNS, Nearest Neighbor Search)时,可以使用向量的 阅读全文
posted @ 2024-11-24 14:03 hjy1995 阅读(19) 评论(0) 推荐(0) 编辑
摘要: 评估LLMs是一个复杂的过程,因为与传统软件开发不同,LLMs的结果不可预测,缺陷也无法像逻辑可以归因于特定代码块那样进行调试。LLMs是一个黑盒,具有无限可能的输入和输出。 然而,这并不意味着传统软件测试中的概念不能应用于测试LLMs。单元测试构成了功能测试、性能测试和可靠性测试,它们共同构成了对 阅读全文
posted @ 2024-11-24 14:01 hjy1995 阅读(36) 评论(0) 推荐(0) 编辑
摘要: 首先来分析为什么AI测评那么困难。经典的程序设计中,我们输入的是规则(程序)和需要这些规则处理的数据,系统输出的是答案。因此,经典的软件测试,我们可以通过对比答案来验证和确认程序的正确性。然而,数据驱动的AI系统,不是通过编写明确的逻辑,而是通过数据来训练程序,输入是数据和从这些数据中预期得到的答案 阅读全文
posted @ 2024-11-24 13:59 hjy1995 阅读(19) 评论(0) 推荐(0) 编辑