随笔分类 -  LLM相关

摘要:RAG在软件测试中的角色 在传统的软件测试中,测试人员通常会关注功能正确性、性能、安全性和用户体验。然而,当涉及到AI系统时,测试的维度变得更加复杂。RAG提供了一种结构化的方法来评估AI模型的预测能力,尤其是在处理未知数据时的表现。 RAG与软件测试人员 软件测试人员需要熟悉RAG,因为这有助于他 阅读全文
posted @ 2024-11-24 14:14 hjy1995 阅读(123) 评论(0) 推荐(0) 编辑
摘要:RAG基础 RAG也在很多行业积极实践中,在【RAG行业交流中发现的一些问题和改进方法】提到了,RAG应该算是核心底层,适配各行各业,依然需要基础组件和各行业的适配应用: 如果我们需要倾向于获取外部知识和重视透明度,RAG是我们的首选。另一方面,如果我们正在使用稳定的标记数据,并旨在使模型更接近特定 阅读全文
posted @ 2024-11-24 14:13 hjy1995 阅读(581) 评论(0) 推荐(0) 编辑
摘要:为什么需要对RAG系统评估 评估是AI开发流程中的一个非常关键步骤,它被用于检查当前策略相对于其他策略的有效性,或在当你对流程进行更改时进行评估。因此在进行LLM项目的开发和改进时,必须要有衡量其表现的方法。 LlamaIndex中RAG处理过程(图片来源:https://docs.llamaind 阅读全文
posted @ 2024-11-24 14:04 hjy1995 阅读(76) 评论(0) 推荐(0) 编辑
摘要:为了使计算机能够理解和处理非结构化数据(如文本,图片,视频),通常使用嵌入模型(Embedding)将非结构化数据编码为向量 [6]。可以理解为,向量就是非结构化数据的压缩。因此,在对非结构化数据进行相似性搜索、最近邻搜索(NNS, Nearest Neighbor Search)时,可以使用向量的 阅读全文
posted @ 2024-11-24 14:03 hjy1995 阅读(103) 评论(0) 推荐(0) 编辑
摘要:评估LLMs是一个复杂的过程,因为与传统软件开发不同,LLMs的结果不可预测,缺陷也无法像逻辑可以归因于特定代码块那样进行调试。LLMs是一个黑盒,具有无限可能的输入和输出。 然而,这并不意味着传统软件测试中的概念不能应用于测试LLMs。单元测试构成了功能测试、性能测试和可靠性测试,它们共同构成了对 阅读全文
posted @ 2024-11-24 14:01 hjy1995 阅读(79) 评论(0) 推荐(0) 编辑
摘要:首先来分析为什么AI测评那么困难。经典的程序设计中,我们输入的是规则(程序)和需要这些规则处理的数据,系统输出的是答案。因此,经典的软件测试,我们可以通过对比答案来验证和确认程序的正确性。然而,数据驱动的AI系统,不是通过编写明确的逻辑,而是通过数据来训练程序,输入是数据和从这些数据中预期得到的答案 阅读全文
posted @ 2024-11-24 13:59 hjy1995 阅读(114) 评论(0) 推荐(0) 编辑
摘要:向量数据库基本原理 向量数据库的核心思想是利用向量空间模型表示数据,通过计算向量之间的相似度来检索相关数据。具体来说,向量数据库首先将数据表示为高维向量,然后利用索引结构(如二叉搜索树、KD树等)或降维方法(如局部敏感哈希算法等)实现向量的高效检索。 索引构建:通过构建索引,向量数据库可以快速筛选和 阅读全文
posted @ 2024-11-24 13:56 hjy1995 阅读(91) 评论(0) 推荐(0) 编辑
摘要:准确率 虽然许多公司已经开始研究AI辅助测试,并有许多工具问世,但它们都有一个显著问题:准确性。由于现有的AI学习算法本身的限制,学习并生成的测试用例和验证条件的准确率都不是非常高。我曾参加过几个大会,其中一些中国一线互联网厂商分享的AI辅助测试的准确率仅略高于80%,不到90%。这种准确率在金融等 阅读全文
posted @ 2024-11-24 13:46 hjy1995 阅读(75) 评论(0) 推荐(0) 编辑
摘要:Prompt编写原则 创建 prompt 的两个原则: 编写清晰、具体的指令; 使用分隔符清晰地表示输入的不同部分,分隔符可以是:```,”“,<>,:,<tag> </tag>等; 寻求结构化的输出,输出可以是 JSON, HTML 等格式; 要求模型检查是否满足条件,如果任务包含不一定能满足的假 阅读全文
posted @ 2024-09-27 15:27 hjy1995 阅读(153) 评论(0) 推荐(0) 编辑
摘要:ragas可支持使用不同的 embedding 和 llm 进行计算,默认使用的是 OpenAIEmbeddings(model="text-embedding-ada-002")、ChatOpenAI(model="gpt-3.5-turbo")。 目前国内支持的大模型有:百度千帆、通义千问、百川 阅读全文
posted @ 2024-08-20 20:22 hjy1995 阅读(366) 评论(0) 推荐(0) 编辑
摘要:openai openai国内不能访问,只能通过第三方渠道访问,以F2API为例 获取API KEY地址:https://f2api.com/login 测试API KEY是否可用 from langchain_openai import ChatOpenAI llm = ChatOpenAI( o 阅读全文
posted @ 2024-08-20 20:20 hjy1995 阅读(321) 评论(0) 推荐(0) 编辑
摘要:RAG效果评估的必要性 可以有方向的优化RAG。通过评估出的各指标,可以知道RAG改善的方向和参数调整的程度。 RAG评估方法 人工评估 ​邀请专家或人工评估员对RAG生成的结果进行评估。他们可以根据预先定义的标准对生成的答案进行质量评估,如准确性、连贯性、相关性等。这种评估方法可以提供高质量的反馈 阅读全文
posted @ 2024-08-20 20:15 hjy1995 阅读(817) 评论(0) 推荐(0) 编辑

点击右上角即可分享
微信分享提示