LLM相关 - 随笔分类 - hjy1995

AI领域中的RAG：软件测试人员的必备指南

摘要：RAG在软件测试中的角色在传统的软件测试中，测试人员通常会关注功能正确性、性能、安全性和用户体验。然而，当涉及到AI系统时，测试的维度变得更加复杂。RAG提供了一种结构化的方法来评估AI模型的预测能力，尤其是在处理未知数据时的表现。 RAG与软件测试人员软件测试人员需要熟悉RAG，因为这有助于他阅读全文

posted @ 2024-11-24 14:14 hjy1995 阅读(123) 评论(0) 推荐(0) 编辑

RAG场景、数据、应用难点与解决

摘要：RAG基础 RAG也在很多行业积极实践中，在【RAG行业交流中发现的一些问题和改进方法】提到了，RAG应该算是核心底层，适配各行各业，依然需要基础组件和各行业的适配应用：如果我们需要倾向于获取外部知识和重视透明度，RAG是我们的首选。另一方面，如果我们正在使用稳定的标记数据，并旨在使模型更接近特定阅读全文

posted @ 2024-11-24 14:13 hjy1995 阅读(581) 评论(0) 推荐(0) 编辑

RAG应用评估

摘要：为什么需要对RAG系统评估评估是AI开发流程中的一个非常关键步骤，它被用于检查当前策略相对于其他策略的有效性，或在当你对流程进行更改时进行评估。因此在进行LLM项目的开发和改进时，必须要有衡量其表现的方法。 LlamaIndex中RAG处理过程（图片来源：https://docs.llamaind 阅读全文

posted @ 2024-11-24 14:04 hjy1995 阅读(76) 评论(0) 推荐(0) 编辑

RAG应用

摘要：为了使计算机能够理解和处理非结构化数据（如文本，图片，视频），通常使用嵌入模型(Embedding)将非结构化数据编码为向量 [6]。可以理解为，向量就是非结构化数据的压缩。因此，在对非结构化数据进行相似性搜索、最近邻搜索(NNS, Nearest Neighbor Search)时，可以使用向量的阅读全文

posted @ 2024-11-24 14:03 hjy1995 阅读(103) 评论(0) 推荐(0) 编辑

LLM应用测试策略与方法

摘要：评估LLMs是一个复杂的过程，因为与传统软件开发不同，LLMs的结果不可预测，缺陷也无法像逻辑可以归因于特定代码块那样进行调试。LLMs是一个黑盒，具有无限可能的输入和输出。然而，这并不意味着传统软件测试中的概念不能应用于测试LLMs。单元测试构成了功能测试、性能测试和可靠性测试，它们共同构成了对阅读全文

posted @ 2024-11-24 14:01 hjy1995 阅读(79) 评论(0) 推荐(0) 编辑

AI应用测试及挑战

摘要：首先来分析为什么AI测评那么困难。经典的程序设计中，我们输入的是规则（程序）和需要这些规则处理的数据，系统输出的是答案。因此，经典的软件测试，我们可以通过对比答案来验证和确认程序的正确性。然而，数据驱动的AI系统，不是通过编写明确的逻辑，而是通过数据来训练程序，输入是数据和从这些数据中预期得到的答案阅读全文

posted @ 2024-11-24 13:59 hjy1995 阅读(114) 评论(0) 推荐(0) 编辑

向量数据库

摘要：向量数据库基本原理向量数据库的核心思想是利用向量空间模型表示数据，通过计算向量之间的相似度来检索相关数据。具体来说，向量数据库首先将数据表示为高维向量，然后利用索引结构（如二叉搜索树、KD树等）或降维方法（如局部敏感哈希算法等）实现向量的高效检索。索引构建：通过构建索引，向量数据库可以快速筛选和阅读全文

posted @ 2024-11-24 13:56 hjy1995 阅读(91) 评论(0) 推荐(0) 编辑

AI应用于软件测试

摘要：准确率虽然许多公司已经开始研究AI辅助测试，并有许多工具问世，但它们都有一个显著问题：准确性。由于现有的AI学习算法本身的限制，学习并生成的测试用例和验证条件的准确率都不是非常高。我曾参加过几个大会，其中一些中国一线互联网厂商分享的AI辅助测试的准确率仅略高于80％，不到90％。这种准确率在金融等阅读全文

posted @ 2024-11-24 13:46 hjy1995 阅读(75) 评论(0) 推荐(0) 编辑

Prompt指南

摘要：Prompt编写原则创建 prompt 的两个原则：编写清晰、具体的指令；使用分隔符清晰地表示输入的不同部分，分隔符可以是：```，”“，<>，:，<tag> </tag>等；寻求结构化的输出，输出可以是 JSON, HTML 等格式；要求模型检查是否满足条件，如果任务包含不一定能满足的假阅读全文

posted @ 2024-09-27 15:27 hjy1995 阅读(153) 评论(0) 推荐(0) 编辑

ragas测试

摘要：ragas可支持使用不同的 embedding 和 llm 进行计算，默认使用的是 OpenAIEmbeddings(model="text-embedding-ada-002")、ChatOpenAI(model="gpt-3.5-turbo")。目前国内支持的大模型有：百度千帆、通义千问、百川阅读全文

posted @ 2024-08-20 20:22 hjy1995 阅读(366) 评论(0) 推荐(0) 编辑

LLM的API KEY获取和测试

摘要：openai openai国内不能访问，只能通过第三方渠道访问，以F2API为例获取API KEY地址：https://f2api.com/login 测试API KEY是否可用 from langchain_openai import ChatOpenAI llm = ChatOpenAI( o 阅读全文

posted @ 2024-08-20 20:20 hjy1995 阅读(321) 评论(0) 推荐(0) 编辑

RAG评估-ragas

摘要：RAG效果评估的必要性可以有方向的优化RAG。通过评估出的各指标，可以知道RAG改善的方向和参数调整的程度。 RAG评估方法人工评估邀请专家或人工评估员对RAG生成的结果进行评估。他们可以根据预先定义的标准对生成的答案进行质量评估，如准确性、连贯性、相关性等。这种评估方法可以提供高质量的反馈阅读全文

posted @ 2024-08-20 20:15 hjy1995 阅读(817) 评论(0) 推荐(0) 编辑

yjh1995

随笔分类 - LLM相关

公告

搜索

常用链接

随笔分类

随笔档案

阅读排行榜

评论排行榜

推荐排行榜

最新评论