检索增强生成(Retrieval-augmented Generation,RAG)实战1-基于LlamaIndex构建第一个RAG应用
检索增强生成(Retrieval-augmented Generation,RAG)实战1-基于LlamaIndex构建第一个RAG应用
本文将介绍如何使用LlamaIndex构建一个非常简单的RAG应用。通过该案例,可以初步了解LlamaIndex构建RAG应用的大体流程。
环境准备
安装LlamaIndex
安装LlamaIndex相关包:
pip install llama-index
pip install llama-index-embeddings-huggingface
pip install llama-index-llms-huggingface
llama-index是核心包;llama-index-embeddings-huggingface允许我们使用本地的embedding模型去完成文档的切分和编码等操作;llama-index-llms-huggingface允许我们使用本地的大模型去开发RAG应用。
安装完成后,检查服务器cuda版本是否与当前安装的pytorch对应,如果不对应,需要将pytorch版本降低到≤服务器cuda版本(详细见搭建一个大模型API服务):
pip install torch==2.0.1 torchvision==0.15.2 torchaudio==2.0.2
下载embedding模型权重
使用BAAI开源的中文bge模型作为embedding模型,使用以下命令将模型权重下载到服务器:
git clone https://huggingface.co/BAAI/bge-base-zh-v1.5
下载大模型权重
使用阿里开源的通义千问大模型,使用以下命令将模型权重下载到服务器:
git clone https://www.modelscope.cn/qwen/Qwen1.5-14B-Chat.git
构建第一个RAG应用-中医临床诊疗术语证候问答
文档准备
本应用使用的文档是由国家卫生健康委员和会国家中医药管理局发布的中医临床诊疗术语 第2部分:证候。其部分内容展示如下:
3.5.5.5
湿浊蒙窍证 syndrome/pattern of dampness-turbidity clouding orifices
因湿浊壅盛,上蒙清窍所致。临床以头重闷胀,眩晕欲仆,恶心,呕吐唾沫,胸闷,舌苔白厚或垢腻,脉濡缓或滑,可伴见脑鸣、耳胀,听音不真,或眼球震颤,视物模糊,眼前有灰黄色暗影遮挡,或鼻塞、涕浊,不闻香臭等为特征的证候。
3.5.5.6
湿浊上泛证 syndrome/pattern of dampness-turbidity flooding in the upper
湿浊蒙上,泌别失职证
湿浊蒙上证
因湿浊内蕴,邪犯清空,泌别失职所致。临床以头晕作胀,神志昏蒙、恍惚,恶心、呕吐,面色晦滞,少尿或无尿,舌质淡,舌苔厚浊,脉沉缓,可伴见脘腹闷胀,不思饮食,皮肤干燥、瘙痒等为特征的证候。
3.5.5.7
湿浊冲心证 syndrome/pattern of dampness-turbidity attacking heart
因湿浊内蕴,壅阻心脉,上攻冲心,壅闭心神所致。临床以胸膺憋闷,心悸、怔忡,或神志恍惚,甚则昏昧,言语时或错乱,舌苔厚腻,脉弦或缓,可伴见心胸痹痛,面色晦滞,呕吐、不食等为特征的证候。
将中医临床诊疗术语证候.txt放入项目根目录下的document文件夹中。
导入所需的包
import logging
import sys
import torch
from llama_index.core import PromptTemplate, Settings, SimpleDirectoryReader, VectorStoreIndex, load_index_from_storage, \
StorageContext, QueryBundle
from llama_index.core.schema import MetadataMode
from llama_index.embeddings.huggingface import HuggingFaceEmbedding
from llama_index.llms.huggingface import HuggingFaceLLM
from llama_index.core.node_parser import SentenceSplitter
定义日志配置
logging.basicConfig(stream=sys.stdout, level=logging.INFO)
logging.getLogger().addHandler(logging.StreamHandler(stream=sys.stdout))
如果想看到更多的日志输出,将level的级别改为logging.DEBUG。
定义System Prompt
SYSTEM_PROMPT = """You are a helpful AI assistant."""
query_wrapper_prompt = PromptTemplate(
"[INST]<<SYS>>\n" + SYSTEM_PROMPT + "<</SYS>>\n\n{query_str}[/INST] "
)
使用llama-index-llms-huggingface构建本地大模型
llm = HuggingFaceLLM(
context_window=4096,
max_new_tokens=2048,
generate_kwargs={"temperature": 0.0, "do_sample": False},
query_wrapper_prompt=query_wrapper_prompt,
tokenizer_name='/yldm0226/models/Qwen1.5-14B-Chat',
model_name='/yldm0226/models/Qwen1.5-14B-Chat',
device_map="auto",
model_kwargs={"torch_dtype": torch.float16},
)
Settings.llm = llm
tokenizer_name和model_name后面的路径为前面下载的大模型权重的存储路径。
使用llama-index-embeddings-huggingface构建本地embedding模型
Settings.embed_model = HuggingFaceEmbedding(
model_name="/yldm0226/RAG/BAAI/bge-base-zh-v1.5"
)
model_name是前面下载的embedding模型权重的存储路径。
读取文档
documents = SimpleDirectoryReader("document").load_data()
对文档进行切分,将切分后的片段转化为embedding向量,构建向量索引
index = VectorStoreIndex.from_documents(documents, transformations=[SentenceSplitter(chunk_size=256)])
chunk_size可以控制切分片段的大小。
构建查询引擎
query_engine = index.as_query_engine(similarity_top_k=5)
similarity_top_k决定了我们将检索出多少个片段用于RAG。
获得答案
response = query_engine.query("不耐疲劳,口燥、咽干可能是哪些证候?")
稍作等待后,得到以下输出:
从中医的角度来看,口燥、咽干且不耐疲劳可能与以下几个证候相关:
-
津液不足证 或 津亏证:由于津液生成不足或者体内燥热导致津液耗损,表现为口眼喉鼻干燥,大便干结,小便少,舌质红干,脉细数。
-
津亏热结证:津液亏乏加上热邪内结,也可见口燥咽干,可能伴有便秘。
-
津液亏耗证 或 液干热结证:津液亏损可能导致口干、口渴,皮肤干燥,甚至影响消化功能(如大便干结)。
-
津液亏涸证:严重的津液亏损会出现口唇干燥、鼻燥、皮肤干瘪等症状。
-
燥干清窍证:长期气候干燥或环境因素导致的津液耗损,表现为口鼻咽喉干燥,眼睛干涩。
-
津伤化燥证 或 津伤燥热证:体内燥热伤津,也会有口干、舌燥、食多善饥、皮肤干燥等表现。
综合以上,这些证候都有可能涉及到口燥咽干和不耐疲劳的症状,但具体需要结合病史和全身症状来确诊。建议就诊中医师进行辨证论治。