摘要: 针对前面RAG测试的长文本问题,我又增加了长文本测试(代码同前): context_test_documents = [ # 文档1: AI发展史 (约2500 tokens) """ 人工智能的发展历程可以追溯到20世纪50年代。1950年,图灵提出著名的"图灵测试",这被认为是人工智能研究的开端 阅读全文
posted @ 2024-11-20 15:52 bonelee 阅读(30) 评论(0) 推荐(0) 编辑
摘要: 前文使用了jina ai v2的模型,接下来我们看看v3版本late chunking的实际效果,为了快速,我直接使用官方的api! # import requests # url = 'https://api.jina.ai/v1/embeddings' headers = { 'Content- 阅读全文
posted @ 2024-11-20 15:50 bonelee 阅读(44) 评论(0) 推荐(0) 编辑
摘要: 代码: import os import json import torch import numpy as np import spacy from spacy.tokens import Doc from spacy.language import Language import transfo 阅读全文
posted @ 2024-11-20 11:58 bonelee 阅读(72) 评论(1) 推荐(0) 编辑