RAG中late chunking的实验效果测试(续2)

针对前面RAG测试的长文本问题,我又增加了长文本测试(代码同前):

context_test_documents = [
    # 文档1: AI发展史 (约2500 tokens)
    """
    人工智能的发展历程可以追溯到20世纪50年代。1950年,图灵提出著名的"图灵测试",这被认为是人工智能研究的开端。
    在接下来的几十年里,AI经历了几次重大的发展浪潮和低谷期。第一次AI热潮出现在60年代,科学家们开发出能够解决数学问题
    和下棋的程序,让人们对AI充满期待。然而到了70年代,由于技术限制,许多承诺无法实现,导致第一次AI寒冬的到来。

    80年代,专家系统的出现带来了第二次AI热潮。这些系统能够模拟专家的决策过程,在医疗诊断、地质勘探等领域取得了实际
    应用。但是,专家系统的维护成本高昂,且难以适应新情况,最终导致了第二次AI寒冬。真正的突破出现在21世纪初,得益于
    三个关键因素:大数据的积累、计算能力的提升和深度学习算法的革新。

    2012年,深度学习在图像识别领域取得突破性进展,AlexNet在ImageNet竞赛中以显著优势获胜,掀起了深度学习革命。
    2016年,AlphaGo战胜李世石,展示了AI在复杂策略游戏中的潜力。2018年,BERT模型的发布revolutionized自然语言处理
    领域。2022年,ChatGPT的推出更是让大语言模型成为全球焦点。
    
    人工智能(AI)的发展历程充满了创新与挑战。以下是AI发展史的详细补充:
    20世纪50年代至70年代:起步与第一次寒冬
    1950年:阿兰·图灵提出“图灵测试”,定义了机器智能的基础。
    1956年:达特茅斯会议被认为是AI作为学科的正式诞生。约翰·麦卡锡等人在此提出了“人工智能”一词。
    1960年代:AI研究者开发了能够解决数学问题和下棋的程序,如Samuel的跳棋程序和Newell与Simon的逻辑理论家。
    1970年代:由于计算能力和数据的限制,AI未能实现许多预期,导致第一次AI寒冬的到来。
    1980年代:专家系统与第二次寒冬
    1980年代初:专家系统的兴起,这些系统能够在特定领域模拟专家的决策过程,在医疗、金融等领域得到了应用。
    1987年:由于专家系统的开发和维护成本高昂,且难以适应变化,AI领域经历了第二次寒冬。
    1990年代至21世纪初:复苏与新突破
    1990年代:AI技术在语音识别、机器翻译等领域取得进展。
    1997年:IBM的深蓝(Deep Blue)战胜国际象棋冠军加里·卡斯帕罗夫,标志着AI在博弈论中的重要里程碑。
    21世纪初:随着互联网的发展,大数据的积累为AI提供了丰富的训练数据。
    21世纪:深度学习的崛起
    2012年:AlexNet在ImageNet大赛中获胜,深度学习在图像识别领域取得突破。
    2014年:生成对抗网络(GANs)由Ian Goodfellow提出,推动了生成模型的发展。
    2016年:AlphaGo战胜李世石,展示了AI在复杂策略游戏中的潜力。
    2018年:BERT(Bidirectional Encoder Representations from Transformers)模型问世,革新了自然语言处理领域。
    2020年代:大型语言模型如GPT-3和ChatGPT的推出,使得AI在文本生成、对话系统等方面取得显著进展。
    未来展望
    持续改进:随着计算能力的提升和算法的优化,AI将在医疗、交通、教育等领域发挥更大作用。
    伦理与安全:AI的发展也带来了隐私、安全和伦理方面的挑战,需要全球合作来制定相关标准和法规。
    AI的发展史是技术进步与社会需求相互作用的结果,未来的AI将更加智能和人性化,为人类社会带来更多的便利和挑战。
    """,

    # 文档2: 气候变化研究 (约2500 tokens)
    """
    气候变化是21世纪人类面临的最大挑战之一。根据IPCC(政府间气候变化专门委员会)的研究,全球平均气温自工业革命以来
    已上升约1.1°C。这种升温趋势正在加速,如果不采取积极措施,到本世纪末温度可能上升超过3°C。

    温室气体排放是导致全球变暖的主要原因。自1750年以来,大气中二氧化碳浓度上升了约50%,从280ppm上升到现在的
    420ppm。甲烷等其他温室气体的浓度也在显著上升。这些气体会在大气层中形成温室效应,导致地球表面温度升高。

    气候变化带来的影响是全方位的:极端天气事件增加、海平面上升、生物多样性减少、农业生产受影响、疾病传播范围扩大等。
    例如,2023年全球经历了有记录以来最热的一年,多个地区遭遇破纪录的热浪。北极地区升温速度是全球平均水平的两倍,
    导致永久冻土融化,释放更多温室气体。
    
    气候变化的科学基础
    温室效应原理:

    温室气体(如二氧化碳、甲烷和氧化亚氮)吸收和再辐射地球表面的热量,形成温室效应。这种效应是维持地球适宜居住温度的关键,但人类活动导致的温室气体过量排放正在增强这一效应。
    气候模型:

    科学家使用复杂的气候模型来模拟和预测气候变化。这些模型考虑了大气、海洋、陆地和冰川之间的相互作用,帮助预测未来的气候模式。
    气候变化的影响
    生态系统和生物多样性:

    许多物种正面临栖息地丧失和生态系统变化的威胁。珊瑚礁白化、森林火灾频发等现象已显现出气候变化对自然环境的破坏性影响。
    农业和粮食安全:

    气温升高和降水模式的改变影响全球农业生产力,可能导致粮食短缺和价格波动,尤其是在依赖雨养农业的发展中国家。
    人类健康:

    气候变化加剧了热浪、洪水和干旱等极端天气事件的频率和强度,进而影响人类健康,增加了心血管疾病、呼吸道疾病以及传染病的风险。
    应对气候变化的策略
    减缓措施:

    通过减少温室气体排放来减缓气候变化。具体措施包括提高能源效率、发展可再生能源、改进工业流程以及推广碳捕集与封存技术。
    适应策略:

    适应气候变化带来的影响,如建设海堤以防止海平面上升、改良作物品种以应对气候变化带来的农业挑战。
    国际合作:

    气候变化是全球性问题,需要国际社会的共同努力。巴黎协定是全球应对气候变化的框架,各国承诺在温控目标下减少排放并增加对气候变化的适应能力。
    未来研究方向
    气候变化的社会经济影响:

    研究气候变化对经济增长、社会稳定和人类迁徙的潜在影响,以制定更有效的政策响应。
    技术创新:

    开发新技术以提高减排和适应能力,包括新型能源技术、气候工程以及智能农业技术。
    公众意识和教育:

    提高公众对气候变化的认识和理解,推动个人和社区采取积极行动。
    气候变化研究不断发展,需要科学家、政策制定者和公众的共同参与,以应对这一全球性挑战。通过多方面的努力,可以在减缓气候变化影响的同时,促进可持续发展。
    """,

    # 文档3: 量子计算发展 (约2500 tokens)
    """
    量子计算代表了计算技术的一次革命性飞跃。传统计算机使用比特(bit)存储和处理信息,而量子计算机使用量子比特
    (qubit)。量子比特可以同时处于多个状态的叠加态,这使得量子计算机在某些特定问题上具有指数级的优势。

    2019年,谷歌宣布实现"量子优越性",其53量子比特的处理器用200秒完成了经典超级计算机需要1万年才能完成的计算。
    虽然这一说法存在争议,但它标志着量子计算研究的重要里程碑。IBM、微软、Intel等科技巨头也都投入大量资源开发量子
    计算技术。

    量子计算面临的主要挑战包括:量子退相干、量子纠错、扩展性等。量子态极其脆弱,外界干扰会导致信息丢失。目前的量子
    计算机需要在接近绝对零度的环境下运行,这极大限制了其实用性。科学家们正在研究各种解决方案,包括拓扑量子计算等新
    方法。
    
    量子计算的基本原理
    量子叠加和纠缠:

    量子比特(qubit)不仅可以表示0和1,还可以处于0和1的叠加态。这种特性使得量子计算机能够并行处理大量信息。
    量子纠缠是另一种独特的量子特性,使得两个或多个量子比特的状态相互依赖,即使它们相距甚远。
    量子门和电路:

    量子计算通过量子门(如Hadamard门、CNOT门等)对量子比特进行操作,这些门可以构建出复杂的量子电路来执行特定任务。
    量子计算的应用领域
    密码学:

    量子计算可以有效破解传统加密算法(如RSA),因为它能够快速分解大整数。Shor算法是一个典型例子。
    量子密钥分发(QKD)利用量子力学的原理提供安全的通信方式。
    优化问题:

    量子计算在解决组合优化问题上有潜在优势,如旅行商问题、供应链优化等。
    材料科学和化学:

    量子计算能够模拟复杂分子和化学反应,这在新材料和药物开发中具有重要意义。
    量子计算的挑战
    量子退相干:

    量子态容易受外界干扰而失去其相干性,导致计算错误。量子退相干是当前量子计算发展的主要障碍之一。
    量子纠错:

    由于量子态的脆弱性,量子纠错技术至关重要。当前的研究集中在开发更高效的纠错码和容错量子计算。
    扩展性和实用性:

    构建大规模、实用的量子计算机需要克服许多工程挑战,包括如何在合理的温度和环境下稳定运行。
    量子计算的未来发展
    拓扑量子计算:

    通过利用拓扑态的稳定性,拓扑量子计算有望提高量子比特的稳定性和纠错能力。
    量子计算与人工智能结合:

    量子计算可能在加速机器学习算法、优化神经网络架构等方面发挥作用。
    国际合作与标准化:

    量子计算的研究需要全球合作,以便制定标准和协议,推动技术的广泛应用。
    量子计算虽然仍处于早期发展阶段,但其潜力巨大,可能在未来彻底改变计算机科学及相关领域。持续的研究和技术突破将推动量子计算向实用化迈进。
    """
]

test_queries = [
    # AI相关查询
    "深度学习在AI发展史上的重要突破是什么",
    "AI经历了几次发展浪潮和低谷",
    "ChatGPT之前有哪些重要的AI里程碑",
    "为什么专家系统最终没有取得成功",
    "深度学习的发展历程?",
    "AI未来如何发展?",

    # 气候变化相关查询
    "全球变暖的主要原因是什么",
    "气候变化带来了哪些具体影响",
    "IPCC对未来气温变化的预测是什么",
    "北极地区的气候变化有什么特点",
    "气候变化对人类的经济有什么影响?",
    "有什么措施可以缓解气候变化吗?",

    # 量子计算相关查询
    "量子计算相对传统计算的优势在哪里",
    "量子优越性是什么意思",
    "量子计算目前面临哪些主要挑战",
    "主要的量子计算研究机构有哪些",
    "量子纠错是什么?",
    "量子门有哪些?",
]

  

结果如下:回答不好的我用颜色标记了下!!!

****************************************************************************************

===== 开始处理所有文档 =====

总共处理了 3 个文档,产生了 18 个文本片段


查询: 深度学习在AI发展史上的重要突破是什么
--------------------------------------------------

=== Late Chunking方法的top 3 结果 ===

相似度 0.6627 (文档 #2, 片段 #13):
内容: 量子计算代表了计算技术的一次革命性飞跃。传统计算机使用比特(bit)存储和处理信息,而量子计算机使用量子比特 (qubit)。量子比特可以同时处于多个状态的叠加态,这使得量子计算机在某些特定问题上具有指数级的优势。2019年,谷歌宣布实现"量子优越性",其53量子比特的处理器用200秒完成了经典超级计算机需要1万年才能完成的计算。虽然这一说法存在争议,但它标志着量子计算研究的重要里程碑。IBM、微软、Intel等科技巨头也都投入大量资源开发量子 计算技术。

相似度 0.6550 (文档 #0, 片段 #1):
内容: 但是,专家系统的维护成本高昂,且难以适应新情况,最终导致了第二次AI寒冬。真正的突破出现在21世纪初,得益于 三个关键因素:大数据的积累、计算能力的提升和深度学习算法的革新。2012年,深度学习在图像识别领域取得突破性进展,AlexNet在ImageNet竞赛中以显著优势获胜,掀起了深度学习革命。2016年,AlphaGo战胜李世石,展示了AI在复杂策略游戏中的潜力。2018年,BERT模型的发布revolutionized自然语言处理 领域。

相似度 0.6440 (文档 #0, 片段 #5):
内容: 2018年:BERT(Bidirectional Encoder Representations from Transformers)模型问世,革新了自然语言处理领域。2020年代:大型语言模型如GPT-3和ChatGPT的推出,使得AI在文本生成、对话系统等方面取得显著进展。未来展望 持续改进:随着计算能力的提升和算法的优化,AI将在医疗、交通、教育等领域发挥更大作用。伦理与安全:AI的发展也带来了隐私、安全和伦理方面的挑战,需要全球合作来制定相关标准和法规。

=== 传统Embedding方法的top 3 结果 ===

相似度 0.6930 (文档 #0, 片段 #1):
内容: 但是,专家系统的维护成本高昂,且难以适应新情况,最终导致了第二次AI寒冬。真正的突破出现在21世纪初,得益于 三个关键因素:大数据的积累、计算能力的提升和深度学习算法的革新。2012年,深度学习在图像识别领域取得突破性进展,AlexNet在ImageNet竞赛中以显著优势获胜,掀起了深度学习革命。2016年,AlphaGo战胜李世石,展示了AI在复杂策略游戏中的潜力。2018年,BERT模型的发布revolutionized自然语言处理 领域。

相似度 0.6789 (文档 #0, 片段 #2):
内容: 2022年,ChatGPT的推出更是让大语言模型成为全球焦点。人工智能(AI)的发展历程充满了创新与挑战。以下是AI发展史的详细补充: 20世纪50年代至70年代:起步与第一次寒冬 1950年:阿兰·图灵提出“图灵测试”,定义了机器智能的基础。1956年:达特茅斯会议被认为是AI作为学科的正式诞生。约翰·麦卡锡等人在此提出了“人工智能”一词。1960年代:AI研究者开发了能够解决数学问题和下棋的程序,如Samuel的跳棋程序和Newell与Simon的逻辑理论家。

相似度 0.6646 (文档 #0, 片段 #4):
内容: 1997年:IBM的深蓝(Deep Blue)战胜国际象棋冠军加里·卡斯帕罗夫,标志着AI在博弈论中的重要里程碑。21世纪初:随着互联网的发展,大数据的积累为AI提供了丰富的训练数据。21世纪:深度学习的崛起 2012年:AlexNet在ImageNet大赛中获胜,深度学习在图像识别领域取得突破。2014年:生成对抗网络(GANs)由Ian Goodfellow提出,推动了生成模型的发展。2016年:AlphaGo战胜李世石,展示了AI在复杂策略游戏中的潜力。


查询: AI经历了几次发展浪潮和低谷
--------------------------------------------------

=== Late Chunking方法的top 3 结果 ===

相似度 0.7904 (文档 #0, 片段 #0):
内容: 人工智能的发展历程可以追溯到20世纪50年代。1950年,图灵提出著名的"图灵测试",这被认为是人工智能研究的开端。在接下来的几十年里,AI经历了几次重大的发展浪潮和低谷期。第一次AI热潮出现在60年代,科学家们开发出能够解决数学问题 和下棋的程序,让人们对AI充满期待。然而到了70年代,由于技术限制,许多承诺无法实现,导致第一次AI寒冬的到来。80年代,专家系统的出现带来了第二次AI热潮。这些系统能够模拟专家的决策过程,在医疗诊断、地质勘探等领域取得了实际 应用。

相似度 0.7871 (文档 #0, 片段 #3):
内容: 1970年代:由于计算能力和数据的限制,AI未能实现许多预期,导致第一次AI寒冬的到来。1980年代:专家系统与第二次寒冬 1980年代初:专家系统的兴起,这些系统能够在特定领域模拟专家的决策过程,在医疗、金融等领域得到了应用。1987年:由于专家系统的开发和维护成本高昂,且难以适应变化,AI领域经历了第二次寒冬。1990年代至21世纪初:复苏与新突破 1990年代:AI技术在语音识别、机器翻译等领域取得进展。

相似度 0.7670 (文档 #0, 片段 #1):
内容: 但是,专家系统的维护成本高昂,且难以适应新情况,最终导致了第二次AI寒冬。真正的突破出现在21世纪初,得益于 三个关键因素:大数据的积累、计算能力的提升和深度学习算法的革新。2012年,深度学习在图像识别领域取得突破性进展,AlexNet在ImageNet竞赛中以显著优势获胜,掀起了深度学习革命。2016年,AlphaGo战胜李世石,展示了AI在复杂策略游戏中的潜力。2018年,BERT模型的发布revolutionized自然语言处理 领域。

=== 传统Embedding方法的top 3 结果 ===

相似度 0.7825 (文档 #0, 片段 #0):
内容: 人工智能的发展历程可以追溯到20世纪50年代。1950年,图灵提出著名的"图灵测试",这被认为是人工智能研究的开端。在接下来的几十年里,AI经历了几次重大的发展浪潮和低谷期。第一次AI热潮出现在60年代,科学家们开发出能够解决数学问题 和下棋的程序,让人们对AI充满期待。然而到了70年代,由于技术限制,许多承诺无法实现,导致第一次AI寒冬的到来。80年代,专家系统的出现带来了第二次AI热潮。这些系统能够模拟专家的决策过程,在医疗诊断、地质勘探等领域取得了实际 应用。

相似度 0.7405 (文档 #0, 片段 #3):
内容: 1970年代:由于计算能力和数据的限制,AI未能实现许多预期,导致第一次AI寒冬的到来。1980年代:专家系统与第二次寒冬 1980年代初:专家系统的兴起,这些系统能够在特定领域模拟专家的决策过程,在医疗、金融等领域得到了应用。1987年:由于专家系统的开发和维护成本高昂,且难以适应变化,AI领域经历了第二次寒冬。1990年代至21世纪初:复苏与新突破 1990年代:AI技术在语音识别、机器翻译等领域取得进展。

相似度 0.7128 (文档 #0, 片段 #4):
内容: 1997年:IBM的深蓝(Deep Blue)战胜国际象棋冠军加里·卡斯帕罗夫,标志着AI在博弈论中的重要里程碑。21世纪初:随着互联网的发展,大数据的积累为AI提供了丰富的训练数据。21世纪:深度学习的崛起 2012年:AlexNet在ImageNet大赛中获胜,深度学习在图像识别领域取得突破。2014年:生成对抗网络(GANs)由Ian Goodfellow提出,推动了生成模型的发展。2016年:AlphaGo战胜李世石,展示了AI在复杂策略游戏中的潜力。


查询: ChatGPT之前有哪些重要的AI里程碑
--------------------------------------------------

=== Late Chunking方法的top 3 结果 ===

相似度 0.7117 (文档 #2, 片段 #13):
内容: 量子计算代表了计算技术的一次革命性飞跃。传统计算机使用比特(bit)存储和处理信息,而量子计算机使用量子比特 (qubit)。量子比特可以同时处于多个状态的叠加态,这使得量子计算机在某些特定问题上具有指数级的优势。2019年,谷歌宣布实现"量子优越性",其53量子比特的处理器用200秒完成了经典超级计算机需要1万年才能完成的计算。虽然这一说法存在争议,但它标志着量子计算研究的重要里程碑。IBM、微软、Intel等科技巨头也都投入大量资源开发量子 计算技术。

相似度 0.6917 (文档 #0, 片段 #5):
内容: 2018年:BERT(Bidirectional Encoder Representations from Transformers)模型问世,革新了自然语言处理领域。2020年代:大型语言模型如GPT-3和ChatGPT的推出,使得AI在文本生成、对话系统等方面取得显著进展。未来展望 持续改进:随着计算能力的提升和算法的优化,AI将在医疗、交通、教育等领域发挥更大作用。伦理与安全:AI的发展也带来了隐私、安全和伦理方面的挑战,需要全球合作来制定相关标准和法规。

相似度 0.6904 (文档 #2, 片段 #14):
内容: 量子计算面临的主要挑战包括:量子退相干、量子纠错、扩展性等。量子态极其脆弱,外界干扰会导致信息丢失。目前的量子 计算机需要在接近绝对零度的环境下运行,这极大限制了其实用性。科学家们正在研究各种解决方案,包括拓扑量子计算等新 方法。量子计算的基本原理 量子叠加和纠缠: 量子比特(qubit)不仅可以表示0和1,还可以处于0和1的叠加态。这种特性使得量子计算机能够并行处理大量信息。量子纠缠是另一种独特的量子特性,使得两个或多个量子比特的状态相互依赖,即使它们相距甚远。

=== 传统Embedding方法的top 3 结果 ===

相似度 0.8142 (文档 #0, 片段 #2):
内容: 2022年,ChatGPT的推出更是让大语言模型成为全球焦点。人工智能(AI)的发展历程充满了创新与挑战。以下是AI发展史的详细补充: 20世纪50年代至70年代:起步与第一次寒冬 1950年:阿兰·图灵提出“图灵测试”,定义了机器智能的基础。1956年:达特茅斯会议被认为是AI作为学科的正式诞生。约翰·麦卡锡等人在此提出了“人工智能”一词。1960年代:AI研究者开发了能够解决数学问题和下棋的程序,如Samuel的跳棋程序和Newell与Simon的逻辑理论家。

相似度 0.7641 (文档 #0, 片段 #5):
内容: 2018年:BERT(Bidirectional Encoder Representations from Transformers)模型问世,革新了自然语言处理领域。2020年代:大型语言模型如GPT-3和ChatGPT的推出,使得AI在文本生成、对话系统等方面取得显著进展。未来展望 持续改进:随着计算能力的提升和算法的优化,AI将在医疗、交通、教育等领域发挥更大作用。伦理与安全:AI的发展也带来了隐私、安全和伦理方面的挑战,需要全球合作来制定相关标准和法规。

相似度 0.6913 (文档 #0, 片段 #4):
内容: 1997年:IBM的深蓝(Deep Blue)战胜国际象棋冠军加里·卡斯帕罗夫,标志着AI在博弈论中的重要里程碑。21世纪初:随着互联网的发展,大数据的积累为AI提供了丰富的训练数据。21世纪:深度学习的崛起 2012年:AlexNet在ImageNet大赛中获胜,深度学习在图像识别领域取得突破。2014年:生成对抗网络(GANs)由Ian Goodfellow提出,推动了生成模型的发展。2016年:AlphaGo战胜李世石,展示了AI在复杂策略游戏中的潜力。


查询: 为什么专家系统最终没有取得成功
--------------------------------------------------

=== Late Chunking方法的top 3 结果 ===

相似度 0.4477 (文档 #0, 片段 #3):
内容: 1970年代:由于计算能力和数据的限制,AI未能实现许多预期,导致第一次AI寒冬的到来。1980年代:专家系统与第二次寒冬 1980年代初:专家系统的兴起,这些系统能够在特定领域模拟专家的决策过程,在医疗、金融等领域得到了应用。1987年:由于专家系统的开发和维护成本高昂,且难以适应变化,AI领域经历了第二次寒冬。1990年代至21世纪初:复苏与新突破 1990年代:AI技术在语音识别、机器翻译等领域取得进展。

相似度 0.4366 (文档 #2, 片段 #14):
内容: 量子计算面临的主要挑战包括:量子退相干、量子纠错、扩展性等。量子态极其脆弱,外界干扰会导致信息丢失。目前的量子 计算机需要在接近绝对零度的环境下运行,这极大限制了其实用性。科学家们正在研究各种解决方案,包括拓扑量子计算等新 方法。量子计算的基本原理 量子叠加和纠缠: 量子比特(qubit)不仅可以表示0和1,还可以处于0和1的叠加态。这种特性使得量子计算机能够并行处理大量信息。量子纠缠是另一种独特的量子特性,使得两个或多个量子比特的状态相互依赖,即使它们相距甚远。

相似度 0.4363 (文档 #0, 片段 #1):
内容: 但是,专家系统的维护成本高昂,且难以适应新情况,最终导致了第二次AI寒冬。真正的突破出现在21世纪初,得益于 三个关键因素:大数据的积累、计算能力的提升和深度学习算法的革新。2012年,深度学习在图像识别领域取得突破性进展,AlexNet在ImageNet竞赛中以显著优势获胜,掀起了深度学习革命。2016年,AlphaGo战胜李世石,展示了AI在复杂策略游戏中的潜力。2018年,BERT模型的发布revolutionized自然语言处理 领域。

=== 传统Embedding方法的top 3 结果 ===

相似度 0.5350 (文档 #0, 片段 #1):
内容: 但是,专家系统的维护成本高昂,且难以适应新情况,最终导致了第二次AI寒冬。真正的突破出现在21世纪初,得益于 三个关键因素:大数据的积累、计算能力的提升和深度学习算法的革新。2012年,深度学习在图像识别领域取得突破性进展,AlexNet在ImageNet竞赛中以显著优势获胜,掀起了深度学习革命。2016年,AlphaGo战胜李世石,展示了AI在复杂策略游戏中的潜力。2018年,BERT模型的发布revolutionized自然语言处理 领域。

相似度 0.5340 (文档 #0, 片段 #3):
内容: 1970年代:由于计算能力和数据的限制,AI未能实现许多预期,导致第一次AI寒冬的到来。1980年代:专家系统与第二次寒冬 1980年代初:专家系统的兴起,这些系统能够在特定领域模拟专家的决策过程,在医疗、金融等领域得到了应用。1987年:由于专家系统的开发和维护成本高昂,且难以适应变化,AI领域经历了第二次寒冬。1990年代至21世纪初:复苏与新突破 1990年代:AI技术在语音识别、机器翻译等领域取得进展。

相似度 0.5080 (文档 #0, 片段 #0):
内容: 人工智能的发展历程可以追溯到20世纪50年代。1950年,图灵提出著名的"图灵测试",这被认为是人工智能研究的开端。在接下来的几十年里,AI经历了几次重大的发展浪潮和低谷期。第一次AI热潮出现在60年代,科学家们开发出能够解决数学问题 和下棋的程序,让人们对AI充满期待。然而到了70年代,由于技术限制,许多承诺无法实现,导致第一次AI寒冬的到来。80年代,专家系统的出现带来了第二次AI热潮。这些系统能够模拟专家的决策过程,在医疗诊断、地质勘探等领域取得了实际 应用。


查询: 深度学习的发展历程?
--------------------------------------------------

=== Late Chunking方法的top 3 结果 ===

相似度 0.6118 (文档 #0, 片段 #1):
内容: 但是,专家系统的维护成本高昂,且难以适应新情况,最终导致了第二次AI寒冬。真正的突破出现在21世纪初,得益于 三个关键因素:大数据的积累、计算能力的提升和深度学习算法的革新。2012年,深度学习在图像识别领域取得突破性进展,AlexNet在ImageNet竞赛中以显著优势获胜,掀起了深度学习革命。2016年,AlphaGo战胜李世石,展示了AI在复杂策略游戏中的潜力。2018年,BERT模型的发布revolutionized自然语言处理 领域。

相似度 0.5994 (文档 #0, 片段 #0):
内容: 人工智能的发展历程可以追溯到20世纪50年代。1950年,图灵提出著名的"图灵测试",这被认为是人工智能研究的开端。在接下来的几十年里,AI经历了几次重大的发展浪潮和低谷期。第一次AI热潮出现在60年代,科学家们开发出能够解决数学问题 和下棋的程序,让人们对AI充满期待。然而到了70年代,由于技术限制,许多承诺无法实现,导致第一次AI寒冬的到来。80年代,专家系统的出现带来了第二次AI热潮。这些系统能够模拟专家的决策过程,在医疗诊断、地质勘探等领域取得了实际 应用。

相似度 0.5987 (文档 #0, 片段 #3):
内容: 1970年代:由于计算能力和数据的限制,AI未能实现许多预期,导致第一次AI寒冬的到来。1980年代:专家系统与第二次寒冬 1980年代初:专家系统的兴起,这些系统能够在特定领域模拟专家的决策过程,在医疗、金融等领域得到了应用。1987年:由于专家系统的开发和维护成本高昂,且难以适应变化,AI领域经历了第二次寒冬。1990年代至21世纪初:复苏与新突破 1990年代:AI技术在语音识别、机器翻译等领域取得进展。

=== 传统Embedding方法的top 3 结果 ===

相似度 0.6047 (文档 #0, 片段 #0):
内容: 人工智能的发展历程可以追溯到20世纪50年代。1950年,图灵提出著名的"图灵测试",这被认为是人工智能研究的开端。在接下来的几十年里,AI经历了几次重大的发展浪潮和低谷期。第一次AI热潮出现在60年代,科学家们开发出能够解决数学问题 和下棋的程序,让人们对AI充满期待。然而到了70年代,由于技术限制,许多承诺无法实现,导致第一次AI寒冬的到来。80年代,专家系统的出现带来了第二次AI热潮。这些系统能够模拟专家的决策过程,在医疗诊断、地质勘探等领域取得了实际 应用。 ==》可以看到传统模型更加精准!

相似度 0.5808 (文档 #0, 片段 #2):
内容: 2022年,ChatGPT的推出更是让大语言模型成为全球焦点。人工智能(AI)的发展历程充满了创新与挑战。以下是AI发展史的详细补充: 20世纪50年代至70年代:起步与第一次寒冬 1950年:阿兰·图灵提出“图灵测试”,定义了机器智能的基础。1956年:达特茅斯会议被认为是AI作为学科的正式诞生。约翰·麦卡锡等人在此提出了“人工智能”一词。1960年代:AI研究者开发了能够解决数学问题和下棋的程序,如Samuel的跳棋程序和Newell与Simon的逻辑理论家。

相似度 0.5716 (文档 #0, 片段 #1):
内容: 但是,专家系统的维护成本高昂,且难以适应新情况,最终导致了第二次AI寒冬。真正的突破出现在21世纪初,得益于 三个关键因素:大数据的积累、计算能力的提升和深度学习算法的革新。2012年,深度学习在图像识别领域取得突破性进展,AlexNet在ImageNet竞赛中以显著优势获胜,掀起了深度学习革命。2016年,AlphaGo战胜李世石,展示了AI在复杂策略游戏中的潜力。2018年,BERT模型的发布revolutionized自然语言处理 领域。

。。。

查询: 气候变化对人类的经济有什么影响?
--------------------------------------------------

=== Late Chunking方法的top 3 结果 ===

相似度 0.6247 (文档 #1, 片段 #12):
内容: 通过多方面的努力,可以在减缓气候变化影响的同时,促进可持续发展。

相似度 0.6212 (文档 #1, 片段 #9):
内容: 气候模型: 科学家使用复杂的气候模型来模拟和预测气候变化。这些模型考虑了大气、海洋、陆地和冰川之间的相互作用,帮助预测未来的气候模式。气候变化的影响 生态系统和生物多样性: 许多物种正面临栖息地丧失和生态系统变化的威胁。珊瑚礁白化、森林火灾频发等现象已显现出气候变化对自然环境的破坏性影响。农业和粮食安全: 气温升高和降水模式的改变影响全球农业生产力,可能导致粮食短缺和价格波动,尤其是在依赖雨养农业的发展中国家。

相似度 0.6145 (文档 #1, 片段 #10):
内容: 人类健康: 气候变化加剧了热浪、洪水和干旱等极端天气事件的频率和强度,进而影响人类健康,增加了心血管疾病、呼吸道疾病以及传染病的风险。应对气候变化的策略 减缓措施: 通过减少温室气体排放来减缓气候变化。具体措施包括提高能源效率、发展可再生能源、改进工业流程以及推广碳捕集与封存技术。适应策略: 适应气候变化带来的影响,如建设海堤以防止海平面上升、改良作物品种以应对气候变化带来的农业挑战。国际合作: 气候变化是全球性问题,需要国际社会的共同努力。

=== 传统Embedding方法的top 3 结果 ===

相似度 0.7966 (文档 #1, 片段 #8):
内容: 气候变化带来的影响是全方位的:极端天气事件增加、海平面上升、生物多样性减少、农业生产受影响、疾病传播范围扩大等。例如,2023年全球经历了有记录以来最热的一年,多个地区遭遇破纪录的热浪。北极地区升温速度是全球平均水平的两倍, 导致永久冻土融化,释放更多温室气体。气候变化的科学基础 温室效应原理: 温室气体(如二氧化碳、甲烷和氧化亚氮)吸收和再辐射地球表面的热量,形成温室效应。这种效应是维持地球适宜居住温度的关键,但人类活动导致的温室气体过量排放正在增强这一效应。==》回答更加精准!

相似度 0.7838 (文档 #1, 片段 #9):
内容: 气候模型: 科学家使用复杂的气候模型来模拟和预测气候变化。这些模型考虑了大气、海洋、陆地和冰川之间的相互作用,帮助预测未来的气候模式。气候变化的影响 生态系统和生物多样性: 许多物种正面临栖息地丧失和生态系统变化的威胁。珊瑚礁白化、森林火灾频发等现象已显现出气候变化对自然环境的破坏性影响。农业和粮食安全: 气温升高和降水模式的改变影响全球农业生产力,可能导致粮食短缺和价格波动,尤其是在依赖雨养农业的发展中国家。

相似度 0.7433 (文档 #1, 片段 #10):
内容: 人类健康: 气候变化加剧了热浪、洪水和干旱等极端天气事件的频率和强度,进而影响人类健康,增加了心血管疾病、呼吸道疾病以及传染病的风险。应对气候变化的策略 减缓措施: 通过减少温室气体排放来减缓气候变化。具体措施包括提高能源效率、发展可再生能源、改进工业流程以及推广碳捕集与封存技术。适应策略: 适应气候变化带来的影响,如建设海堤以防止海平面上升、改良作物品种以应对气候变化带来的农业挑战。国际合作: 气候变化是全球性问题,需要国际社会的共同努力。


查询: 量子计算相对传统计算的优势在哪里
--------------------------------------------------

=== Late Chunking方法的top 3 结果 ===

相似度 0.5997 (文档 #2, 片段 #17):
内容: 量子计算的未来发展 拓扑量子计算: 通过利用拓扑态的稳定性,拓扑量子计算有望提高量子比特的稳定性和纠错能力。量子计算与人工智能结合: 量子计算可能在加速机器学习算法、优化神经网络架构等方面发挥作用。国际合作与标准化: 量子计算的研究需要全球合作,以便制定标准和协议,推动技术的广泛应用。量子计算虽然仍处于早期发展阶段,但其潜力巨大,可能在未来彻底改变计算机科学及相关领域。持续的研究和技术突破将推动量子计算向实用化迈进。

相似度 0.5989 (文档 #2, 片段 #15):
内容: 量子门和电路: 量子计算通过量子门(如Hadamard门、CNOT门等)对量子比特进行操作,这些门可以构建出复杂的量子电路来执行特定任务。量子计算的应用领域 密码学: 量子计算可以有效破解传统加密算法(如RSA),因为它能够快速分解大整数。Shor算法是一个典型例子。量子密钥分发(QKD)利用量子力学的原理提供安全的通信方式。优化问题: 量子计算在解决组合优化问题上有潜在优势,如旅行商问题、供应链优化等。

相似度 0.5987 (文档 #2, 片段 #14):
内容: 量子计算面临的主要挑战包括:量子退相干、量子纠错、扩展性等。量子态极其脆弱,外界干扰会导致信息丢失。目前的量子 计算机需要在接近绝对零度的环境下运行,这极大限制了其实用性。科学家们正在研究各种解决方案,包括拓扑量子计算等新 方法。量子计算的基本原理 量子叠加和纠缠: 量子比特(qubit)不仅可以表示0和1,还可以处于0和1的叠加态。这种特性使得量子计算机能够并行处理大量信息。量子纠缠是另一种独特的量子特性,使得两个或多个量子比特的状态相互依赖,即使它们相距甚远。

=== 传统Embedding方法的top 3 结果 ===

相似度 0.7406 (文档 #2, 片段 #13):
内容: 量子计算代表了计算技术的一次革命性飞跃。传统计算机使用比特(bit)存储和处理信息,而量子计算机使用量子比特 (qubit)。量子比特可以同时处于多个状态的叠加态,这使得量子计算机在某些特定问题上具有指数级的优势。2019年,谷歌宣布实现"量子优越性",其53量子比特的处理器用200秒完成了经典超级计算机需要1万年才能完成的计算。虽然这一说法存在争议,但它标志着量子计算研究的重要里程碑。IBM、微软、Intel等科技巨头也都投入大量资源开发量子 计算技术。

相似度 0.7265 (文档 #2, 片段 #15):
内容: 量子门和电路: 量子计算通过量子门(如Hadamard门、CNOT门等)对量子比特进行操作,这些门可以构建出复杂的量子电路来执行特定任务。量子计算的应用领域 密码学: 量子计算可以有效破解传统加密算法(如RSA),因为它能够快速分解大整数。Shor算法是一个典型例子。量子密钥分发(QKD)利用量子力学的原理提供安全的通信方式。优化问题: 量子计算在解决组合优化问题上有潜在优势,如旅行商问题、供应链优化等。

相似度 0.7235 (文档 #2, 片段 #17):
内容: 量子计算的未来发展 拓扑量子计算: 通过利用拓扑态的稳定性,拓扑量子计算有望提高量子比特的稳定性和纠错能力。量子计算与人工智能结合: 量子计算可能在加速机器学习算法、优化神经网络架构等方面发挥作用。国际合作与标准化: 量子计算的研究需要全球合作,以便制定标准和协议,推动技术的广泛应用。量子计算虽然仍处于早期发展阶段,但其潜力巨大,可能在未来彻底改变计算机科学及相关领域。持续的研究和技术突破将推动量子计算向实用化迈进。


查询: 量子优越性是什么意思
--------------------------------------------------

=== Late Chunking方法的top 3 结果 ===

相似度 0.4139 (文档 #2, 片段 #14):
内容: 量子计算面临的主要挑战包括:量子退相干、量子纠错、扩展性等。量子态极其脆弱,外界干扰会导致信息丢失。目前的量子 计算机需要在接近绝对零度的环境下运行,这极大限制了其实用性。科学家们正在研究各种解决方案,包括拓扑量子计算等新 方法。量子计算的基本原理 量子叠加和纠缠: 量子比特(qubit)不仅可以表示0和1,还可以处于0和1的叠加态。这种特性使得量子计算机能够并行处理大量信息。量子纠缠是另一种独特的量子特性,使得两个或多个量子比特的状态相互依赖,即使它们相距甚远。

相似度 0.4072 (文档 #2, 片段 #13):
内容: 量子计算代表了计算技术的一次革命性飞跃。传统计算机使用比特(bit)存储和处理信息,而量子计算机使用量子比特 (qubit)。量子比特可以同时处于多个状态的叠加态,这使得量子计算机在某些特定问题上具有指数级的优势。2019年,谷歌宣布实现"量子优越性",其53量子比特的处理器用200秒完成了经典超级计算机需要1万年才能完成的计算。虽然这一说法存在争议,但它标志着量子计算研究的重要里程碑。IBM、微软、Intel等科技巨头也都投入大量资源开发量子 计算技术。

相似度 0.3967 (文档 #2, 片段 #17):
内容: 量子计算的未来发展 拓扑量子计算: 通过利用拓扑态的稳定性,拓扑量子计算有望提高量子比特的稳定性和纠错能力。量子计算与人工智能结合: 量子计算可能在加速机器学习算法、优化神经网络架构等方面发挥作用。国际合作与标准化: 量子计算的研究需要全球合作,以便制定标准和协议,推动技术的广泛应用。量子计算虽然仍处于早期发展阶段,但其潜力巨大,可能在未来彻底改变计算机科学及相关领域。持续的研究和技术突破将推动量子计算向实用化迈进。

=== 传统Embedding方法的top 3 结果 ===

相似度 0.6484 (文档 #2, 片段 #13):
内容: 量子计算代表了计算技术的一次革命性飞跃。传统计算机使用比特(bit)存储和处理信息,而量子计算机使用量子比特 (qubit)。量子比特可以同时处于多个状态的叠加态,这使得量子计算机在某些特定问题上具有指数级的优势。2019年,谷歌宣布实现"量子优越性",其53量子比特的处理器用200秒完成了经典超级计算机需要1万年才能完成的计算。虽然这一说法存在争议,但它标志着量子计算研究的重要里程碑。IBM、微软、Intel等科技巨头也都投入大量资源开发量子 计算技术。

相似度 0.5266 (文档 #2, 片段 #14):
内容: 量子计算面临的主要挑战包括:量子退相干、量子纠错、扩展性等。量子态极其脆弱,外界干扰会导致信息丢失。目前的量子 计算机需要在接近绝对零度的环境下运行,这极大限制了其实用性。科学家们正在研究各种解决方案,包括拓扑量子计算等新 方法。量子计算的基本原理 量子叠加和纠缠: 量子比特(qubit)不仅可以表示0和1,还可以处于0和1的叠加态。这种特性使得量子计算机能够并行处理大量信息。量子纠缠是另一种独特的量子特性,使得两个或多个量子比特的状态相互依赖,即使它们相距甚远。

相似度 0.5183 (文档 #2, 片段 #15):
内容: 量子门和电路: 量子计算通过量子门(如Hadamard门、CNOT门等)对量子比特进行操作,这些门可以构建出复杂的量子电路来执行特定任务。量子计算的应用领域 密码学: 量子计算可以有效破解传统加密算法(如RSA),因为它能够快速分解大整数。Shor算法是一个典型例子。量子密钥分发(QKD)利用量子力学的原理提供安全的通信方式。优化问题: 量子计算在解决组合优化问题上有潜在优势,如旅行商问题、供应链优化等。

 

...

 

直观的感受是传统方法更不容易出错!late chunking的优势没有多少感觉。

如果是传统bge模型做embedding RAG检索,试了下!看起来,bge的结果也还不错!资源占用方面,我下载jina v3的embedding版本到本地,cpu占用和内存,和bge差不多。

不折腾了,暂时还是用bge进行RAG检索吧!!!

posted @ 2024-11-20 15:52  bonelee  阅读(30)  评论(0编辑  收藏  举报