上一页 1 ··· 14 15 16 17 18 19 20 21 22 ··· 95 下一页
摘要: 模型合并是近年来兴起的一种新技术。它允许将多个模型合并成一个模型。这样做不仅可以保持质量,还可以获得额外的好处。 假设我们有几个模型:一个擅长解决数学问题,另一个擅长编写代码。在两种模型之间切换是一个很麻烦的问题,但是我们可以将它们组合起来,利用两者的优点。而且这种组合的方法可以不需要GPU来完成。 阅读全文
posted @ 2024-01-26 09:46 deephub 阅读(37) 评论(0) 推荐(0) 编辑
摘要: 为了提高性能,大型语言模型(llm)通常会通过增加模型大小的方法来实现这个目标,但是模型大小的增加也增加了计算成本和推理延迟,增加了在实际场景中部署和使用llm的障碍。 Mistral AI是一家总部位于巴黎的欧洲公司,一直在研究如何提高模型性能,同时减少为实际用例部署llm所需的计算资源。Mist 阅读全文
posted @ 2024-01-25 10:45 deephub 阅读(15) 评论(0) 推荐(0) 编辑
摘要: 我们在本地使用大模型的时候,尤其是构建RAG应用的时候,一般会有2个成熟的框架可以使用 LangChain:用开发LLM的通用框架。 LlamaIndex:专门用于构建RAG系统的框架。 选择一个框架是对于项目的后续开发是非常重要的,因为如果后续更换框架是一个非常困难的事情,所以我们这里对这两个框架 阅读全文
posted @ 2024-01-24 10:27 deephub 阅读(123) 评论(0) 推荐(0) 编辑
摘要: Mamba是LLM的一种新架构,与Transformers等传统模型相比,它能够更有效地处理长序列。就像VIT一样现在已经有人将他应用到了计算机视觉领域,让我们来看看最近的这篇论文“Vision Mamba: Efficient Visual Representation Learning with 阅读全文
posted @ 2024-01-23 09:40 deephub 阅读(331) 评论(0) 推荐(0) 编辑
摘要: 经过2023年的发展,大语言模型展示出了非常大的潜力,训练越来越大的模型成为有效性评估的一个关键指标,论文《A Comparative Analysis of Fine-Tuned LLMs and Few-Shot Learning of LLMs for Financial Sentiment 阅读全文
posted @ 2024-01-22 09:25 deephub 阅读(5) 评论(0) 推荐(0) 编辑
摘要: https://avoid.overfit.cn/post/3ca961fd21494298aac3aa6df2c3d18a 阅读全文
posted @ 2024-01-21 09:50 deephub 阅读(1) 评论(0) 推荐(0) 编辑
摘要: RAG系统检索的文档可能并不总是与用户的查询保持一致,这是一个常见的现象。当文档可能缺乏查询的完整答案或者包含冗余信息或包含不相关的细节,或者文档的顺序可能与用户的意图不一致时,就会经常出现这种情况。 本文将探讨三种有效的技术来增强基于rag的应用程序中的文档检索,通过结合这些技术,可以检索与用户查 阅读全文
posted @ 2024-01-20 09:42 deephub 阅读(39) 评论(0) 推荐(0) 编辑
摘要: 我们在以前的文章中已经介绍了使用大语言模型将非结构化文本转换为知识图谱。但是对于知识图谱的创建是一个很复杂的过程,比如需要对属性增加限制,创建符合特定主题/模式的图谱,并且有时文档非常大,无法作为单个提示处理,所以在切分后的提示中创建的图谱需要前后一致。 所以本文将介绍和比较使用LLM转换非结构化文 阅读全文
posted @ 2024-01-19 09:57 deephub 阅读(68) 评论(0) 推荐(0) 编辑
摘要: 2024年是大型语言模型(llm)的快速发展的一年,对于大语言模型的训练一个重要的方法是对齐方法,它包括使用人类样本的监督微调(SFT)和依赖人类偏好的人类反馈强化学习(RLHF)。这些方法在llm中发挥了至关重要的作用,但是对齐方法对人工注释数据有的大量需求。这一挑战使得微调成为一个充满活力的研究 阅读全文
posted @ 2024-01-18 10:04 deephub 阅读(40) 评论(0) 推荐(0) 编辑
摘要: 在2022年11月OpenAI的ChatGPT发布之后,大型语言模型(llm)变得非常受欢迎。从那时起,这些语言模型的使用得到了爆炸式的发展,这在一定程度上得益于HuggingFace的Transformer库和PyTorch等库。 计算机要处理语言,首先需要将文本转换成数字形式。这个过程由一个称为 阅读全文
posted @ 2024-01-17 10:22 deephub 阅读(15) 评论(0) 推荐(0) 编辑
上一页 1 ··· 14 15 16 17 18 19 20 21 22 ··· 95 下一页