10 2023 档案

摘要:检索增强生成(RAG)已成为增强大型语言模型(LLM)能力的一种强大技术。通过从知识来源中检索相关信息并将其纳入提示,RAG为LLM提供了有用的上下文,以产生基于事实的输出。 但是现有的单代理RAG系统面临着检索效率低下、高延迟和次优提示的挑战。这些问题在限制了真实世界的RAG性能。多代理体系结构提 阅读全文
posted @ 2023-10-31 09:12 deephub 阅读(78) 评论(0) 推荐(0) 编辑
摘要:强化学习(RL)是一种机器学习方法,它允许代理通过试错来学习如何在环境中表现。行为主体因采取行动导致预期结果而获得奖励,因采取行动导致预期结果而受到惩罚。随着时间的推移,代理学会采取行动,使其预期回报最大化。 RL代理通常使用马尔可夫决策过程(MDP)进行训练,马尔可夫决策过程是为顺序决策问题建模的 阅读全文
posted @ 2023-10-30 09:25 deephub 阅读(40) 评论(0) 推荐(0) 编辑
摘要:YOLO是You Only Look Once(你只看一次)的缩写,它具有识别图像中的物体的非凡能力,在日常应用中会经常被使用。所以在本文中,我们将介绍如何使用FastAPI的集成YOLOv5,这样我们可以将YOLOv5做为API对外提供服务。 Python有几个web框架,其中最突出的两个是Fla 阅读全文
posted @ 2023-10-29 09:35 deephub 阅读(98) 评论(0) 推荐(0) 编辑
摘要:时间序列分析在金融和医疗保健等领域至关重要,在这些领域,理解随时间变化的数据模式至关重要。在本文中,我们将介绍四个主要的Python库——statmodels、tslearn、tssearch和tsfresh——每个库都针对时间序列分析的不同方面进行了定制。这些库为从预测到模式识别的任务提供了强大的 阅读全文
posted @ 2023-10-28 09:53 deephub 阅读(250) 评论(0) 推荐(0) 编辑
摘要:llm对文本指令非常有用,但是如果我们尝试向模型提供某种文本格式的表格数据和该表格上的问题,LLM更有可能产生不准确的响应。 在这篇文章中,我们将介绍微软发表的一篇研究论文,“Table-GPT: Table- tuning GPT for Diverse Table Tasks”,研究人员介绍了T 阅读全文
posted @ 2023-10-26 10:01 deephub 阅读(237) 评论(0) 推荐(0) 编辑
摘要:2022年的LoRA提高了微调效率,它在模型的顶部添加低秩(即小)张量进行微调。模型的参数被冻结。只有添加的张量的参数是可训练的。 与标准微调相比,它大大减少了可训练参数的数量。例如,对于Llama 27b, LoRA通常训练400万到5000万个参数,这比标准微调则训练70亿个参数药效的多。还可以 阅读全文
posted @ 2023-10-25 09:47 deephub 阅读(24) 评论(0) 推荐(0) 编辑
摘要:LlamaIndex是一个方便的工具,它充当自定义数据和大型语言模型(llm)(如GPT-4)之间的桥梁,大型语言模型模型功能强大,能够理解类似人类的文本。LlamaIndex都可以轻松地将数据与这些智能机器进行对话。这种桥梁建设使你的数据更易于访问,为更智能的应用程序和工作流铺平了道路。 Llam 阅读全文
posted @ 2023-10-24 10:54 deephub 阅读(674) 评论(0) 推荐(0) 编辑
摘要:可视化是一种强大的工具,用于以直观和可理解的方式传达复杂的数据模式和关系。它们在数据分析中发挥着至关重要的作用,提供了通常难以从原始数据或传统数字表示中辨别出来的见解。 可视化对于理解复杂的数据模式和关系至关重要,我们将介绍11个最重要和必须知道的图表,这些图表有助于揭示数据中的信息,使复杂数据更加 阅读全文
posted @ 2023-10-23 09:49 deephub 阅读(118) 评论(0) 推荐(0) 编辑
摘要:LLM的火爆之后,英伟达(NVIDIA)也发布了其相关的推理加速引擎TensorRT-LLM。TensorRT是nvidia家的一款高性能深度学习推理SDK。此SDK包含深度学习推理优化器和运行环境,可为深度学习推理应用提供低延迟和高吞吐量。而TensorRT-LLM是在TensorRT基础上针对大 阅读全文
posted @ 2023-10-22 09:22 deephub 阅读(153) 评论(0) 推荐(0) 编辑
摘要:PyTorch Geometric (PyG)是构建图神经网络模型和实验各种图卷积的主要工具。在本文中我们将通过链接预测来对其进行介绍。 链接预测答了一个问题:哪两个节点应该相互链接?我们将通过执行“转换分割”,为建模准备数据。为批处理准备专用的图数据加载器。在Torch Geometric中构建一 阅读全文
posted @ 2023-10-20 09:40 deephub 阅读(57) 评论(0) 推荐(0) 编辑
摘要:在快速发展的自然语言处理领域,Transformers 已经成为主导模型,在广泛的序列建模任务中表现出卓越的性能,包括词性标记、命名实体识别和分块。在Transformers之前,条件随机场(CRFs)是序列建模的首选工具,特别是线性链CRFs,它将序列建模为有向图,而CRFs更普遍地可以用于任意图 阅读全文
posted @ 2023-10-19 11:22 deephub 阅读(135) 评论(0) 推荐(0) 编辑
摘要:这是谷歌在9月最近发布的一种新的架构 TSMixer: An all-MLP architecture for time series forecasting ,TSMixer是一种先进的多元模型,利用线性模型特征,在长期预测基准上表现良好。据我们所知,TSMixer是第一个在长期预测基准上表现与最 阅读全文
posted @ 2023-10-18 09:42 deephub 阅读(109) 评论(0) 推荐(0) 编辑
摘要:自从扩散模型发布以来,GAN的关注度和论文是越来越少了,但是它们里面的一些思路还是值得我们了解和学习。所以本文我们来使用Pytorch 来实现SN-GAN 谱归一化生成对抗网络是一种生成对抗网络,它使用谱归一化技术来稳定鉴别器的训练。谱归一化是一种权值归一化技术,它约束了鉴别器中每一层的谱范数。这有 阅读全文
posted @ 2023-10-17 12:30 deephub 阅读(69) 评论(0) 推荐(0) 编辑
摘要:我们将使用轮廓分数和一些距离指标来执行时间序列聚类实验,并且进行可视化 让我们看看下面的时间序列: 如果沿着y轴移动序列添加随机噪声,并随机化这些序列,那么它们几乎无法分辨,如下图所示-现在很难将时间序列列分组为簇: 上面的图表是使用以下脚本创建的: https://avoid.overfit.cn 阅读全文
posted @ 2023-10-16 09:36 deephub 阅读(9) 评论(0) 推荐(0) 编辑
摘要:大型语言模型(llm)在今年发展迅速,随着新一代模型不断地被开发,研究人员和工程师了解最新进展变得非常重要。本文总结9-10月期间发布了一些重要的LLM论文。 这些论文涵盖了一系列语言模型的主题,从模型优化和缩放到推理、基准测试和增强性能。最后部分讨论了有关安全训练并确保其行为保持有益的论文。 优化 阅读全文
posted @ 2023-10-15 10:01 deephub 阅读(114) 评论(0) 推荐(0) 编辑
摘要:Pandas是一种流行的用于数据操作的Python库,它提供了一种称为“向量化”的强大技术可以有效地将操作应用于整个列或数据系列,从而消除了显式循环的需要。在本文中,我们将探讨什么是向量化,以及它如何简化数据分析任务。 https://avoid.overfit.cn/post/ae2f68c9b2 阅读全文
posted @ 2023-10-14 10:01 deephub 阅读(52) 评论(0) 推荐(0) 编辑
摘要:2020年发布的N-BEATS、2022年发布的N-HiTS和2023年3月发布的PatchTST开始。N-BEATS和N-HiTS依赖于多层感知器架构,而PatchTST利用了Transformer架构。 2023年4月发表了一个新的模型,它在时间序列分析的多个任务中实现了最先进的结果,如预测、i 阅读全文
posted @ 2023-10-13 09:48 deephub 阅读(621) 评论(0) 推荐(0) 编辑
摘要:使用多实例GPU (MIG/Multi-Instance GPU)可以将强大的显卡分成更小的部分,每个部分都有自己的工作,这样单张显卡可以同时运行不同的任务。本文将对其进行简单介绍并且提供安装和使用的示例。 什么是MIG NVIDIA Multi-Instance GPU (MIG) 技术是 NVI 阅读全文
posted @ 2023-10-11 09:36 deephub 阅读(167) 评论(0) 推荐(0) 编辑
摘要:相似性度量在机器学习中起着至关重要的作用。这些度量以数学方式量化对象、数据点或向量之间的相似性。理解向量空间中的相似性概念并采用适当的度量是解决广泛的现实世界问题的基础。本文将介绍几种常用的用来计算两个向量在嵌入空间中的接近程度的相似性度量。 https://avoid.overfit.cn/pos 阅读全文
posted @ 2023-10-10 09:49 deephub 阅读(108) 评论(0) 推荐(0) 编辑
摘要:随着数据集的规模和复杂性的增长,特征或维度的数量往往变得难以处理,导致计算需求增加,潜在的过拟合和模型可解释性降低。降维技术提供了一种补救方法,它捕获数据中的基本信息,同时丢弃冗余或信息较少的特征。这个过程不仅简化了计算任务,还有助于可视化数据趋势,减轻维度诅咒的风险,并提高机器学习模型的泛化性能。 阅读全文
posted @ 2023-10-09 09:37 deephub 阅读(36) 评论(0) 推荐(0) 编辑
摘要:XGBoost是处理不同类型表格数据的最著名的算法,LightGBM 和Catboost也是为了修改他的缺陷而发布的。9月12日XGBoost发布了新的2.0版,本文除了介绍让XGBoost的完整历史以外,还将介绍新机制和更新。 这是一篇很长的文章,因为我们首先从梯度增强决策树开始。 基于树的方法, 阅读全文
posted @ 2023-10-08 09:46 deephub 阅读(87) 评论(0) 推荐(0) 编辑
摘要:NHWC和NCHW是卷积神经网络(cnn)中广泛使用的数据格式。它们决定了多维数据,如图像、点云或特征图如何存储在内存中。 NHWC(样本数,高度,宽度,通道):这种格式存储数据通道在最后,是TensorFlow的默认格式。 NCHW(样本数,通道,高度,宽度):通道位于高度和宽度尺寸之前,经常与P 阅读全文
posted @ 2023-10-07 09:30 deephub 阅读(122) 评论(0) 推荐(0) 编辑

点击右上角即可分享
微信分享提示