上一页 1 ··· 30 31 32 33 34 35 36 37 38 ··· 95 下一页
摘要: 因子分解机(Factorization Machines,简称FM)是一种用于解决推荐系统、回归和分类等机器学习任务的模型。它由Steffen Rendle于2010年提出,是一种基于线性模型的扩展方法,能够有效地处理高维稀疏数据,并且在处理特征组合时表现出色。它是推荐系统的经典模型之一,并且模型简 阅读全文
posted @ 2023-07-30 11:21 deephub 阅读(23) 评论(0) 推荐(0) 编辑
摘要: Meta-Transformer是一个用于多模态学习的新框架,用来处理和关联来自多种模态的信息,如自然语言、图像、点云、音频、视频、时间序列和表格数据,虽然各种数据之间存在固有的差距,但是Meta-Transformer利用冻结编码器从共享标记空间的输入数据中提取高级语义特征,不需要配对的多模态训练 阅读全文
posted @ 2023-07-29 11:17 deephub 阅读(68) 评论(0) 推荐(0) 编辑
摘要: 图神经网络(gnn)是一类功能强大的神经网络,它对图结构数据进行操作。它们通过从节点的局部邻域聚合信息来学习节点表示(嵌入)。这个概念在图表示学习文献中被称为“消息传递”。 消息(嵌入)通过多个GNN层在图中的节点之间传递。每个节点聚合来自其邻居的消息以更新其表示。这个过程跨层重复,允许节点获得编码 阅读全文
posted @ 2023-07-28 12:59 deephub 阅读(22) 评论(0) 推荐(0) 编辑
摘要: 这是微软发布在2022 ICML的论文,MoE可以降低训练成本,但是快速的MoE模型推理仍然是一个未解决的问题。所以论文提出了一个端到端的MoE训练和推理解决方案DeepSpeed-MoE:它包括新颖的MoE架构设计和模型压缩技术,可将MoE模型大小减少3.7倍;通过高度优化的推理系统,减少了7.3 阅读全文
posted @ 2023-07-27 09:56 deephub 阅读(94) 评论(0) 推荐(0) 编辑
摘要: 大型语言模型(llm)是一种人工智能(AI),在大量文本和代码数据集上进行训练。它们可以用于各种任务,包括生成文本、翻译语言和编写不同类型的创意内容。 今年开始,人们对开源LLM越来越感兴趣。这些模型是在开源许可下发布的,这意味着任何人都可以使用、修改和分发它们。这使得研究人员、开发人员和企业都可以 阅读全文
posted @ 2023-07-26 10:07 deephub 阅读(134) 评论(0) 推荐(0) 编辑
摘要: 性能有巨大的提升是Python 3.11的一个重要的改进,除此以外Python 3.11还有增加了许多新的特性。在本文中我们将介绍Python 3.11新特性,通过代码示例演示这些技巧如何提高生产力并优化代码。 https://avoid.overfit.cn/post/106aea11d69946 阅读全文
posted @ 2023-07-25 09:40 deephub 阅读(25) 评论(0) 推荐(0) 编辑
摘要: 最近在看arxiv的时候发现了一个有意思的框架:LLM-Blender,它可以使用Ensemble 的方法来对大语言模型进行集成。 官方介绍如下:LLM-Blender是一个集成框架,可以通过利用多个开源大型语言模型(llm)的不同优势来获得始终如一的卓越性能。 LLM集成 我们都知道集成学习是一种 阅读全文
posted @ 2023-07-24 09:30 deephub 阅读(42) 评论(0) 推荐(0) 编辑
摘要: Stable Diffusion是一种基于扩散模型的图像生成技术,能够从文本生成高质量的图像,适用于CG,插图和高分辨率壁纸等领域。 但是它计算过程复杂,使得它的生成速度较慢。所以研究人员就创造了各种提高其速度的方式,比如Xformers、Aitemplate、TensorRT和onflow。在本文 阅读全文
posted @ 2023-07-23 09:45 deephub 阅读(322) 评论(0) 推荐(0) 编辑
摘要: 上篇文章我们介绍了Llama 2的量化和部署,本篇文章将介绍使用PEFT库和QLoRa方法对Llama 27b预训练模型进行微调。我们将使用自定义数据集来构建情感分析模型。只有可以对数据进行微调我们才可以将这种大模型进行符合我们数据集的定制化。 https://avoid.overfit.cn/po 阅读全文
posted @ 2023-07-22 09:51 deephub 阅读(211) 评论(0) 推荐(0) 编辑
摘要: 与传统的卷积神经网络不同,vit使用最初设计用于自然语言处理任务的Transformers 架构来处理图像。微调这些模型以获得最佳性能可能是一个复杂的过程。 下面是使用动画演示了在微调过程中嵌入的变化。这是通过对嵌入执行主成分分析(PCA)来实现的。这些嵌入是从处于不同微调阶段的模型及其相应的检查点 阅读全文
posted @ 2023-07-21 09:29 deephub 阅读(24) 评论(0) 推荐(0) 编辑
上一页 1 ··· 30 31 32 33 34 35 36 37 38 ··· 95 下一页