deephub

2023年7月30日

摘要：因子分解机（Factorization Machines，简称FM）是一种用于解决推荐系统、回归和分类等机器学习任务的模型。它由Steffen Rendle于2010年提出，是一种基于线性模型的扩展方法，能够有效地处理高维稀疏数据，并且在处理特征组合时表现出色。它是推荐系统的经典模型之一，并且模型简阅读全文

posted @ 2023-07-30 11:21 deephub 阅读(23) 评论(0) 推荐(0) 编辑

2023年7月29日

Meta-Transformer 多模态学习的统一框架

摘要： Meta-Transformer是一个用于多模态学习的新框架，用来处理和关联来自多种模态的信息，如自然语言、图像、点云、音频、视频、时间序列和表格数据，虽然各种数据之间存在固有的差距，但是Meta-Transformer利用冻结编码器从共享标记空间的输入数据中提取高级语义特征，不需要配对的多模态训练阅读全文

posted @ 2023-07-29 11:17 deephub 阅读(68) 评论(0) 推荐(0) 编辑

2023年7月28日

图注意力网络论文详解和PyTorch实现

摘要：图神经网络(gnn)是一类功能强大的神经网络，它对图结构数据进行操作。它们通过从节点的局部邻域聚合信息来学习节点表示(嵌入)。这个概念在图表示学习文献中被称为“消息传递”。消息(嵌入)通过多个GNN层在图中的节点之间传递。每个节点聚合来自其邻居的消息以更新其表示。这个过程跨层重复，允许节点获得编码阅读全文

posted @ 2023-07-28 12:59 deephub 阅读(22) 评论(0) 推荐(0) 编辑

2023年7月27日

DeepSpeed-MoE:训练更大及更复杂的混合专家网络

摘要：这是微软发布在2022 ICML的论文，MoE可以降低训练成本，但是快速的MoE模型推理仍然是一个未解决的问题。所以论文提出了一个端到端的MoE训练和推理解决方案DeepSpeed-MoE：它包括新颖的MoE架构设计和模型压缩技术，可将MoE模型大小减少3.7倍；通过高度优化的推理系统，减少了7.3 阅读全文

posted @ 2023-07-27 09:56 deephub 阅读(94) 评论(0) 推荐(0) 编辑

2023年7月26日

2023年发布的25个开源大型语言模型总结

摘要：大型语言模型(llm)是一种人工智能(AI)，在大量文本和代码数据集上进行训练。它们可以用于各种任务，包括生成文本、翻译语言和编写不同类型的创意内容。今年开始，人们对开源LLM越来越感兴趣。这些模型是在开源许可下发布的，这意味着任何人都可以使用、修改和分发它们。这使得研究人员、开发人员和企业都可以阅读全文

posted @ 2023-07-26 10:07 deephub 阅读(134) 评论(0) 推荐(0) 编辑

2023年7月25日

Python 3.11的10个使代码更加高效的新特性

摘要：性能有巨大的提升是Python 3.11的一个重要的改进，除此以外Python 3.11还有增加了许多新的特性。在本文中我们将介绍Python 3.11新特性，通过代码示例演示这些技巧如何提高生产力并优化代码。 https://avoid.overfit.cn/post/106aea11d69946 阅读全文

posted @ 2023-07-25 09:40 deephub 阅读(25) 评论(0) 推荐(0) 编辑

2023年7月24日

LLM-Blender：大语言模型也可以进行集成学习

摘要：最近在看arxiv的时候发现了一个有意思的框架：LLM-Blender，它可以使用Ensemble 的方法来对大语言模型进行集成。官方介绍如下：LLM-Blender是一个集成框架，可以通过利用多个开源大型语言模型(llm)的不同优势来获得始终如一的卓越性能。 LLM集成我们都知道集成学习是一种阅读全文

posted @ 2023-07-24 09:30 deephub 阅读(42) 评论(0) 推荐(0) 编辑

2023年7月23日

Stable Diffusion在各种显卡上的加速方式测试，最高可以提速211.2%

摘要： Stable Diffusion是一种基于扩散模型的图像生成技术，能够从文本生成高质量的图像，适用于CG，插图和高分辨率壁纸等领域。但是它计算过程复杂，使得它的生成速度较慢。所以研究人员就创造了各种提高其速度的方式，比如Xformers、Aitemplate、TensorRT和onflow。在本文阅读全文

posted @ 2023-07-23 09:45 deephub 阅读(322) 评论(0) 推荐(0) 编辑

2023年7月22日

使用QLoRa微调Llama 2

摘要：上篇文章我们介绍了Llama 2的量化和部署，本篇文章将介绍使用PEFT库和QLoRa方法对Llama 27b预训练模型进行微调。我们将使用自定义数据集来构建情感分析模型。只有可以对数据进行微调我们才可以将这种大模型进行符合我们数据集的定制化。 https://avoid.overfit.cn/po 阅读全文

posted @ 2023-07-22 09:51 deephub 阅读(211) 评论(0) 推荐(0) 编辑

2023年7月21日

使用Cleanlab、PCA和Procrustes可视化ViT微调

摘要：与传统的卷积神经网络不同，vit使用最初设计用于自然语言处理任务的Transformers 架构来处理图像。微调这些模型以获得最佳性能可能是一个复杂的过程。下面是使用动画演示了在微调过程中嵌入的变化。这是通过对嵌入执行主成分分析(PCA)来实现的。这些嵌入是从处于不同微调阶段的模型及其相应的检查点阅读全文

posted @ 2023-07-21 09:29 deephub 阅读(24) 评论(0) 推荐(0) 编辑

overfit深度学习

公告