2023 年 7月随笔档案 - deephub

SDXL 1.0 介绍和优缺点总结

摘要：2023年7月26日:Stability. AI 发布SDXL 1.0，这是对其生成模型的又一次重大更新，带来了突破性的变化。 SDXL 1.0包括两种不同的模型: sdxml -base-1.0:生成1024 x 1024图像的基本文本到图像模型。基本模型使用OpenCLIP-ViT/G和CLIP 阅读全文

posted @ 2023-07-31 09:22 deephub 阅读(264) 评论(0) 推荐(0) 编辑

因子分解机介绍和PyTorch代码实现

摘要：因子分解机（Factorization Machines，简称FM）是一种用于解决推荐系统、回归和分类等机器学习任务的模型。它由Steffen Rendle于2010年提出，是一种基于线性模型的扩展方法，能够有效地处理高维稀疏数据，并且在处理特征组合时表现出色。它是推荐系统的经典模型之一，并且模型简阅读全文

posted @ 2023-07-30 11:21 deephub 阅读(71) 评论(0) 推荐(0) 编辑

Meta-Transformer 多模态学习的统一框架

摘要：Meta-Transformer是一个用于多模态学习的新框架，用来处理和关联来自多种模态的信息，如自然语言、图像、点云、音频、视频、时间序列和表格数据，虽然各种数据之间存在固有的差距，但是Meta-Transformer利用冻结编码器从共享标记空间的输入数据中提取高级语义特征，不需要配对的多模态训练阅读全文

posted @ 2023-07-29 11:17 deephub 阅读(91) 评论(0) 推荐(0) 编辑

图注意力网络论文详解和PyTorch实现

摘要：图神经网络(gnn)是一类功能强大的神经网络，它对图结构数据进行操作。它们通过从节点的局部邻域聚合信息来学习节点表示(嵌入)。这个概念在图表示学习文献中被称为“消息传递”。消息(嵌入)通过多个GNN层在图中的节点之间传递。每个节点聚合来自其邻居的消息以更新其表示。这个过程跨层重复，允许节点获得编码阅读全文

posted @ 2023-07-28 12:59 deephub 阅读(31) 评论(0) 推荐(0) 编辑

DeepSpeed-MoE:训练更大及更复杂的混合专家网络

摘要：这是微软发布在2022 ICML的论文，MoE可以降低训练成本，但是快速的MoE模型推理仍然是一个未解决的问题。所以论文提出了一个端到端的MoE训练和推理解决方案DeepSpeed-MoE：它包括新颖的MoE架构设计和模型压缩技术，可将MoE模型大小减少3.7倍；通过高度优化的推理系统，减少了7.3 阅读全文

posted @ 2023-07-27 09:56 deephub 阅读(139) 评论(0) 推荐(0) 编辑

2023年发布的25个开源大型语言模型总结

摘要：大型语言模型(llm)是一种人工智能(AI)，在大量文本和代码数据集上进行训练。它们可以用于各种任务，包括生成文本、翻译语言和编写不同类型的创意内容。今年开始，人们对开源LLM越来越感兴趣。这些模型是在开源许可下发布的，这意味着任何人都可以使用、修改和分发它们。这使得研究人员、开发人员和企业都可以阅读全文

posted @ 2023-07-26 10:07 deephub 阅读(157) 评论(0) 推荐(0) 编辑

Python 3.11的10个使代码更加高效的新特性

摘要：性能有巨大的提升是Python 3.11的一个重要的改进，除此以外Python 3.11还有增加了许多新的特性。在本文中我们将介绍Python 3.11新特性，通过代码示例演示这些技巧如何提高生产力并优化代码。 https://avoid.overfit.cn/post/106aea11d69946 阅读全文

posted @ 2023-07-25 09:40 deephub 阅读(39) 评论(0) 推荐(0) 编辑

LLM-Blender：大语言模型也可以进行集成学习

摘要：最近在看arxiv的时候发现了一个有意思的框架：LLM-Blender，它可以使用Ensemble 的方法来对大语言模型进行集成。官方介绍如下：LLM-Blender是一个集成框架，可以通过利用多个开源大型语言模型(llm)的不同优势来获得始终如一的卓越性能。 LLM集成我们都知道集成学习是一种阅读全文

posted @ 2023-07-24 09:30 deephub 阅读(73) 评论(0) 推荐(0) 编辑

Stable Diffusion在各种显卡上的加速方式测试，最高可以提速211.2%

摘要：Stable Diffusion是一种基于扩散模型的图像生成技术，能够从文本生成高质量的图像，适用于CG，插图和高分辨率壁纸等领域。但是它计算过程复杂，使得它的生成速度较慢。所以研究人员就创造了各种提高其速度的方式，比如Xformers、Aitemplate、TensorRT和onflow。在本文阅读全文

posted @ 2023-07-23 09:45 deephub 阅读(430) 评论(0) 推荐(0) 编辑

使用QLoRa微调Llama 2

摘要：上篇文章我们介绍了Llama 2的量化和部署，本篇文章将介绍使用PEFT库和QLoRa方法对Llama 27b预训练模型进行微调。我们将使用自定义数据集来构建情感分析模型。只有可以对数据进行微调我们才可以将这种大模型进行符合我们数据集的定制化。 https://avoid.overfit.cn/po 阅读全文

posted @ 2023-07-22 09:51 deephub 阅读(224) 评论(0) 推荐(0) 编辑

使用Cleanlab、PCA和Procrustes可视化ViT微调

摘要：与传统的卷积神经网络不同，vit使用最初设计用于自然语言处理任务的Transformers 架构来处理图像。微调这些模型以获得最佳性能可能是一个复杂的过程。下面是使用动画演示了在微调过程中嵌入的变化。这是通过对嵌入执行主成分分析(PCA)来实现的。这些嵌入是从处于不同微调阶段的模型及其相应的检查点阅读全文

posted @ 2023-07-21 09:29 deephub 阅读(34) 评论(0) 推荐(0) 编辑

使用GGML和LangChain在CPU上运行量化的llama2

摘要：Meta AI 在本周二发布了最新一代开源大模型 Llama 2。对比于今年 2 月发布的 Llama 1，训练所用的 token 翻了一倍，已经达到了 2 万亿，对于使用大模型最重要的上下文长度限制，Llama 2 也翻了一倍。在本文，我们将紧跟趋势介绍如何在本地CPU推理上运行量化版本的开源L 阅读全文

posted @ 2023-07-20 09:45 deephub 阅读(237) 评论(0) 推荐(0) 编辑

基于Gym Anytrading 的强化学习简单实例

摘要：近年来强化学习(RL)在算法交易领域受到了极大的关注。强化学习算法从经验中学习并基于奖励优化行动使其非常适合交易机器人。在这篇文章，我们将简单介绍如何使用Gym Anytrading环境和GME (GameStop Corp.)交易数据集构建一个基于强化学习的交易机器人。强化学习是机器学习的一个子阅读全文

posted @ 2023-07-19 09:55 deephub 阅读(36) 评论(0) 推荐(0) 编辑

时间序列的季节性：3种模式及8种建模方法

摘要：分析和处理季节性是时间序列分析中的一个关键工作，在本文中我们将描述三种类型的季节性以及常见的8种建模方法。什么是季节性? 季节性是构成时间序列的关键因素之一，是指在一段时间内以相似强度重复的系统运动。季节变化可以由各种因素引起，例如天气、日历或经济条件。各种应用程序中都有这样的例子。由于假期和旅阅读全文

posted @ 2023-07-18 09:59 deephub 阅读(217) 评论(0) 推荐(0) 编辑

在自定义数据集上微调Alpaca和LLaMA

摘要：本文将介绍使用LoRa在本地机器上微调Alpaca和LLaMA，我们将介绍在特定数据集上对Alpaca LoRa进行微调的整个过程，本文将涵盖数据处理、模型训练和使用流行的自然语言处理库(如Transformers和hugs Face)进行评估。此外还将介绍如何使用grado应用程序部署和测试模型。阅读全文

posted @ 2023-07-17 10:11 deephub 阅读(104) 评论(0) 推荐(0) 编辑

使用CatBoost和SHAP进行多分类完整代码示例

摘要：CatBoost是顶尖的机器学习模型之一。凭借其梯度增强技术以及内置函数，可以在不做太多工作的情况下生成一些非常好的模型。SHAP (SHapley Additive exPlanation)是旨在解释具有独特视觉效果和性能价值的机器学习模型的输出。CatBoost和SHAP结合在一起构成了一个强大阅读全文

posted @ 2023-07-16 09:58 deephub 阅读(228) 评论(0) 推荐(0) 编辑

7个有用的Prompt参数

摘要：ChatGPT和Midjournal使得生成式人工智能的应用程序激增。当涉及到生成式AI时，"prompt"通常指的是作为输入给模型的初始提示或指示。它是一个短语、问题、句子或段落，用来引导模型生成相关的响应或文本。在使用生成式AI模型时，提供一个清晰、具体的prompt非常重要，因为它会直接影响阅读全文

posted @ 2023-07-14 09:17 deephub 阅读(45) 评论(0) 推荐(0) 编辑

注意力机制中的掩码详解

摘要：注意力机制的掩码允许我们发送不同长度的批次数据一次性的发送到transformer中。在代码中是通过将所有序列填充到相同的长度，然后使用“attention_mask”张量来识别哪些令牌是填充的来做到这一点，本文将详细介绍这个掩码的原理和机制。我们先介绍下如果不使用掩码，是如何运行的。这里用GPT 阅读全文

posted @ 2023-07-13 10:08 deephub 阅读(449) 评论(0) 推荐(0) 编辑

并行计算框架Polars、Dask的数据处理性能对比

摘要：在Pandas 2.0发布以后，我们发布过一些评测的文章，这次我们看看，除了Pandas以外，常用的两个都是为了大数据处理的并行数据框架的对比测试。本文我们使用两个类似的脚本来执行提取、转换和加载(ETL)过程。测试内容这两个脚本主要功能包括: 从两个parquet 文件中提取数据，对于小型数阅读全文

posted @ 2023-07-08 10:29 deephub 阅读(46) 评论(0) 推荐(0) 编辑

使用Streamlit和OpenAI API构建视频摘要

摘要：本文提供了使用Streamlit和OpenAI创建的视频摘要应用程序的概述。该程序为视频的每个片段创建简洁的摘要，并总结视频的完整内容。要运行应用程序，需要安装以下依赖项: Python(3.7或更高版本) Streamlit OpenAI API密钥 llama_index youtube_tr 阅读全文

posted @ 2023-07-07 09:48 deephub 阅读(53) 评论(0) 推荐(0) 编辑

矢量数据库对比和选择指南

摘要：矢量数据库是为实现高维矢量数据的高效存储、检索和相似性搜索而设计的。使用一种称为嵌入的过程，将向量数据表示为一个连续的、有意义的高维向量。本文将研究存储/检索向量数据和执行相似性搜索的实用方法，在我们深入研究之前，首先先介绍矢量数据库的两个关键功能： https://avoid.overfit.c 阅读全文

posted @ 2023-07-06 10:43 deephub 阅读(169) 评论(0) 推荐(0) 编辑

WideNet:让网络更宽而不是更深

摘要：这是新加坡国立大学在2022 aaai发布的一篇论文。WideNet是一种参数有效的框架，它的方向是更宽而不是更深。通过混合专家(MoE)代替前馈网络(FFN)，使模型沿宽度缩放。使用单独LN用于转换各种语义表示，而不是共享权重。 https://avoid.overfit.cn/post/fd66 阅读全文

posted @ 2023-07-05 10:11 deephub 阅读(19) 评论(0) 推荐(0) 编辑

LeViT-UNet：transformer 编码器和CNN解码器的有效整合

摘要：levi - unet[2]是一种新的医学图像分割架构，它使用transformer 作为编码器，这使得它能够更有效地学习远程依赖关系。levi - unet[2]比传统的U-Nets更快，同时仍然实现了最先进的分割性能。 levi - unet[2]在几个具有挑战性的医学图像分割基准上取得了比其他阅读全文

posted @ 2023-07-04 10:36 deephub 阅读(80) 评论(0) 推荐(0) 编辑

基于声音信号的工业设备异常检测

摘要：异常检测主要目标是将异常事件与正常事件区分开来，因此才有了“异常”一词。本文将介绍基于声音信号的工业机械异常检测，使用的数据集是MIMII声音数据集，该数据集很容易在网上获得。异常检测的任务可以通过多种方式实现。其中最简单的一种方法是将问题作为监督学习任务，并对正常和异常声音训练分类器。这种方法的阅读全文

posted @ 2023-07-03 09:43 deephub 阅读(204) 评论(0) 推荐(0) 编辑

玩转Matplotlib的10个高级技巧

摘要：Matplotlib是Python中流行的数据可视化库，仅使用简单的几行代码就可以生成图表。但是默认的方法是生成的图表很简单，如果想增强数据演示的影响和清晰度，可以试试本文总结的10个高级技巧，这些技巧可以将可视化提升到一个新的水平: https://avoid.overfit.cn/post/fe 阅读全文

posted @ 2023-07-02 09:47 deephub 阅读(19) 评论(0) 推荐(0) 编辑

将ChatGPT变成Midjourney提示生成器

摘要：已经有人总结过可以让ChatGPT作为Midjourney图像生成的模板。在本文中，我们将展示如何根据个人用例创建这些提示，这可以让ChatGPT生成的提示可控性更高。 https://avoid.overfit.cn/post/60d45f154b7943258f86f8bc7150e79b 阅读全文

posted @ 2023-07-01 10:08 deephub 阅读(91) 评论(0) 推荐(0) 编辑

deephub

overfit深度学习

07 2023 档案

公告

搜索

常用链接

我的标签

随笔档案

阅读排行榜

评论排行榜

推荐排行榜

最新评论