03 2023 档案

摘要:Unit Scaling 是一种新的低精度机器学习方法,能够在没有损失缩放的情况下训练 FP16 和 FP8 中的语言模型。 使用FP16和BFLOAT16替代FP32可以将内存、带宽和计算需求的大幅减少,这也是目前越来越大的模型所需要的。 背景介绍 随着支持fp8的硬件的发展,在不影响效率的前提下 阅读全文
posted @ 2023-03-31 10:51 deephub 阅读(111) 评论(0) 推荐(0) 编辑
摘要:使用Pandas和Python从时间序列数据中提取有意义的特征,包括移动平均,自相关和傅里叶变换。 前言 时间序列分析是理解和预测各个行业(如金融、经济、医疗保健等)趋势的强大工具。特征提取是这一过程中的关键步骤,它涉及将原始数据转换为有意义的特征,可用于训练模型进行预测和分析。在本文中,我们将探索 阅读全文
posted @ 2023-03-30 11:07 deephub 阅读(200) 评论(0) 推荐(0) 编辑
摘要:Prompt(提示)是扩散模型生成图像的内容来源,构建好的提示是每一个Stable Diffusion用户需要解决的第一步。本文总结所有关于提示的内容,这样可以让你生成更准确,更好的图像 一个好的提示 首先我们看看什么是好的提示,好的提示必须是详细和具体的。最好的办法是查看关键字类别和列表,关键字类 阅读全文
posted @ 2023-03-29 11:33 deephub 阅读(85) 评论(0) 推荐(0) 编辑
摘要:SimCLR(Simple Framework for Contrastive Learning of Representations)是一种学习图像表示的自监督技术。 与传统的监督学习方法不同,SimCLR 不依赖标记数据来学习有用的表示。 它利用对比学习框架来学习一组有用的特征,这些特征可以从未 阅读全文
posted @ 2023-03-28 10:15 deephub 阅读(270) 评论(0) 推荐(0) 编辑
摘要:高斯混合模型(后面本文中将使用他的缩写 GMM)听起来很复杂,其实他的工作原理和 KMeans 非常相似,你甚至可以认为它是 KMeans 的概率版本。 这种概率特征使 GMM 可以应用于 KMeans 无法解决的许多复杂问题。 因为KMeans的限制很多,比如: 它假设簇是球形的并且大小相同,这在 阅读全文
posted @ 2023-03-27 11:41 deephub 阅读(254) 评论(0) 推荐(0) 编辑
摘要:一般情况下,我们都是使用散点图进行聚类可视化,但是某些的聚类算法可视化时散点图并不理想,所以在这篇文章中,我们介绍如何使用树状图(Dendrograms)对我们的聚类结果进行可视化。 树状图 树状图是显示对象、组或变量之间的层次关系的图表。树状图由在节点或簇处连接的分支组成,它们代表具有相似特征的观 阅读全文
posted @ 2023-03-26 11:10 deephub 阅读(94) 评论(0) 推荐(0) 编辑
摘要:Half-UNet简化了编码器和解码器,还使用了Ghost模块(GhostNet)。并重新设计的体系结构,把通道数进行统一。 论文动机 编码器的不同类型的架构图,编码器(A-C)的结构分别来源于U-Net的编码器、解码器和全的Unet结构。 下面是上图的一些结果指标 将U-Net 的编码器和解码器都 阅读全文
posted @ 2023-03-25 10:04 deephub 阅读(78) 评论(0) 推荐(0) 编辑
摘要:本文所整理的技巧与以前整理过10个Pandas的常用技巧不同,你可能并不会经常的使用它,但是有时候当你遇到一些非常棘手的问题时,这些技巧可以帮你快速解决一些不常见的问题。 https://avoid.overfit.cn/post/bf6e2fa626494a3789aa6b4d49657448 阅读全文
posted @ 2023-03-24 11:19 deephub 阅读(4) 评论(0) 推荐(0) 编辑
摘要:BART模型是用来预训练seq-to-seq模型的降噪自动编码器(autoencoder)。它是一个序列到序列的模型,具有对损坏文本的双向编码器和一个从左到右的自回归解码器,所以它可以完美的执行翻译任务。 如果你想在翻译任务上测试一个新的体系结构,比如在自定义数据集上训练一个新的标记,那么处理起来会 阅读全文
posted @ 2023-03-23 10:44 deephub 阅读(44) 评论(0) 推荐(0) 编辑
摘要:深度确定性策略梯度(Deep Deterministic Policy Gradient, DDPG)是受Deep Q-Network启发的无模型、非策略深度强化算法,是基于使用策略梯度的Actor-Critic,本文将使用pytorch对其进行完整的实现和讲解 DDPG的关键组成部分是 Repla 阅读全文
posted @ 2023-03-22 10:51 deephub 阅读(576) 评论(0) 推荐(0) 编辑
摘要:ChatGPT, GPT-3, GPT-3.5, GPT-4, LLaMA, Bard等大型语言模型的一个重要的超参数 大型语言模型能够根据给定的上下文或提示生成新文本,由于神经网络等深度学习技术的进步,这些模型越来越受欢迎。可用于控制生成语言模型行为的关键参数之一是Temperature 参数。在 阅读全文
posted @ 2023-03-21 10:16 deephub 阅读(216) 评论(0) 推荐(0) 编辑
摘要:Pandas是机器学习中最常用的一个库了,我们基本上每天都会使用它。而pandas使用了一个“NumPy”作为后端,这个我们也都是知道的,但是最近 Pandas 2.0 的RC版已经最近发布了。这个版本主要包括bug修复、性能改进和增加Apache Arrow后端。当涉及到使用DF时,Arrow比N 阅读全文
posted @ 2023-03-20 10:32 deephub 阅读(90) 评论(0) 推荐(0) 编辑
摘要:三月有很多的重大产品发布,包括刚刚发布的GPT4,还有Meta刚发布就被泄露的LLaMA,midjourney V5,还有ChatGPT的API(非常便宜)等等。 但是本文整理的是本月应该阅读的10篇论文,将包括多模态语言模型、扩散模型、机器翻译等主题。 1、LLaMA: Open and Effi 阅读全文
posted @ 2023-03-19 09:56 deephub 阅读(79) 评论(0) 推荐(0) 编辑
摘要:最近GPT4的火爆覆盖了一个新闻:midjourney v5发布,DALLE2,midjourney都可以从文本中生成图像,这种模型要求人工智能同时理解语言和图像数据。 传统的基于人工智能的模型很难同时理解语言和图像。因为自然语言处理和计算机视觉一直被视为两个独立的领域,这使得机器在两者之间进行有效 阅读全文
posted @ 2023-03-18 11:25 deephub 阅读(160) 评论(0) 推荐(0) 编辑
摘要:OpenAI发布了他们的ChatGPT新机器学习模型GPT-4。GPT-4是GPT-3的一大进步,GPT-3是当前ChatGPT免费版本(GPT 3.5 Turbo)所运行的模型的基础,今天我们也来凑个热点,研究一下它们的定价 GPT-4新的功能 GPT-4可以在对话中使用图像,并可以回答有关图像的 阅读全文
posted @ 2023-03-17 13:06 deephub 阅读(468) 评论(0) 推荐(0) 编辑
摘要:缺失值是现实数据集中的常见问题,处理缺失值是数据预处理的关键步骤。缺失值可能由于各种原因而发生,例如数据的结构和质量、数据输入错误、传输过程中的数据丢失或不完整的数据收集。这些缺失的值可能会影响机器学习模型的准确性和可靠性,因为它们可能会引入偏差并扭曲结果,有些模型甚至在在缺少值的情况下根本无法工作 阅读全文
posted @ 2023-03-16 11:06 deephub 阅读(46) 评论(0) 推荐(0) 编辑
摘要:本文将介绍了最先进的深度学习优化方法,帮助神经网络训练得更快,表现得更好。有很多个不同形式的优化器,这里我们只找最基础、最常用、最有效和最新的来介绍。 优化器 首先,让我们定义优化。当我们训练我们的模型以使其表现更好时,首先使用损失函数,训练时损失的减少表明我们的模型运行良好。而优化是用来描述这种减 阅读全文
posted @ 2023-03-15 11:29 deephub 阅读(146) 评论(0) 推荐(0) 编辑
摘要:使用Catboost从RNN、ARIMA和Prophet模型中提取信号进行预测 集成各种弱学习器可以提高预测精度,但是如果我们的模型已经很强大了,集成学习往往也能够起到锦上添花的作用。流行的机器学习库scikit-learn提供了一个StackingRegressor,可以用于时间序列任务。但是St 阅读全文
posted @ 2023-03-14 10:42 deephub 阅读(47) 评论(0) 推荐(0) 编辑
摘要:图深度学习(Graph Deep Learning) 多年来一直在加速发展。许多现实生活问题使GDL成为万能工具:在社交媒体、药物发现、芯片植入、预测、生物信息学等方面都显示出了很大的前景。 本文将流行的图神经网络及其数学细微差别的进行详细的梳理和解释,图深度学习背后的思想是学习具有节点和边的图的结 阅读全文
posted @ 2023-03-13 12:02 deephub 阅读(60) 评论(0) 推荐(0) 编辑
摘要:机器学习最近取得了很大的进展,但仍然有一个主要的挑战:需要大量的标记数据来训练模型。 有时这种数据在现实世界中是无法获得的。以医疗保健为例,我们可能没有足够的x光扫描来检查一种新的疾病。但是通过少样本学习可以让模型只从几个例子中学习到知识! 所以少样本学习(FSL)是机器学习的一个子领域,它解决了只 阅读全文
posted @ 2023-03-12 09:58 deephub 阅读(45) 评论(0) 推荐(0) 编辑
摘要:PlotNeuralNet:可以创建任何神经网络的可视化图表,并且这个LaTeX包有Python接口,我们可以方便的调用。 但是他的最大问题是需要我们手动的编写网络的结构,这是一个很麻烦的事情,这时 ChatGPT 就出来了,它可以帮我们生成LaTeX代码。在本文中,我将介绍如何安装和使用PlotN 阅读全文
posted @ 2023-03-11 10:42 deephub 阅读(237) 评论(0) 推荐(0) 编辑
摘要:本文将要介绍整合HuggingFace的diffusers 包和ControlNet调节生成文本到图像,可以更好地控制文本到图像的生成 ControlNet是一种通过添加额外条件来控制扩散模型的神经网络结构。它提供了一种增强稳定扩散的方法,在文本到图像生成过程中使用条件输入,如涂鸦、边缘映射、分割映 阅读全文
posted @ 2023-03-10 10:26 deephub 阅读(233) 评论(0) 推荐(0) 编辑
摘要:本文将讨论Python的函数参数。我们将了解args和**kwargs,/和的都是什么,虽然这个问题是一个基本的python问题,但是在我们写代码时会经常遇到,比如timm中就大量使用了这样的参数传递方式。 定义和传递参数 parameters 和arguments 之间的区别是什么? 完整文章: 阅读全文
posted @ 2023-03-09 11:09 deephub 阅读(11) 评论(0) 推荐(0) 编辑
摘要:图像处理已经成为我们日常生活中不可或缺的一部分,涉及到社交媒体和医学成像等各个领域。通过数码相机或卫星照片和医学扫描等其他来源获得的图像可能需要预处理以消除或增强噪声。频域滤波是一种可行的解决方案,它可以在增强图像锐化的同时消除噪声。 快速傅里叶变换(FFT)是一种将图像从空间域变换到频率域的数学技 阅读全文
posted @ 2023-03-08 11:06 deephub 阅读(181) 评论(0) 推荐(0) 编辑
摘要:经过这些年的发展,我们都确信ML即使不能表现得更好,至少也可以在几乎所有地方与前ML时代的解决方案相匹配。比如说一些规则约束,我们都会想到能否把它们替换为基于树的ml模型。但是世界并不总是黑白分明的,虽然机器学习在解决问题上肯定有自己的位置,但它并不总是最好的解决方案。基于规则的系统甚至可以胜过机器 阅读全文
posted @ 2023-03-07 10:46 deephub 阅读(106) 评论(0) 推荐(0) 编辑
摘要:DetectGPT的目的是确定一段文本是否由特定的llm生成,例如GPT-3。为了对段落 x 进行分类,DetectGPT 首先使用通用的预训练模型(例如 T5)对段落 xi 生成较小的扰动。然后DetectGPT将原始样本x的对数概率与每个扰动样本xi进行比较。如果平均对数比高,则样本可能来自源模 阅读全文
posted @ 2023-03-06 10:30 deephub 阅读(81) 评论(0) 推荐(0) 编辑
摘要:在去年的文章中我们介绍过Bayesian Bootstrap,今天我们来说说Weighted Bayesian Bootstrap Bayesian bootstrap 贝叶斯自举法(Bayesian bootstrap)是一种统计学方法,用于在缺乏先验知识的情况下对一个参数的分布进行估计。这种方法 阅读全文
posted @ 2023-03-05 10:38 deephub 阅读(60) 评论(0) 推荐(0) 编辑
摘要:梯度提升算法是最常用的集成机器学习技术之一,该模型使用弱决策树序列来构建强学习器。这也是XGBoost和LightGBM模型的理论基础,所以在这篇文章中,我们将从头开始构建一个梯度增强模型并将其可视化。 梯度提升算法介绍 梯度提升算法(Gradient Boosting)是一种集成学习算法,它通过构 阅读全文
posted @ 2023-03-04 10:17 deephub 阅读(83) 评论(0) 推荐(0) 编辑
摘要:能量模型(Energy-based model)是一种以自监督方式执行的生成式模型,近年来受到了很多关注。本文将介绍ScoreGrad:基于连续能量生成模型的多变量概率时间序列预测。如果你对时间序列预测感兴趣,推荐继续阅读本文。 为什么时间序列预测很重要? 这是一个老生常谈的问题,因为时间序列预测在 阅读全文
posted @ 2023-03-03 10:53 deephub 阅读(71) 评论(0) 推荐(0) 编辑
摘要:GBoost和LightGBM都是目前非常流行的基于决策树的机器学习模型,它们都有着高效的性能表现,但是在某些情况下,它们也有着不同的特点。 XGBoost和LightGBM简单对比 训练速度 LightGBM相较于xgboost在训练速度方面有明显的优势。这是因为LightGBM使用了一些高效的算 阅读全文
posted @ 2023-03-02 10:48 deephub 阅读(244) 评论(0) 推荐(0) 编辑
摘要:本文将使用信用违约数据集介绍手工特征的概念和创建过程。 通过对原始数据进行手工的特征工程,我们可以将模型的准确性和性能提升到新的水平,为更精确的预测和更明智的业务决策铺平道路, 可以以前所未有的方式优化模型并提升业务能力。 原始数据就像一个没有图片的拼图游戏——但通过特征工程,我们可以将这些碎片拼在 阅读全文
posted @ 2023-03-01 10:30 deephub 阅读(18) 评论(0) 推荐(0) 编辑

点击右上角即可分享
微信分享提示