随笔档案「2022年8月」 - deephub

学习偏态分布的相关知识和原理的4篇论文推荐

摘要：偏态分布(skewness distribution)指频数分布的高峰位于一侧，尾部向另一侧延伸的分布。偏态分布是与“正态分布”相对，分布曲线左右不对称的数据次数分布，是连续随机变量概率分布的一种。可以通过峰度和偏度的计算，衡量偏态的程度。 1、The Generalized-Alpha-Beta- 阅读全文

posted @ 2022-08-31 10:21 deephub 阅读(161) 评论(0) 推荐(0)

如何估算transformer模型的显存大小

摘要：在微调GPT/BERT模型时，会经常遇到“ cuda out of memory”的情况。这是因为transformer是内存密集型的模型，并且内存要求也随序列长度而增加。所以如果能对模型的内存要求进行粗略的估计将有助于估计任务所需的资源。如果你想直接看结果，可以跳到本文最后。不过在阅读本文前请记阅读全文

posted @ 2022-08-30 10:47 deephub 阅读(491) 评论(0) 推荐(0)

为什么基于树的模型在表格数据上仍然优于深度学习

摘要：在这篇文章中，我将详细解释这篇论文《Why do tree-based models still outperform deep learning on tabular data》这篇论文解释了一个被世界各地的机器学习从业者在各种领域观察到的现象——基于树的模型在分析表格数据方面比深度学习/神经网络阅读全文

posted @ 2022-08-29 10:44 deephub 阅读(109) 评论(0) 推荐(0)

将特征转换为正态分布的一种方法示例

摘要：正态（高斯）分布在机器学习中起着核心作用，线性回归模型中要假设随机误差等方差并且服从正态分布，如果变量服从正态分布，那么更容易建立理论结果。统计学领域的很大一部分研究都是假设数据是正态分布的，所以如果我们的数据具有是正态分布，那么么则可以获得更好的结果。但是一般情况下我们的数据都并不是正态分布，所阅读全文

posted @ 2022-08-28 11:25 deephub 阅读(219) 评论(0) 推荐(0)

Pytorch中获取模型摘要的3种方法

摘要：在pytorch中获取模型的可训练和不可训练的参数，层名称，内核大小和数量。 Pytorch nn.Module 类中没有提供像与Keras那样的可以计算模型中可训练和不可训练的参数的数量并显示模型摘要的方法。所以在这篇文章中，我将总结我知道三种方法来计算Pytorch模型中可训练和不可训练的参数阅读全文

posted @ 2022-08-27 10:08 deephub 阅读(74) 评论(0) 推荐(0)

论文推荐：使用带掩码的孪生网络进行自监督学习

摘要：最近自我监督学习被重视起来。昨天我通过LinkedIn发现了这项工作，我觉得它很有趣。kaiming大神的MAE为ViT和自监督的预训练创造了一个新的方向，本篇文章将介绍Masked Siamese Networks (MSN)，这是另一种用于学习图像表示的自监督学习框架。MSN 将包含随机掩码的图阅读全文

posted @ 2022-08-26 11:01 deephub 阅读(98) 评论(0) 推荐(0)

为什么Adam 不是默认的优化算法?

摘要：由于训练时间短，越来越多人使用自适应梯度方法来训练他们的模型，例如Adam它已经成为许多深度学习框架的默认的优化算法。尽管训练结果优越，但Adam和其他自适应优化方法与随机梯度下降(SGD)相比，有时的效果并不好。这些方法在训练数据上表现良好，但在测试数据却差很多。最近，许多研究人员已经开始针对这阅读全文

posted @ 2022-08-25 10:54 deephub 阅读(66) 评论(0) 推荐(0)

处理医学时间序列中缺失数据的3种方法

摘要：这些方法都是专为RNN设计，它们都经过了广泛的学术评估，而且十分的简单大量医疗数据例如心电图、体温监测、血压监测、定期护士检查等等本质上都是时间序列数据。在这些医学图表的趋势、模式、高峰和低谷中嵌入了大量有价值的信息。医疗行业要求对医疗时间序列数据进行有效分析，这被认为是提高医疗质量、优化资源利用阅读全文

posted @ 2022-08-24 10:32 deephub 阅读(254) 评论(0) 推荐(0)

使用Pytorch手写ViT — VisionTransformer

摘要：《The Attention is all you need》的论文彻底改变了自然语言处理的世界，基于Transformer的架构成为自然语言处理任务的的标准。尽管基于卷积的架构在图像分类任务中仍然是最先进的技术，但论文《An image is worth 16x16 words: transfo 阅读全文

posted @ 2022-08-22 10:24 deephub 阅读(259) 评论(0) 推荐(0)

25个例子学会Pandas Groupby 操作

摘要：groupby是Pandas在数据分析中最常用的函数之一。它用于根据给定列中的不同值对数据点(即行)进行分组，分组后的数据可以计算生成组的聚合值。如果我们有一个包含汽车品牌和价格信息的数据集，那么可以使用groupby功能来计算每个品牌的平均价格。在本文中，我们将使用25个示例来详细介绍grou 阅读全文

posted @ 2022-08-21 10:30 deephub 阅读(142) 评论(0) 推荐(0)

广义线性模型（GLM）及其应用

摘要：广义线性模型[generalize linear model(GLM)]是线性模型的扩展，通过联系函数建立响应变量的数学期望值与线性组合的预测变量之间的关系。它的特点是不强行改变数据的自然度量，数据可以具有非线性和非恒定方差结构。是线性模型在研究响应值的非正态分布以及非线性模型简洁直接的线性转化时的阅读全文

posted @ 2022-08-20 10:17 deephub 阅读(818) 评论(0) 推荐(0)

10个常用的损失函数解释以及Python代码实现

摘要：什么是损失函数？损失函数是一种衡量模型与数据吻合程度的算法。损失函数测量实际测量值和预测值之间差距的一种方式。损失函数的值越高预测就越错误，损失函数值越低则预测越接近真实值。对每个单独的观测(数据点)计算损失函数。将所有损失函数（loss function）的值取平均值的函数称为代价函数（cost 阅读全文

posted @ 2022-08-19 11:24 deephub 阅读(197) 评论(0) 推荐(0)

使用PyTorch和Keras实现 pix2pix GAN

摘要：对比两个框架实现同一个模型到底有什么区别？第一步，我们对数据集进行图像预处理。我们在这里选择 Facades 数据集，我们将 2 张图像合并为一张，以便在训练过程中进行一些增强。 Pytorch： def __getitem__(self, index):img = Image.open(self 阅读全文

posted @ 2022-08-18 09:32 deephub 阅读(104) 评论(0) 推荐(0)

超参数黑盒（Black-box）优化的Python代码示例

摘要：在机器学习中，超参数是用于控制机器学习模型的学习过程的参数。为了与从数据中学到的机器学习模型参数区分开，所以称其为超参数。超参数的配置决定了机器学习模型的性能，每组独特的超参数集可以对应一个学习后的机器学习模型。对于大多数最先进的机器学习模型，所有可能的超参数组合的集合可能会很大。大多数机器学习模型阅读全文

posted @ 2022-08-17 11:19 deephub 阅读(191) 评论(0) 推荐(0)

贝叶斯自举法Bayesian Bootstrap

摘要：“自举”（翻译自bootstrap）这个词汇在多个领域可能见到，它字面意思是提着靴子上的带子把自己提起来，这当然是不可能的，在机器学习领域可以理解为原样本自身的数据再抽样得出新的样本及统计量，也有被翻译为自助法的。 Bayesian Bootstrap是一个强大的方法，它比其他的自举法更快，并且可以阅读全文

posted @ 2022-08-16 11:35 deephub 阅读(224) 评论(0) 推荐(0)

使用Dask，SBERT SPECTRE和Milvus构建自己的ARXIV论文相似性搜索引擎

摘要：通过矢量相似性搜索，可以在〜50ms内响应〜640K论文上的语义搜索查询 Arxiv.org大家一定都不陌生，学习数据科学的最佳方法之一是阅读Arxiv.org上的开源研究论文。但是即使对于经验丰富的研究人员来说，从大量的研究论文中找出想读的内容也是非常不容易的。Connected等论文之类的工具可阅读全文

posted @ 2022-08-15 11:34 deephub 阅读(241) 评论(0) 推荐(0)

几行 Python 代码就可以提取数百个时间序列特征

摘要：时间序列数据是随着时间的推移反复捕获的变量值，随着时间的推移可以产生一系列的按时间顺序索引的数据点。在时间序列中，数据具有自然的时间顺序，即一个变量在特定时间的值依赖于过去的值。传统的机器学习算法不能捕捉时间序列数据的时间顺序。数据科学家需要执行相关的特征工程，将数据的重要特征捕获到几个指标中。生阅读全文

posted @ 2022-08-14 08:50 deephub 阅读(337) 评论(0) 推荐(0)

5个例子学会Pandas中的字符串过滤

摘要：要处理文本数据，需要比数字类型的数据更多的清理步骤。为了从文本数据中提取有用和信息，通常需要执行几个预处理和过滤步骤。 Pandas 库有许多可以轻松简单地处理文本数据函数和方法。在本文中，我介绍将学习 5 种可用于过滤文本数据（即字符串）的不同方法：是否包含一系列字符求字符串的长度判断以特定阅读全文

posted @ 2022-08-13 09:11 deephub 阅读(149) 评论(0) 推荐(0)

CVPR 2022上人脸识别相关的论文分类整理

摘要：人脸识别是AI研究的一个重要的方向，CVPR 2022也有很多相关的论文，本篇文章将针对不同的应用分类进行整理，希望对你有帮助人脸识别人脸识是一个热门话题，在当前的基准测试中要以相当大的提升击败现有的SOTA模型变得越来越困难。越来越多的开放数据可以用于训练，在百万级规模的数据上进行训练的一阅读全文

posted @ 2022-08-12 10:57 deephub 阅读(377) 评论(0) 推荐(0)

你的模型是最好的还是最幸运的？选择最佳模型时如何避免随机性

摘要：kaggle比赛里经常会发生shake up的现象，说的直接点就是在有切榜或多榜单的比赛中,可能存在榜单排名激烈震动的情况，例如下面这个例子：Data Science Bowl 2017 我们看到，第一名是从公榜上升了130多名，而第5名则上升了349. 公榜结果就是好的模型私榜不一定就好，因为Ka 阅读全文

posted @ 2022-08-11 11:08 deephub 阅读(113) 评论(0) 推荐(0)

2022年8月的10篇论文推荐

摘要：很久没有推荐论文了，但是在推荐新论文之前，首先推荐一个新闻：谷歌分享了公司内部如何使用代码生成案例，3%的新代码是由语言模型(Language Model)、DeepSpeed (DeepSpeed)编写的，通过语言模型生成代码的智能建议，建议接受率约为25%，减少了6%的编码迭代时间，平均每个接阅读全文

posted @ 2022-08-10 11:16 deephub 阅读(293) 评论(0) 推荐(0)

DALL·E-2是如何工作的以及部署自己的DALL·E模型

摘要：DALL·E-2可以通过自然语言的描述创建现实的图像。 Openai发布了dall·e-2的Beta版。在本文中，我们将仔细研究DALL·E-2的原始研究论文，并了解其确切的工作方式。由于并没有开放源代码， Boris Dayma等人根据论文创建了一个迷你但是开源的模型Dall·E Mini（命名阅读全文

posted @ 2022-08-09 13:39 deephub 阅读(681) 评论(0) 推荐(0)

7个步骤详解AdaBoost 算法原理和构建流程

摘要：AdaBoost 是集成学习中的一个常见的算法，它模仿“群体智慧”的原理：将单独表现不佳的模型组合起来可以形成一个强大的模型。麻省理工学院(MIT) 2021年发表的一项研究[Diz21]描述了人们如何识别假新闻。如果没有背景知识或事实的核查，人们往往很难识别假新闻。但是根据不同人的经验，通常可以阅读全文

posted @ 2022-08-08 11:30 deephub 阅读(320) 评论(0) 推荐(0)

更简单的掩码图像建模框架SimMIM介绍和PyTorch代码实现

摘要：MAE发布以来，各种使用掩码技术的自监督掩码模型在其基础之上有了更进一步的研究。在本文中我们将探索一篇和MAE同期的工作：SimMIM: A Simple Framework for Masked Image Modeling，研究团队是微软亚研院，并在PyTorch中编写它，最后我们也会提供相关的阅读全文

posted @ 2022-08-07 10:16 deephub 阅读(231) 评论(0) 推荐(0)

10个自动EDA库功能介绍：几行代码进行的数据分析靠不靠谱

摘要：探索性数据分析是数据科学模型开发和数据集研究的重要组成部分之一。在拿到一个新数据集时首先就需要花费大量时间进行EDA来研究数据集中内在的信息。自动化的EDA软件包可以用几行Python代码执行EDA。在本文中整理了10个可以自动执行EDA并生成有关数据的见解的软件包，看看他们都有什么功能，能在多大程阅读全文

posted @ 2022-08-06 10:38 deephub 阅读(165) 评论(0) 推荐(0)

8个常见的机器学习算法的计算复杂度总结

摘要：计算的复杂度是一个特定算法在运行时所消耗的计算资源(时间和空间)的度量。计算复杂度又分为两类: 1、时间复杂度时间复杂度不是测量一个算法或一段代码在某个机器或者条件下运行所花费的时间。时间复杂度一般指时间复杂性，时间复杂度是一个函数，它定性描述该算法的运行时间，允许我们在不运行它们的情况下比较不阅读全文

posted @ 2022-08-05 10:50 deephub 阅读(181) 评论(0) 推荐(0)

在表格数据集上训练变分自编码器 (VAE)示例

摘要：变分自编码器 (VAE) 是在图像数据应用中被提出，但VAE不仅可以应用在图像中。在这篇文章中，我们将简单介绍什么是VAE，以及解释“为什么”变分自编码器是可以应用在数值类型的数据上，最后使用Numerai数据集展示“如何”训练它。 Numerai数据集数据集包含全球股市数十年的历史数据，在Nume 阅读全文

posted @ 2022-08-04 10:39 deephub 阅读(437) 评论(0) 推荐(0)

细胞图像数据的主动学习

摘要：通过细胞图像的标签对模型性能的影响，为数据设置优先级和权重。许多机器学习任务的主要障碍之一是缺乏标记数据。而标记数据可能会耗费很长的时间，并且很昂贵，因此很多时候尝试使用机器学习方法来解决问题是不合理的。为了解决这个问题，机器学习领域出现了一个叫做主动学习的领域。主动学习是机器学习中的一种方法，阅读全文

posted @ 2022-08-03 11:11 deephub 阅读(139) 评论(0) 推荐(0)

10快速入门Query函数使用的Pandas的查询示例

摘要：pandas.的query函数为我们提供了一种编写查询过滤条件更简单的方法，特别是在的查询条件很多的时候，在本文中整理了10个示例，掌握着10个实例你就可以轻松的使用query函数来解决任何查询的问题。首先，将数据集导入pandas DataFrame - df import pandas as 阅读全文

posted @ 2022-08-02 11:28 deephub 阅读(145) 评论(0) 推荐(0)

使用分类权重解决数据不平衡的问题

摘要：在分类任务中，不平衡数据集是指数据集中的分类不平均的情况，会有一个或多个类比其他类多的多或者少的多。在我们的日常生活中，不平衡的数据是非常常见的比如本篇文章将使用一个最常见的例子，信用卡欺诈检测来介绍，在我们的日常使用中欺诈的数量要远比正常使用的数量少很多，对于我们来说这就是数据不平衡的问题。我阅读全文

posted @ 2022-08-01 10:42 deephub 阅读(112) 评论(0) 推荐(0)

deephub

overfit深度学习

08 2022 档案

公告