05 2022 档案
摘要:Evaluating Deep Neural Network Ensembles by Majority Voting cum Meta-Learning scheme https://arxiv.org/pdf/2105.03819 Anmol Jain, Aishwary Kumar, Seba
阅读全文
摘要:在现实世界中开发机器学习(ML)模型的主要瓶颈之一是需要大量手动标记的训练数据。例如,Imagenet数据集由超过1400万手动标记的各种现实的图像组成。 虽然迁移学习的出现极大地缓解了这一要求但是仍然需要数百个标记的示例来进行微调。但是获得此类手动注释通常是耗时的和劳动力密集的,并且容易发生人类的
阅读全文
摘要:2021年提议的Vision Transformer(VIT)已成为计算机视觉深度学习领域的一个有前途的研究主题。随着VIT的研究变得更加深入,一些研究人员受到VIT的大型接收领域的启发,将卷积网络也改造成具有更大的接收场来提高效率。根据有效的接收场(ERF)理论,ERF的大小与内核大小和模型深度的
阅读全文
摘要:随机森林 [Breiman, 2001] 和 XGBoost [Chen and Guestrin, 2016] 已成为解决分类和回归的许多挑战的最佳机器学习方法。Local Cascade Ensemble (LCE) [Fauvel et al., 2022] 是一种新的机器学习方法, 它结合了
阅读全文
摘要:将自然语言转换为SQL语句已经不再遥不可及。NLP的进步使得我们不仅可以使用LLM(大型语言模型),还可以通过微调教授他们新的技能,这也被称为迁移学习。可以使用一个预先训练的模型作为起点,然后使用较小的标记数据集从而获得比单独使用数据训练更好的性能。 在本文中,我们将使用谷歌的文本到文本生成模型T5
阅读全文
摘要:期望最大化(EM)算法被广泛用于估计不同统计模型的参数。它是一种迭代算法,可以将一个困难的优化问题分解为几个简单的优化问题。在本文中将通过几个简单的示例解释它是如何工作的。 这个算法最流行的例子(互联网上讨论最多的)可能来自这篇论文(http://www.nature.com/nbt/journal
阅读全文
摘要:这些有用的片段在面试中会经常出现,也可以作为日常的numpy练习。 1、导入numpy import numpy as np 2、打印numpy信息 print(np.__version__) np.show_config() 3、创建空向量 Z = np.zeros(10) print(Z) 4、
阅读全文
摘要:Swin Transformer(Liu et al。,2021)是一个基于Transformer的深度学习模型,在视觉任务中取得了最先进的性能。与VIT不同Swin Transformer更加高效并且有更高的精度。由于Swin Transformer的一些特性,现在许多视觉的模型体系结构中,Swi
阅读全文
摘要:在 Pandas 中有很多种方法可以进行DF的合并。本文将研究这些不同的方法,以及如何将它们执行速度的对比。 合并DF Pandas 使用 .merge() 方法来执行合并。 import pandas as pd # a dictionary to convert to a dataframe d
阅读全文
摘要:“当算法给你一条曲线时,一定要知道这个曲线的含义!” 1、偏差-方差权衡 这是一个总是在机器学习最重要理论中名列前茅的概念。机器学习中的几乎所有算法(包括深度学习)都努力在偏差和方差之间取得适当的平衡,这个图清楚地解释了二者的对立关系。 2、基尼不纯度与熵 Gini(缺乏同质性的度量)和 Entro
阅读全文
摘要:向量表示是机器学习生态系统中的一个关键概念。无论进行什么样的任务,我们总是试图训练找所掌握的数据的意义而机器学中通常使用数字向量来对数据进行描述,发现隐藏的行为,产生有价值的见解。 随着深度学习则是通过更少的假设和更少的工作获得更有意义的数据表示。例如在NLP领域,最早的 TF-IDF(词频-逆文档
阅读全文
摘要:GAN是一个非常巧妙并且非常有用的模型。当有大量关于 GAN 的论文时,但是你会发现这些论文通常很难理解,你可能会想要一些对初学者更友好的东西。所以本文的对非传统机器学习人员来说,是我能想到的最好的例子。 什么是 GAN? GANs 或 Generative Adversarial Networks
阅读全文
摘要:1、3D Convolutional Neural Networks for Dendrite Segmentation Using Fine-Tuning and Hyperparameter Optimization https://arxiv.org/pdf/2205.01167 Jim Ja
阅读全文
摘要:Python 3.11 pre-release已经发布。更新日志中提到: Python 3.11 is up to 10–60% faster than Python 3.10. On average, we measured a 1.25x speedup on the standard benc
阅读全文
摘要:多目标跟踪(Multiple Object Tracking) MOT 获取单个连续视频并以特定帧速率 (fps) 将其拆分为离散帧以输出 检测每帧中存在哪些对象 标注对象在每一帧中的位置 关联不同帧中的对象是属于同一个对象还是属于不同对象 MOT的典型应用 多目标跟踪(MOT) 用于交通控制、数字
阅读全文
摘要:本文将使用简单的说明性示例来解释移动平均模型(Arima [p,q]中的MA [Q])。 假设你今天得到100股公司股票。让我们用Y1表示今年,用A(1)表示回报。再假设从明年开始,每年授予25%的股票,为期四年。以下是一段时间内未授予股票的数量: 此外,在Y2,获得了100股,加上A(1)的75股
阅读全文
摘要:多层感知机还在进步,关于深度学习中MLP的5篇最新的论文推荐 1、MLP-Hash: Protecting Face Templates via Hashing of Randomized Multi-Layer Perceptron https://arxiv.org/pdf/2204.11054
阅读全文
摘要:在本文中,将演示一些不常见,但是却非常有用的 Pandas 函数。 创建一个示例 DataFrame 。 import numpy as np import pandas as pd df = pd.DataFrame({ "date": pd.date_range(start="2021-11-2
阅读全文
摘要:虽然大多数的特征策略都与领域相关,并且必须针对每个应用程序进行专门调整。但特征工程是操纵原始数据和提取机器学习特征的过程,探索性数据分析 (EDA) 可以使用特征工程技术来可视化数据并在执行机器学习任务之前更好地识别模式和异常值。这是数据科学的重要一步,可以确保特定机器学习应用程序的预期结果。 使用
阅读全文
摘要:不到两年的时间ViT 已经彻底改变了计算机视觉领域,利用transformers 强大的自注意机制来替代卷积,最近诸如 MLP-Mixer 和通过精心设计的卷积神经网络 (CNN) 等方法也已经实现了与 ViT 相当的性能。 在新论文 Sequencer: Deep LSTM for Image C
阅读全文
摘要:机器学习是未能完全解决的一个领域是股票预测,因为它可能是最有利可图的研究领域之一所以在这方面的研究仍然在继续。投资者希望能够放心地把钱投在表现优异的公司,随着投资的增加,公司的发展也将会突飞猛进,投资的收益也会增长。 在过去的研究中,出现了而很多的方式,但这些方式和方法并不是很成功,所以本文将这个领
阅读全文
摘要:上篇ConvNext的文章有小伙伴问BottleNeck,Inverted Residual的区别,所以找了这篇文章,详细的解释一些用到的卷积块,当作趁热打铁吧 在介绍上面的这些概念之间,我们先创建一个通用的 conv-norm-act 层,这也是最基本的卷积块。 fromfunctoolsimpo
阅读全文
摘要:ConvNext论文提出了一种新的基于卷积的架构,不仅超越了基于 Transformer 的模型(如 Swin),而且可以随着数据量的增加而扩展!今天我们使用Pytorch来对其进行复现。下图显示了针对不同数据集/模型大小的 ConvNext 准确度。 作者首先采用众所周知的 ResNet 架构,并
阅读全文
摘要:统计学是涉及数据的收集,组织,分析,解释和呈现的学科。 统计的类型 描述性统计 描述性统计是以数字和图表的形式来理解、分析和总结数据。对不同类型的数据(数值的和分类的)使用不同的图形和图表来分析数据,如条形图、饼图、散点图、直方图等。所有的解释和可视化都是描述性统计的一部分。重要的是要记住,描述性统
阅读全文
摘要:Pycaret是Python中的一个开源可自动化机器学习工作流程的低代码机学习库。它是一种端到端的机器学习和模型管理工具。要了解有关Pycaret的更多信息,可以查看官方网站或GitHub。 1、与最新版本的Scikit-Learn完全兼容 Pycaret 2.x需要Scikit-Learn 0.2
阅读全文
摘要:机器学习和深度学习中的模型都是遵循数学函数的方式创建的。从数据分析到预测建模,一般情况下都会有数学原理的支撑,比如:欧几里得距离用于检测聚类中的聚类。 傅里叶变换是一种众将函数从一个域转换到另一个域的数学方法,它也可以应用于深度学习。 本文将讨论傅里叶变换,以及如何将其用于深度学习领域。 什么是傅里
阅读全文
摘要:为什么要增加训练数据 机器学习中的数据增强主要通过人工构建数据,增加训练集的大小使模型达到更好的泛化特性。这是一个在机器学习学科中进行的广泛研究的研究领域。 数据增强的主要作用如下: 增加了模型的概括功能; 对于不平衡数据集很有用; 可以最大程度地减少标注工作; 提高了针对对抗性攻击的健壮性; 一般
阅读全文
摘要:Micro-Outlier Removal:这个词听起来不错。但是这个术语是本文的作者首创的。所以应该找不到其他相关的资料,但是看完本篇文章你就可以了解这个词的含义。 在Kaggle 的《Titanic》排行榜中,作者使用这项技术获得了巨大排名飞跃- 在使用这个技术之前排名是12616 使用这个技术
阅读全文
摘要:分箱是一种常见的数据预处理技术有时也被称为分桶或离散化,他可用于将连续数据的间隔分组到“箱”或“桶”中。在本文中,我们将讨论使用 python Pandas 库对数值进行分箱的 4 种方法。 我们创建以下合成数据用于演示 import pandas as pd # version 1.3.5 imp
阅读全文
摘要:1、Hybridised Loss Functions for Improved Neural Network Generalisation Matthew C. Dickson, Anna S. Bosman, Katherine M. Malan https://arxiv.org/pdf/22
阅读全文
摘要:在 SimCLS [2]论文发布后不久,作者又发布了抽象文本摘要任务的SOTA结果 [1]。BRIO在上述论文的基础上结合了对比学习范式。 BRIO解决什么问题? 上图显示 seq2seq 架构中使用的传统 MLE 损失与无参考对比损失之间的差异。 我们通常使用最大似然估计(Maximum Like
阅读全文