01 2022 档案
摘要:新神经网络架构设计的最新进展之一是注意力模块的引入。首次出现在在NLP 上的注意力背后的主要思想是为数据的重要部分添加权重。在卷积神经网络的情况下,第一个注意机制是在卷积块注意模型中提出的。其中注意机制分为两个部分:通道注意模块和空间注意模块。 空间注意模块通过将图像分解为两个通道,即最大池化和跨通
阅读全文
摘要:教师学生模型、伪标签、半监督学习和图像分类 使用 Noisy Student 进行自训练改进 ImageNet 分类是一篇由 Google Research、Brain Team 和Carnegie Mellon大学发表在2020 CVPR的论文 Noisy Student在训练时使用相等或更大的学
阅读全文
摘要:SpaCy 是一个免费的开源库,用于 Python 中的高级自然语言处理包括但不限于词性标注、dependency parsing、NER和相似度计算。它可帮助构建处理和理解大量文本的应用程序可用于多种方向,例如信息提取、自然语言理解或为深度学习提供文本预处理。 SpaCy 诞生于2014年年中(并
阅读全文
摘要:本文中将研究如何基于消息传递机制构建图卷积神经网络,并创建一个模型来对具有嵌入可视化的分子进行分类。 假设现在需要设计治疗某些疾病的药物。有一个其中包含成功治疗疾病的药物和不起作用的药物数据集,现在需要设计一种新药,并且想知道它是否可以治疗这种疾病。如果可以创建一个有意义的药物表示,就可以训练一个分
阅读全文
摘要:未标记的数据由监督学习网络标记,即所谓的伪标记。然后使用标记数据和伪标记数据训练网络。 伪标签 (Pseudo-Labels) 伪标签是对未标记数据的进行分类后的目标类,在训练的时候可以像真正的标签一样使用它们,在选取伪标签的时使用的模型为每个未标记样本预测的最大预测概率的类: 伪标签可以用于带有
阅读全文
摘要:在本文中,我列出了当今最常用的 NLP 库,并对其进行简要说明。它们在不同的用例中都有特定的优势和劣势,因此它们都可以作为专门从事 NLP 的优秀数据科学家备选方案。每个库的描述都是从它们的 GitHub 中提取的。 NLP库 以下是顶级库的列表,排序方式是在GitHub上的星数倒序。 1、Hugg
阅读全文
摘要:正态分布是高斯概率分布。高斯概率分布是反映中心极限定理原理的函数,该定理指出当随机样本足够大时,总体样本将趋向于期望值并且远离期望值的值将不太频繁地出现。高斯积分是高斯函数在整条实数线上的定积分。这三个主题,高斯函数、高斯积分和高斯概率分布是这样交织在一起的,所以我认为最好尝试一次性解决这三个主题(
阅读全文
摘要:这是一个我已经断断续续地研究了很长一段时间的项目。在此项目之前我从未尝试过修改游戏,也从未成功训练过“真正的”强化学习代理(智能体)。所以这个项目挑战是:解决钓鱼这个问题的“状态空间”是什么。当使用一些简单的 RL 框架进行编码时,框架本身可以为我们提供代理、环境和奖励,我们不必考虑问题的建模部分。
阅读全文
摘要:当我们需要对数据集进行聚类时,我们可能首先研究的算法是 K means, DBscan, hierarchical clustering 。那些经典的聚类算法总是将每个数据点视为一个点。但是,这些数据点在现实生活中通常具有大小或边界(边界框)。忽略点的边缘可能会导致进一步的偏差。RVN算法是一种考虑
阅读全文
摘要:为了提高机器学习应用程序的效率和质量,工业规模机器学习模型不断增加的复杂性刺激了对自动超参数调整方法的研究, 尽管自动超参数调整现是许多数据系统的重要组成部分,但最先进方法的有限可扩展性已成为瓶颈。 为了解决这个问题,北京大学、苏黎世联邦理工学院和快手科技的研究团队提出了 Hyper-Tune,这是
阅读全文
摘要:我们都知道神经网络模型中使用激活函数的主要目的是将非线性特性引入到我们的网络中,强化网络的学习能力。激活函数应用于隐藏层和输出层中每个节点的称为 z 的输入加权和(此处输入可以是原始数据或前一层的输出)。 在本篇文章中我们将讨论神经网络中常见的激活函数,并使用可视化技术帮助你了解激活函数的函数定义和
阅读全文
摘要:介绍 在这篇文章中,我们将使用现代的图机器学习技术在 Wikispeedia navigation paths路径数据集进行项目实践 West & Leskovec 之前在没有使用图神经网络 [1] 的情况下解决了类似的问题。Cordonnier & Loukas 还使用 Wikispeedia 图
阅读全文
摘要:TF-IDF, Word2Vec, GloVe, FastText, ELMO, CoVe, BERT, RoBERTa 词嵌入在深度模型中的作用是为下游任务(如序列标记和文本分类)提供输入特征。在过去的十年中,已经提出了很多种词嵌入方法,本片文章将对这些词嵌入的模型做一个完整的总结 与上下文无关
阅读全文
摘要:t 检验是一种统计技术,可以告诉人们两组数据之间的差异有多显著。它通过将信号量(通过样本或总体平均值之间的差异测量)与这些样本中的噪声量(或变化)进行比较来实现。有许多有用的文章会告诉你什么是 t 检验以及它是如何工作的,但没有太多材料讨论 t 检验的不同变体以及何时使用它们。本文将介绍 t 检验的
阅读全文
摘要:这是一篇在2020年发表在ICLR的论文,论文使用图神经网络从稀疏数据中学习连续时间偏微分方程,文章提出的模型主要创新点是允许任意空间和时间离散化,也就是说在求解偏微分划分网格时,网格可以是不均匀的,由于所求解的控制方程是未知的,在表示控制方程时,作者使用了消息传递的图神经网络进行参数化。 在许多系
阅读全文
摘要:Google发布的TabNet是一种针对于表格数据的神经网络,它通过类似于加性模型的顺序注意力机制(sequential attention mechanism)实现了instance-wise的特征选择,还通过encoder-decoder框架实现了自监督学习。 表格数据是日常中用到的最多的数据类
阅读全文
摘要:并非所有彩色的图像都应该是彩色的,或者换句话说并非所有使用 RGB(红、绿、蓝)编码的图像都应该使用这些颜色! 在本文中,我们将探讨特征工程的不同方式(将原始颜色值进行展开)如何有助于提高卷积神经网络的分类性能。 有多种方法可以更改和调整 RGB 图像的颜色编码(例如,将 RGB 转换为 HSV、L
阅读全文
摘要:图是我最喜欢使用的数据结构之一,它们可以使我们能够表示复杂的现实世界网络,如快速交通系统(例如,公交道路、地铁等)、区域或全球空中交通,或者人们的社交网络之类的相关事物。并且他们非常灵活,很容易被人类理解,但是为了让计算机“理解”和“学习”它们,我们需要额外的一步(称为矢量化)。这种解释可能过于简单
阅读全文
摘要:自举元学习到深度学习的时间序列预测,外推与泛化之间的关系与 Ridge Rider 探索多样化最优 ‘Bootstrapped Meta-Learning’ Flennerhag et al. (2021) | 📝 https://arxiv.org/pdf/2109.04504.pdf建议通过运
阅读全文
摘要:今天我将讨论如何在多分类中使用混淆矩阵评估模型的性能。 什么是混淆矩阵? 它显示了实际值和预测值之间的差异。它告诉我们有多少数据点被正确预测,哪些数据点没有被正确预测。对于多分类来说,它是一个 N * N 矩阵,其中 n 是编号。输出列中的类别,也称为目标属性。一二分类任务中包含了 2 个类也就是一
阅读全文
摘要:在本文中我们将使用深度学习方法 (LSTM) 执行多元时间序列预测。 我们先来了解两个主题—— 什么是时间序列分析? 什么是 LSTM? 时间序列分析:时间序列表示基于时间顺序的一系列数据。它可以是秒、分钟、小时、天、周、月、年。未来的数据将取决于它以前的值。 在现实世界的案例中,我们主要有两种类型
阅读全文
摘要:批大小是机器学习中重要的超参数之一。这个超参数定义了在更新内部模型参数之前要处理的样本数量。 上图为使用 SGD 测试不同批量大小的示例。 批量大小可以决定许多基于深度学习的神经网络的性能。有很多研究都在为学习过程评估最佳批量大小。例如,对于 SGD可以使用批量梯度下降(使用批量中的所有训练样本)或
阅读全文
摘要:多年来,深度学习一直在不断发展。深度学习实践高度强调使用大量参数来提取有关我们正在处理的数据集的有用信息。通过拥有大量参数,我们可以更容易地分类/检测某些东西,因为我们有更多的可以清楚地识别的数据。 目前为止深度学习中,特别是在自然语言处理领域的一个显着里程碑是语言模型的引入,它极大地提高了执行各种
阅读全文
摘要:Kaggle 决定将他们每月的表格竞赛延续到 2022 年这对于我们来说是非常好的消息。并且也Kaggle 表示他们已经考虑大家的评论,所以我希望这意味着他们将不再使用庞大到使系统崩溃的数据集,这次1月的比赛数据集就不是很大。 在我看来,2022 年 1 月的竞赛问题是对涵盖几年时间的销售额的预测,
阅读全文
摘要:还记得我们上次分享的使用DALL-E生成神奇宝贝的文章吗,这次Reddit的网友又给出了效果更好的版本。 每年数以百万计的人都热切地等待着新一代神奇宝贝的发布。尽管收藏不断增加,但目标始终如一——Gotta Catch 'Em All! 作为一个狂热的神奇宝贝粉丝和人工智能爱好者,我曾多次尝试将两者
阅读全文
摘要:variability被称作变异性或者可变性,它描述了数据点彼此之间以及距分布中心的距离。 可变性有时也称为扩散或者分散。因为它告诉你点是倾向于聚集在中心周围还是更广泛地分散。 低变异性是理想的,因为这意味着可以根据样本数据更好地预测有关总体的信息。高可变性意味着值的一致性较低,因此更难做出预测。在
阅读全文
摘要:图表是数据探索过程的基础,它们让我们更好地理解我们的数据——例如,帮助识别异常值或所需要做的数据处理或者作为建立机器学习模型提供新的想法和方式。绘制图表是任何数据科学报告的重要组成部分。 Python 有许多可视化库用于制作静态或动态图。在本教程中,我将尽力帮助你理解 matplotlib 逻辑。
阅读全文
摘要:重塑 DataFrame 是数据科学中一项重要且必不可少的技能。在本文中,我们将探讨 Pandas Melt() 以及如何使用它进行数据处理。 最简单的melt 最简单的melt()不需要任何参数,它将所有列变成行(显示为列变量)并在新列值中列出所有关联值。 df_wide.melt() 这个输出通
阅读全文
摘要:能够以准确有效的方式构建神经网络是招聘人员在深度学习工程师中最受追捧的技能之一。PyTorch 是一个 主要用于深度学习的Python 库。PyTorch 最基本也是最重要的部分之一是创建张量,张量是数字、向量、矩阵或任何 n 维数组。在构建神经网络时为了降低计算速度必须避免使用显式循环,我们可以使
阅读全文
摘要:什么是BERT? BERT(Bidirectional Encoder Representations from Transformers)在各种自然语言处理任务中提供了最前沿的结果在深度学习社区引起了轰动。德夫林等人。2018 年在 Google 使用英文维基百科和 BookCorpus 开发了
阅读全文