07 2022 档案
摘要:本文将介绍如何使用内存映射文件加快PyTorch数据集的加载速度 在使用Pytorch训练神经网络时,最常见的与速度相关的瓶颈是数据加载的模块。如果我们将数据通过网络传输,除了预取和缓存之外,没有任何其他的简单优化方式。 但是如果数据本地存储,我们可以通过将整个数据集组合成一个文件,然后映射到内存中
阅读全文
摘要:Python 可以说是最容易入门的编程语言,在numpy,scipy等基础包的帮助下,对于数据的处理和机器学习来说Python可以说是目前最好的语言,在各位大佬和热心贡献者的帮助下Python拥有一个庞大的社区支持技术发展,开发两个各种 Python 包来帮助数据人员的工作。 在本文中,将介绍一些非
阅读全文
摘要:随着人工智能的发展为了解决具有挑战性的问题,人们创造了更复杂、更不透明的模型。AI就像一个黑匣子,能自己做出决定,但是人们并不清楚其中缘由。建立一个AI模型,输入数据,然后再输出结果,但有一个问题就是我们不能解释AI为何会得出这样的结论。需要了解AI如何得出某个结论背后的原因,而不是仅仅接受一个在没
阅读全文
摘要:RepVGG: Making VGG-style ConvNets Great Again 是2021 CVPR的一篇论文,正如他的名字一样,使用structural re-parameterization的方式让类VGG的架构重新获得了最好的性能和更快的速度。在本文中首先对论文进行详细的介绍,然后
阅读全文
摘要:数据预处理是机器学习生命周期的非常重要的一个部分。特征工程又是数据预处理的一个重要组成, 最常见的特征工程有以下一些方法: 编码 缩放 转换 离散化 分离 等等 在本文中主要介绍特征缩放和特征编码的主要方法。 特征缩放 特征缩放是一种在固定范围内对数据中存在的独立特征进行标准化的技术。有些机器学习模
阅读全文
摘要:大型网站类目目录的数量很大,一般都无法进行手动标记,所以理解大型目录的内容对在线业务来说是一个重大挑战,并且这使得对于新产品发现就变得非常困难,但这个问题可以通过使用自监督神经网络模型来解决。 在过去我们一直使用人工在系统中进行产品的标记,这样的确可以解决问题但是却耗费了很多人力的成本。如果能够创建
阅读全文
摘要:什么是CodeBert CodeBERT是微软在2020年开发的BERT模型的扩展。它是一个用于编程语言(PL)和自然语言(NL)的双峰预训练模型,可以执行下游的(NL-PL)任务,这个模型使用6种编程语言(Python, Java, JavaScript, PHP, Ruby, Go)进行NL-P
阅读全文
摘要:文档理解是文档处理和提取中最重要的步骤。这是从非结构化或半结构化文档中提取信息并将其转换为结构化形式的过程。提取后的结构化表示可以支持各种下游任务,例如信息检索,汇总,分类等。有许多不同的方法可以理解文档,但它们都有一个共同的目标:创建文档内容的结构化表示,以便用于进一步的处理。 对于半结构化文档,
阅读全文
摘要:KernelSHAP 和 TreeSHAP 都用于近似 Shapley 值。TreeSHAP 的速度很快,但是它只能用于基于树的算法,如随机森林和 xgboost。而KernelSHAP 与模型无关。这意味着它可以与任何机器学习算法一起使用。我们将比较这两种近似方法。 本文中的实验,将展示 Tree
阅读全文
摘要:在这篇文章中,我们将讨论分布式学习和联邦学习的主要原理以及它们是如何工作的。首先,我们从一个简单的单机示例开始,然后将其发展为分布式随机梯度下降(D-SGD),最后是联邦学习(FL)。 集中学习(单机) 一个最简单的例子,我们想学习人的身高和体重之间的线性关系,并且我们拥有100人的体重和身高数据,
阅读全文
摘要:在学习贝叶斯计算的解马尔可夫链蒙特卡洛(MCMC)模拟时,最简单的方法是使用PyMC3,构建模型,调用Metropolis优化器。但是使用别人的包我们并不真正理解发生了什么,所以本文通过手写Metropolis-Hastings来深入的理解MCMC的过程,再次强调我们自己实现该方法并不是并不是为了造
阅读全文
摘要:前几天的文章中我们提到MAE在时间序列的应用,本篇文章介绍的论文已经将MAE的方法应用到图中,这是来自[KDD2022]的论文GraphMAE: Self-supervised Masked Graph Autoencoders 生成学习与对比学习 自监督学习从大量的无监督数据中挖掘出自己需要的的监
阅读全文
摘要:贪婪搜索是在每个时间步中选择概率最高的单词,也是我们最常用的一种方法,Beam Search不取每个标记本身的绝对概率,而是考虑每个标记的所有可能扩展。然后根据其对数概率选择最合适的标记序列。 例如令牌的概率如下所示: 例如,Pancakes + looks时间段1的概率等效于: Pancakes
阅读全文
摘要:在本文中将使用Python演示如何解析文档(如pdf)并提取文本,图形,表格等信息。 文档解析涉及检查文档中的数据并提取有用的信息。它可以通过自动化减少了大量的手工工作。一种流行的解析策略是将文档转换为图像并使用计算机视觉进行识别。而文档图像分析(Document Image Analysis)是指
阅读全文
摘要:1、Low-Precision Arithmetic for Fast Gaussian Processes Wesley J. Maddox, Andres Potapczynski, Andrew Gordon Wilson https://arxiv.org/abs/2207.06856 低精
阅读全文
摘要:深度学习模型的可解释性为其预测提供了人类可以理解的推理。如果不解释预测背后的原因,深度学习算法就像黑匣子,对于一些场景说是无法被信任的。不提供预测的原因也会阻止深度学习算法在涉及跨域公平、隐私和安全的关键应用程序中使用。 深度学习模型的可解释性有助于增加对模型预测的信任, 提高模型对与公平、隐私和其
阅读全文
摘要:无监督学习(Unsupervised Learning)是和监督学习相对的另一种主流机器学习的方法,无监督学习是没有任何的数据标注只有数据本身。 无监督学习算法有几种类型,以下是其中最重要的12种: 1、聚类算法根据相似性将数据点分组成簇 k-means聚类是一种流行的聚类算法,它将数据划分为k组。
阅读全文
摘要:时间序列预测在最近两年内发生了巨大的变化,尤其是在kaiming的MAE出现以后,现在时间序列的模型也可以用类似MAE的方法进行无监督的预训练 Makridakis M-Competitions系列(分别称为M4和M5)分别在2018年和2020年举办(M6也在今年举办了)。对于那些不了解的人来说,
阅读全文
摘要:五年前深度学习的一切都是关于如何构建新的、更优化的模型,以便更好地从非结构化数据中学习。这些努力带来了许多研究突破,突破了神经网络的可能性。但慢慢地越来越多的人对这种方法提出了批评,并建议首先关注数据的质量和一致性。这些批评的声音通常来自行业,来自在关键业务环境中长时间大规模操作模型的专业人士。 在
阅读全文
摘要:我们以前也发过很多关于数据可视化的文章。但是对于展示来说,如果你的图表能够动起来,那么他的展示效果要比静态的图有更多的冲击力,尤其是你需要向领导和客户展示的时候。所以在本篇文章整列了2个简单的代码片段,可以让你的图表动起来 动画 Python中有许多用于绘制图形的库。Matplotlib, Seab
阅读全文
摘要:人体活动识别(HAR)是一种使用人工智能(AI)从智能手表等活动记录设备产生的原始数据中识别人类活动的方法。当人们执行某种动作时,人们佩戴的传感器(智能手表、手环、专用设备等)就会产生信号。这些收集信息的传感器包括加速度计、陀螺仪和磁力计。人类活动识别有各种各样的应用,从为病人和残疾人提供帮助到像游
阅读全文
摘要:本文将介绍如何使用深度高斯过程建模量化信号中的不确定性 先进的机器学习 (ML) 技术可以从数据中得出的非常复杂的问题的解答。但是由于其“黑盒”的性质,很难评估这些答案的正确性。如果想在照片中找到特定的人或者物,例如在照片中找到猫的照片,这可能是很适用的。但在处理医疗数据时,因为可解释性的原因一般都
阅读全文
摘要:什么是知识问答 基于知识的问答是以知识库为认知源,在知识库的基础上回答自然语言问题。 知识库(KB)是一个结构化数据库,其中包含形式<主题,关系,对象>的事实集合,每个事实都可以随附所谓的属性。 例如,“Barack Obama got married to Michelle Obama on
阅读全文
摘要:深度图像分类模型通常以监督方式在大型带注释数据集上进行训练。随着更多带注释的数据加入到训练中,模型的性能会提高,但用于监督学习的大规模数据集的标注成本时非常高的,需要专家注释者花费大量时间。为了解决这个问题,人们开始寻找更便宜的标注的标签来源,是否有可能从已经公开的数据中学习高质量的图像分类模型?
阅读全文
摘要:在以前的文章中,我们讨论过Transformer并不适合时间序列预测任务。为了解决这个问题Google创建了Hybrid Transformer-LSTM模型,该模型可以实现SOTA导致时间序列预测任务。 但是我实际测试效果并不好,直到2022年3月Google研究团队和瑞士AI实验室IDSIA提出
阅读全文
摘要:回归分析为许多机器学习算法提供了坚实的基础。在这篇文章中,我们将总结 10 个重要的回归问题和5个重要的回归问题的评价指标。 1、线性回归的假设是什么? 线性回归有四个假设 线性:自变量(x)和因变量(y)之间应该存在线性关系,这意味着x值的变化也应该在相同方向上改变y值。 独立性:特征应该相互独立
阅读全文
摘要:Numpy是python中最有用的工具之一。它可以有效地处理大容量数据。使用NumPy的最大原因之一是它有很多处理数组的函数。在本文中,将介绍NumPy在数据科学中最重要和最有用的一些函数。 创建数组 1、Array 它用于创建一维或多维数组 Dtype:生成数组所需的数据类型。 ndim:指定生成
阅读全文
摘要:pandas.read_csv 有很多有用的参数,你都知道吗?本文将介绍一些 pandas.read_csv()有用的参数,这些参数在我们日常处理CSV文件的时候是非常有用的。 pandas.read_csv() 是最流行的数据分析框架 pandas 中的一个方法。我们日常使用的时候这个函数也是我们
阅读全文
摘要:1、Deformable CNN and Imbalance-Aware Feature Learning for Singing Technique Classification Yuya Yamamoto, Juhan Nam, Hiroko Terasawa https://arxiv.org
阅读全文
摘要:论点挖掘(Argument Mining)是一项从文本中提取论点成分的任务,通常作为自动写作评估系统的一部分。这是自然语言处理中一个非常热门的领域。一个好的 AM 模型可以将一段原始将一段原始文本的序列标记为它们所属的论点内容。虽然历史上这一问题被视为一个语义分割问题,最先进的(SOTA) AM技术
阅读全文
摘要:经过几个月的测试GitHub Copilot终于开始收费了,每月10美元到底值不值呢,我想通过本篇文章作为例子来演示如何将Copilot用于探索性分析。希望这篇文章能成为一些新初学者的指南,因为在我看来 Copilot的确让编程体验更好!最后我也会写一些我的看法,至于买还是不买还是要看你的选择 本文
阅读全文
摘要:谱聚类和AP聚类是基于图的两种聚类,在这里我介绍AP聚类。 Affinity Propagation Clustering(简称AP算法)是2007提出的,当时发表在Science上《single-exemplar-based》。特别适合高维、多类数据快速聚类,相比传统的聚类算法,该算法算是比较新的
阅读全文