02 2023 档案
摘要:在20世纪,统计学还处于起步阶段计算机还不是那么流行的时候,假设正态分布是生成数据的标准。这主要是因为在那个所有结果都是手工计算的时代,正态分布可以使计算不那么繁琐。 但在这个大数据时代,随着计算能力的提高,数据的可用性使得统计学家采用了更现代的技术——非参数统计。这里我们将讨论一种这样的方法来估计
阅读全文
摘要:上篇文章我们已经介绍了一些常见的聚类算法,下面我们将要介绍评估聚类算法的指标 在聚类算法中,评估聚类结果的好坏是非常重要的。常见的聚类评估指标包括: Rand Index:用于衡量聚类结果和真实标签之间的相似度。 Adjusted Rand Score:Rand Index的调整版本,可以对随机结果
阅读全文
摘要:无监督聚类方法的评价指标必须依赖于数据和聚类结果的内在属性,例如聚类的紧凑性和分离性,与外部知识的一致性,以及同一算法不同运行结果的稳定性。 本文将全面概述Scikit-Learn库中用于的聚类技术以及各种评估方法。 本文将分为2个部分,1、常见算法比较 2、聚类技术的各种评估方法 本文作为第一部分
阅读全文
摘要:在机器学习中,特征是指对象、人或现象的可测量和可量化的属性或特征。特征可以大致分为两类:稀疏特征和密集特征。 完整文章: https://avoid.overfit.cn/post/db548d55a7f44ec791bbc024727673e8
阅读全文
摘要:机器学习可以用来解决广泛的问题。但是有很多多不同的模型可以选择,要知道哪一个适合是一个非常麻烦的事情。本文的总结将帮助你选择最适合需求的机器学习模型。 完整文章: https://avoid.overfit.cn/post/dee6ac1aae804fc1b40c849412076d0c
阅读全文
摘要:当我们的数据涉及日期和时间时,分析随时间变化变得非常重要。Pandas提供了一种方便的方法,可以按不同的基于时间的间隔(如分钟、小时、天、周、月、季度或年)对时间序列数据进行分组。 在Pandas中,有几种基于日期对数据进行分组的方法。我们将使用这些虚拟数据进行演示: https://avoid.o
阅读全文
摘要:广义学习矢量量化(Generalized Learning Vector Quantization,GLVQ)是一种基于原型的分类算法,用于将输入数据分配到先前定义的类别中。GLVQ是LVQ(Learning Vector Quantization)的一种扩展形式,LVQ在特征空间中利用一组代表性原
阅读全文
摘要:周期是数据中出现重复模式所需的时间长度。更具体地说,它是模式的一个完整周期的持续时间。在这篇文章中,将介绍计算时间序列周期的三种不同方法。 我们使用City of Ottawa 数据集,主要关注的是每天的服务呼叫数量。所以不需要对病房名称进行初始数据处理。Ottawa 数据集在渥太华市提供的数据门户
阅读全文
摘要:时间序列是指在一段时间内发生的任何可量化的度量或事件。尽管这听起来微不足道,但几乎任何东西都可以被认为是时间序列。一个月里你每小时的平均心率,一年里一只股票的日收盘价,一年里某个城市每周发生的交通事故数。在任何一段时间段内记录这些信息都被认为是一个时间序列。对于这些例子中的每一个,都有事件发生的频率
阅读全文
摘要:使用大型数据集训练大型深度神经网络 (DNN) 的问题是深度学习领域的主要挑战。 随着 DNN 和数据集规模的增加,训练这些模型的计算和内存需求也会增加。 这使得在计算资源有限的单台机器上训练这些模型变得困难甚至不可能。 使用大型数据集训练大型 DNN 的一些主要挑战包括: 训练时间长:训练过程可能
阅读全文
摘要:在日常生活中,我们经常使用这些术语。但是在统计学和机器学习上下文中使用时,有一个本质的区别。本文将用理论和例子来解释概率和似然之间的关键区别。 概率与似然 假设在一场棒球比赛中,两队的队长都被召集到场上掷硬币。获胜的队长将根据掷硬币的结果选择先击球还是先投球。 现在,获胜的队长选择先击球的概率是多少
阅读全文
摘要:知识图谱嵌入(KGE)是一种利用监督学习来学习嵌入以及节点和边的向量表示的模型。它们将“知识”投射到一个连续的低维空间,这些低维空间向量一般只有几百个维度(用来表示知识存储的内存效率)。向量空间中,每个点代表一个概念,每个点在空间中的位置具有语义意义,类似于词嵌入。 一个好的KGE 应该具有足够的表
阅读全文
摘要:本月的论文包括语言模型、扩散模型、音乐生成、多模态等主题。 1、MusicLM: Generating Music From TextPage https://arxiv.org/abs/2301.11325 By Andrea Agostinelli, Timeo I. Denk, et al.
阅读全文
摘要:提起三维重建技术,NeRF是一个绝对绕不过去的名字。这项逆天的技术,一经提出就被众多研究者所重视,对该技术进行深入研究并提出改进已经成为一个热点。不到两年的时间,NeRF及其变种已经成为重建领域的主流。本文通过100行的Pytorch代码实现最初的 NeRF 论文。 NeRF全称为Neural Ra
阅读全文
摘要:数据可视化是数据分析的一个重要方面,它提供了一种理解数据并从中得出有意义见解的方法。Pandas 是最常见的于数据分析的 Python 库,它基于Matplotlib扩展了一些常用的可视化图表,可以方便的调用,本篇文章就让我们看看有哪些图表可以直接使用。 在本文中,我们介绍使用 Pandas 进行数
阅读全文
摘要:XAI的目标是为模型的行为和决定提供有意义的解释,本文整理了目前能够看到的10个用于可解释AI的Python库 什么是XAI? XAI,Explainable AI是指可以为人工智能(AI)决策过程和预测提供清晰易懂的解释的系统或策略。XAI 的目标是为他们的行为和决策提供有意义的解释,这有助于增加
阅读全文
摘要:随着NLP(自然语言处理)的最新进展,OpenAI的GPT-3已经成为市场上最强大的语言模型之一。2022年1月25日,OpenAI公布了一个embedding endpoint(Neelakantan et al., 2022)。该神经网络模型将文本和代码转换为向量表示,将它们嵌入到高维空间中。这
阅读全文
摘要:scikit-learn是Python中最好的机器学习库,而PyTorch又为我们构建模型提供了方便的操作,能否将它们的优点整合起来呢?在本文中,我们将介绍如何使用 scikit-learn中的网格搜索功能来调整 PyTorch 深度学习模型的超参数: 如何包装 PyTorch 模型以用于 scik
阅读全文
摘要:评估指标是用于评估机器学习模型性能的定量指标。它们提供了一种系统和客观的方法来比较不同的模型并衡量它们在解决特定问题方面的成功程度。通过比较不同模型的结果并评估其性能可以对使用哪些模型、如何改进现有模型以及如何优化给定任务的性能做出正确的决定,所以评估指标在机器学习模型的开发和部署中发挥着至关重要的
阅读全文
摘要:混合精度已经成为训练大型深度学习模型的必要条件,但也带来了许多挑战。将模型参数和梯度转换为较低精度数据类型(如FP16)可以加快训练速度,但也会带来数值稳定性的问题。使用进行FP16 训练梯度更容易溢出或不足,导致优化器计算不精确,以及产生累加器超出数据类型范围的等问题。 在这篇文章中,我们将讨论混
阅读全文
摘要:Numpy 是一个强大的 Python 计算库。它提供了广泛的数学函数,可以对数组和矩阵执行各种操作。本文中将整理一些基本和常用的数学操作。 基本数学运算:Numpy 提供了许多基本数学函数,用于对数组执行加、减、乘、除等运算。这些函数包括 numpy.add()、numpy.subtract()、
阅读全文
摘要:本文将演示 3 个处理时间序列数据最常用的 pandas 操作 首先我们要导入需要的库: importpandasaspd importnumpyasnp importmatplotlib.pyplotasplt 本文使用的数据集非常简单。它只有 1 列,名为 VPact (mbar),表示气候中的
阅读全文
摘要:本文将展示如何使用JAX/Flax实现Vision Transformer (ViT),以及如何使用JAX/Flax训练ViT。 Vision Transformer 在实现Vision Transformer时,首先要记住这张图。 以下是论文描述的ViT执行过程。 从输入图像中提取补丁图像,并将其
阅读全文
摘要:混合模型ACmix将自注意与卷积的整合,同时具有自注意和卷积的优点。这是清华大学、华为和北京人工智能研究院共同发布在2022年CVPR中的论文 卷积分解与自注意力 卷积分解 标准卷积: https://avoid.overfit.cn/post/a56a24e0637e4ae38d1e2459a1d
阅读全文
摘要:在本文中,我们将介绍一种从相关特征的高维数据中选择或提取特征的有用方法。 谱聚类是一种基于图论的聚类方法,通过对样本数据的拉普拉斯矩阵的特征向量进行聚类,从而达到对样本数据聚类的目的。谱聚类可以理解为将高维空间的数据映射到低维,然后在低维空间用其它聚类算法(如KMeans)进行聚类 本文使用2021
阅读全文
摘要:apply函数是我们经常用到的一个Pandas操作。虽然这在较小的数据集上不是问题,但在处理大量数据时,由此引起的性能问题会变得更加明显。虽然apply的灵活性使其成为一个简单的选择,但本文介绍了其他Pandas函数作为潜在的替代方案。 在这篇文章中,我们将通过一些示例讨论apply、agg、map
阅读全文
摘要:本文整理了 2023 年 1 月5 篇著名的 AI 论文,涵盖了计算机视觉、自然语言处理等方面的新研究。 InstructPix2Pix: Learning to Follow Image Editing Instructions 伯克利分校的研究人员开发了一种使用人工指令编辑图像的新方法。通过结合
阅读全文
摘要:作为机器学习从业者,我们经常会遇到这样的情况,想要训练一个比较大的模型,而 GPU 却因为内存不足而无法训练它。当我们在出于安全原因不允许在云计算的环境中工作时,这个问题经常会出现。在这样的环境中,我们无法足够快地扩展或切换到功能强大的硬件并训练模型。并且由于梯度下降算法的性质,通常较大的批次在大多
阅读全文