摘要:
回归分析为许多机器学习算法提供了坚实的基础。在这篇文章中,我们将总结 10 个重要的回归问题和5个重要的回归问题的评价指标。 1、线性回归的假设是什么? 线性回归有四个假设 线性:自变量(x)和因变量(y)之间应该存在线性关系,这意味着x值的变化也应该在相同方向上改变y值。 独立性:特征应该相互独立 阅读全文
摘要:
Numpy是python中最有用的工具之一。它可以有效地处理大容量数据。使用NumPy的最大原因之一是它有很多处理数组的函数。在本文中,将介绍NumPy在数据科学中最重要和最有用的一些函数。 创建数组 1、Array 它用于创建一维或多维数组 Dtype:生成数组所需的数据类型。 ndim:指定生成 阅读全文
摘要:
pandas.read_csv 有很多有用的参数,你都知道吗?本文将介绍一些 pandas.read_csv()有用的参数,这些参数在我们日常处理CSV文件的时候是非常有用的。 pandas.read_csv() 是最流行的数据分析框架 pandas 中的一个方法。我们日常使用的时候这个函数也是我们 阅读全文
摘要:
1、Deformable CNN and Imbalance-Aware Feature Learning for Singing Technique Classification Yuya Yamamoto, Juhan Nam, Hiroko Terasawa https://arxiv.org 阅读全文
摘要:
论点挖掘(Argument Mining)是一项从文本中提取论点成分的任务,通常作为自动写作评估系统的一部分。这是自然语言处理中一个非常热门的领域。一个好的 AM 模型可以将一段原始将一段原始文本的序列标记为它们所属的论点内容。虽然历史上这一问题被视为一个语义分割问题,最先进的(SOTA) AM技术 阅读全文
摘要:
经过几个月的测试GitHub Copilot终于开始收费了,每月10美元到底值不值呢,我想通过本篇文章作为例子来演示如何将Copilot用于探索性分析。希望这篇文章能成为一些新初学者的指南,因为在我看来 Copilot的确让编程体验更好!最后我也会写一些我的看法,至于买还是不买还是要看你的选择 本文 阅读全文
摘要:
谱聚类和AP聚类是基于图的两种聚类,在这里我介绍AP聚类。 Affinity Propagation Clustering(简称AP算法)是2007提出的,当时发表在Science上《single-exemplar-based》。特别适合高维、多类数据快速聚类,相比传统的聚类算法,该算法算是比较新的 阅读全文
摘要:
在本篇文章中,我们将讨论机器学习和深度学习的不同领域中的一个热门话题:零样本和少样本学习(Zero and Few Shot learning),它们在自然语言处理到计算机视觉中都有不同的应用场景。 少样本学习 在监督分类器中,所有的模型试图学习的是区分不同的对象的的特征,无论数据是什么形式存在的, 阅读全文
摘要:
一般情况下我们在做数据预处理时都是使用StandardScaler来特征的标准化,如果你的数据中包含异常值,那么效果可能不好。 这里介绍的方法叫Robust Scaling,正如它的名字一样能够获得更健壮的特征缩放结果。与StandardScaler缩放不同,异常值根本不包括在Robust Scal 阅读全文
摘要:
时间序列预测是基于时间数据进行预测的任务。它包括建立模型来进行观测,并在诸如天气、工程、经济、金融或商业预测等应用中推动未来的决策。 本文主要介绍时间序列预测并描述任何时间序列的两种主要模式(趋势和季节性)。并基于这些模式对时间序列进行分解。最后使用一个被称为Holt-Winters季节方法的预测模 阅读全文