摘要:
机器学习是人工智能的一个分支领域,致力于构建自动学习和自适应的系统,它利用统计模型来可视化、分析和预测数据。一个通用的机器学习模型包括一个数据集(用于训练模型)和一个算法(从数据学习)。但是有些模型的准确性通常很低产生的结果也不太准确,克服这个问题的最简单的解决方案之一是在机器学习模型上使用集成学习 阅读全文
摘要:
当涉及大量数据时,Pandas 可以有效地处理数据。但是它使用CPU 进行计算操作。该过程可以通过并行处理加快,但处理大量数据仍然效率不高。 在以前过去,GPU 主要用于渲染视频和玩游戏。但是现在随着技术的进步大多数大型项目都依赖 GPU 支持,因为它具有提升深度学习算法的潜力。 Nvidia的开源 阅读全文
摘要:
时间序列是由表示时间的x轴和表示数据值的y轴组成,使用折线图在显示数据随时间推移的进展时很常见。它在提取诸如趋势和季节性影响等信息方面有一些好处。 但是在处理超长的时间轴时有一个问题。尽管使用数据可视化工具可以很容易地将长时间序列数据拟合到绘图区域中,但结果可能会很混乱。让我们比较一下下面的两个示例 阅读全文
摘要:
在Ian Goodfellow和其他研究人员在一篇论文中介绍生成对抗网络两年后,Yann LeCun称对抗训练是“过去十年里ML最有趣的想法”。尽管GANs很有趣,也很有前途,但它只是生成模型家族的一部分,是从完全不同的角度解决传统AI问题,在本文中我们将对比常见的三种生成模型。 生成算法 当我们想 阅读全文
摘要:
Vision Transformer和MLP-Mixer是深度学习领域最新的两个体系结构。他们在各种视觉任务中都非常成功。视觉Vision Transformer的性能略好于MLP-Mixers,但更复杂。但是这两个模型非常相似,只有微小的区别。本文中将对两个模型中的组件进行联系和对比,说明了它们的 阅读全文
摘要:
对于数据科学,Python通常被广泛地用于进行数据的处理和转换,它提供了强大的数据结构处理的函数,使数据处理更加灵活,这里说的“灵活性”是什么意思? 这意味着在Python中总是有多种方法来实现相同的结果,我们总是有不同的方法并且需要从中选择易于使用、省时并能更好控制的方法。 要掌握所有的这些方法是 阅读全文
摘要:
1、伯努利试验与二项分布的区别 伯努利试验仅指单个试验,而二项分布指多个伯努利试验。伯努利有两种可能的结果:成功和失败。 2、你需要采取那些步骤进行抽样才能正确推断总体 样本是随机选择的,需要无偏差地反映所有可满足的状态。如果有偏差则偏差也需要是最小的。 3、为什么我们必须使用推论统计而不是描述统计 阅读全文
摘要:
PyMC3(现在简称为PyMC)是一个贝叶斯建模包,它使数据科学家能够轻松地进行贝叶斯推断。 PyMC3采用马尔可夫链蒙特卡罗(MCMC)方法计算后验分布。这个方法相当复杂,原理方面我们这里不做详细描述,这里只说明一些简单的概念,为什么使用MCMC呢? 这是为了避开贝叶斯定理中计算归一化常数的棘手问 阅读全文
摘要:
基于 transformer 的双向编码器表示(BERT)和微软的图灵自然语言生成(T-NLG)等模型已经在机器学习世界中广泛的用于自然语言处理(NLP)任务,如机器翻译、文本摘要、问题回答、蛋白质折叠预测,甚至图像处理任务。 在本文中,对基于transformer 的工作成果做了一个简单的总结,将 阅读全文
摘要:
在机器学习中,我们通常致力于针对单个任务,也就是优化单个指标。但是多任务学习(MTL)在机器学习的许多应用中都取得了成功,从自然语言处理和语音识别到计算机视觉和药物发现。 MTL最著名的例子可能是特斯拉的自动驾驶系统。在自动驾驶中需要同时处理大量任务,如物体检测、深度估计、3D重建、视频分析、跟踪等 阅读全文