摘要:
在本文中我们将使用深度学习方法 (LSTM) 执行多元时间序列预测。 我们先来了解两个主题—— 什么是时间序列分析? 什么是 LSTM? 时间序列分析:时间序列表示基于时间顺序的一系列数据。它可以是秒、分钟、小时、天、周、月、年。未来的数据将取决于它以前的值。 在现实世界的案例中,我们主要有两种类型 阅读全文
摘要:
批大小是机器学习中重要的超参数之一。这个超参数定义了在更新内部模型参数之前要处理的样本数量。 上图为使用 SGD 测试不同批量大小的示例。 批量大小可以决定许多基于深度学习的神经网络的性能。有很多研究都在为学习过程评估最佳批量大小。例如,对于 SGD可以使用批量梯度下降(使用批量中的所有训练样本)或 阅读全文
摘要:
多年来,深度学习一直在不断发展。深度学习实践高度强调使用大量参数来提取有关我们正在处理的数据集的有用信息。通过拥有大量参数,我们可以更容易地分类/检测某些东西,因为我们有更多的可以清楚地识别的数据。 目前为止深度学习中,特别是在自然语言处理领域的一个显着里程碑是语言模型的引入,它极大地提高了执行各种 阅读全文
摘要:
Kaggle 决定将他们每月的表格竞赛延续到 2022 年这对于我们来说是非常好的消息。并且也Kaggle 表示他们已经考虑大家的评论,所以我希望这意味着他们将不再使用庞大到使系统崩溃的数据集,这次1月的比赛数据集就不是很大。 在我看来,2022 年 1 月的竞赛问题是对涵盖几年时间的销售额的预测, 阅读全文
摘要:
还记得我们上次分享的使用DALL-E生成神奇宝贝的文章吗,这次Reddit的网友又给出了效果更好的版本。 每年数以百万计的人都热切地等待着新一代神奇宝贝的发布。尽管收藏不断增加,但目标始终如一——Gotta Catch 'Em All! 作为一个狂热的神奇宝贝粉丝和人工智能爱好者,我曾多次尝试将两者 阅读全文
摘要:
variability被称作变异性或者可变性,它描述了数据点彼此之间以及距分布中心的距离。 可变性有时也称为扩散或者分散。因为它告诉你点是倾向于聚集在中心周围还是更广泛地分散。 低变异性是理想的,因为这意味着可以根据样本数据更好地预测有关总体的信息。高可变性意味着值的一致性较低,因此更难做出预测。在 阅读全文
摘要:
图表是数据探索过程的基础,它们让我们更好地理解我们的数据——例如,帮助识别异常值或所需要做的数据处理或者作为建立机器学习模型提供新的想法和方式。绘制图表是任何数据科学报告的重要组成部分。 Python 有许多可视化库用于制作静态或动态图。在本教程中,我将尽力帮助你理解 matplotlib 逻辑。 阅读全文
摘要:
重塑 DataFrame 是数据科学中一项重要且必不可少的技能。在本文中,我们将探讨 Pandas Melt() 以及如何使用它进行数据处理。 最简单的melt 最简单的melt()不需要任何参数,它将所有列变成行(显示为列变量)并在新列值中列出所有关联值。 df_wide.melt() 这个输出通 阅读全文
摘要:
能够以准确有效的方式构建神经网络是招聘人员在深度学习工程师中最受追捧的技能之一。PyTorch 是一个 主要用于深度学习的Python 库。PyTorch 最基本也是最重要的部分之一是创建张量,张量是数字、向量、矩阵或任何 n 维数组。在构建神经网络时为了降低计算速度必须避免使用显式循环,我们可以使 阅读全文
摘要:
什么是BERT? BERT(Bidirectional Encoder Representations from Transformers)在各种自然语言处理任务中提供了最前沿的结果在深度学习社区引起了轰动。德夫林等人。2018 年在 Google 使用英文维基百科和 BookCorpus 开发了 阅读全文