NeurIPS 2018 中的贝叶斯研究

WBLUE

2018年12月21日

雷锋网 AI 科技评论按：神经信息处理系统大会（NeurIPS）是人工智能领域最知名的学术会议之一，NeurIPS 2018 已于去年 12 月 3 日至 8 日在加拿大蒙特利尔市举办。来自 Zighra.com 的首席数据科学家在参加完此次会议之后，撰写了一篇关于贝叶斯研究的参会总结，雷锋网 AI 科技评论编译整理如下。

此次会议支持现场直播，所有讲座的视频内容均可以在 NeurIPS 的 Facebook 主页上找到，除此之外，NeurIPS 主页上还有一些非常有趣的主题演讲，其中最吸引我的是 Micheal Levin 教授讲的神经系统外的生物电计算、原始认知和综合形态学。其他值得关注还有，Joelle Pineau 教授演讲主题：可重复，可重用和可强化的强化学习，David Spiegelhalter 演讲主题：使算法值得信赖，以及 Kunle Olukotun 演讲主题：为软件 2.0 版本设计的计算机系统。还有一个非常有趣的研讨会，主要讨论机器学习在物理学领域的分子和材料中的应用。

我关注 NeurIPS2018 主要是为了解贝叶斯推断的最新研究动态及其在机器学习和人工智能领域中的应用。正如预期的那样，在为期 6 天的会议中，贝叶斯研究相关论文多达 70 多篇。David Dunson 教授关于可扩展贝叶斯推断的导读非常有用。本教程概述了使用贝叶斯统计方法分析海量数据集的最新方法。Dunson 教授讨论了扩展常用马尔可夫链蒙特卡罗（MCMC）算法的简单方法，例如：高速并行（EP）MCMC，近似 MCMC，随机近似，混合优化和采样以及模块化。这些方法在计算广告学，基因组学和神经科学等领域均有应用。

还有两个与贝叶斯推断相关的研讨会。一个是贝叶斯深度学习，另一个是非参数化贝叶斯推断，目前都是非常活跃的研究领域。

口头报告和展板涵盖了贝叶斯推断的几个方面，包括理论进步和其在机器学习中的应用。涵盖的主题包括贝叶斯深度学习，贝叶斯强化学习，贝叶斯优化，变分推断，变分自动编码器，马尔可夫链蒙特卡罗（MCMC）方法，表示学习或元学习，认知科学，差分隐私，近似贝叶斯方法和贝叶斯网络。这一系列主题展示了贝叶斯方法在机器学习和人工智能中的重要性。

我将在这里总结一些我发现有趣的演讲/展板，完整的演讲/展板清单可以在 NeurIPS2018 会议论文页面找到。

基于贝叶斯优化和最优传输的神经架构搜索

在这项工作中，作者开发了 NASBOT，这是一种基于高斯过程的贝叶斯优化框架，用于神经架构搜索。作者在神经网络架构的空间中提出了一个距离度量，可以通过最优的传输程序进行有效计算。

通过贝叶斯网络结构学习构建深度神经网络

本文作者介绍了深度神经网络无监督结构学习的原理。他们提出了深度和层间连接的新解释，其中输入分布中的条件独立性在网络结构中被分层编码，这样可以固有地确定网络的深度。该方法将神经网络结构学习问题隐射为贝叶斯网络结构学习的问题。

深度学习的解释模型——一种非参数化的贝叶斯方法

在这项工作中，作者提出了一种新的技术方法，它增加了具有多个弹性网的贝叶斯非参数回归混合模型。使用增强混合模型，可以通过全局近似提取目标模型的泛化理解。

贝叶斯对抗学习

深度神经网络容易受到对抗性攻击，标准的防御性方法是将其作为一个强大的优化问题。本文则是最小化了从对抗数据生成分布中生成的最坏情况损失的点估计。这项工作提出了一种新的强大的训练框架，称为贝叶斯鲁棒学习，其中对对抗性数据生成分布进行分配，以解释对抗性数据生成过程的不确定性。

贝叶斯分布随机梯度下降

这项工作讨论了一种用于在并行集群上训练深度神经网络的高吞吐量算法。该算法在生成模型中使用平摊推理，以计算群集的特定方式执行小批量梯度计算时间的联合后验预测推断。特别地是，该算法在基于梯度的同步优化中，通过选择一个最优的中断（cutoff）来缓解算法中的掉队问题。

贝叶斯模型不可知元学习

在本文中，作者提出了一种新的贝叶斯模型不可知元学习方法，用于从小数据集中学习。该方法将原有的基于梯度的元学习与非参数变分推断结合在一个有原则的概率框架中。

平均美及其环境调节：贝叶斯统计账户

了解人类如何感知高维物体（如面部）的美感是认知科学和 AI / ML 中的一个重要问题。从心理学文献中可知，人类对面部吸引力的评估是依赖于环境的。在本文中，作者假设，当一个对象的编码成本较低时，特别是当其感知的统计典型性较高时，人类对一个对象的喜好会增加，这与 Barlow 的开创性的编码假设一致。

来自演示的时间任务规范的贝叶斯推断

当观察任务演示时，人类学徒能够先于获得实际执行该任务的专业知识之前就能知道给定任务是否正确执行。作者提出了贝叶斯指数推断，这是一种推断任务规范作为时间逻辑公式的概率模型。作者将概率编程的方法与独立于领域的似然函数结合起来，以定义它们的先验，从而支持基于采样的推断。

通过鞍点进行预测近似贝叶斯计算

当似然函数难以处理时，近似贝叶斯计算（ABC）是贝叶斯推理的一种重要方法。在本文中，作者介绍了一种基于优化的 ABC 框架，该框架解决了现有方法的不足。利用生成模型进行后验和联合分布匹配，作者表明，ABC 可以被定义为鞍点问题，其目标可以直接用样本访问。

多专家强化学习：贝叶斯模型组合方法

在本文中，作者将贝叶斯模型与多个专家相组合，使其学习如何在训练过程中信任优秀的专家组合。

变分贝叶斯蒙特卡罗

许多在科学计算和机器学习中大热的概率模型是很棘手的，需要求梯度或大量似然估计。作者在这里介绍了一种新的样本推断框架，即变分贝叶斯蒙特卡罗（VBMC）。 VBMC 将变分推断与基于高斯过程的主动采样贝叶斯积分相结合，使用后者有效地近似变分目标中的难以求得的积分。

深度高斯过程的随机梯度哈密顿蒙特卡罗推断

深度高斯过程（DGP）是高斯过程的分层推广，其将良好校准的不确定性估计与多层模型的高灵敏度相结合。这些模型面临的最大挑战之一是精确推断是很难处理的。在这项工作中，作者提供了后验的非高斯性质的证据，并且他们应用随机梯度哈密顿蒙特卡罗方法从后验分布生成样本。

算法保证：使用贝叶斯优化进行算法测试的主动方法

在这项工作中，作者引入了算法保证，即测试机器学习算法是否符合其预期设计目标的问题。作者在数学上将此任务表述为昂贵的黑盒函数的优化问题。他们使用基于贝叶斯优化的主动学习方法来解决这个优化问题。

用易处理变分推断的离散松弛连续变量

作者探讨了贝叶斯变分推断的一个新的研究方向，即离散潜变量先验，他们利用 Kronecker 矩阵代数进行对数似然（证据）下界（ELBO）的高效精确计算。这导致后验样本由稀疏和低精度量化整数组成，其允许在硬件受限设备上快速推断。

Wasserstein 变分推断

本文介绍了 Wasserstein 变分推理，一种基于最优传输理论的近似贝叶斯推理的新形式。Wasserstein 变分推理使用一个新的分歧，包括 f-散度和 Wasserstein 距离作为特殊情况。该技术产生非常稳定的训练方法，可以与隐式分布和概率程序一起使用。

在变分自动编码器中学习潜在子空间

通常很难解释使用变分自动编码器（VAE）学习的潜在空间表示。作者提出了一种基于 VAE 的生成模型，它能够提取与数据中二进制标签相关的特征，并在容易表示的潜在子空间中构造它。

用于分子设计的约束图变分自动编码器

在强调化学应用的同时，作者探索了学习生成符合训练数据中观察到的分布的图的任务。他们提出了一种变分自动编码器模型，其中编码器和解码器都是图结构的。他们表明，通过使用潜在空间的大致形状，该模型可以设计在所需特性（局部）中最佳的分子。

我可能在这里省略了在 NeurIPS2018 上提出的关于贝叶斯推断的其他几项重要工作。这在一定程度上是因为我的个人选择，而且我可能也没有在会议上提交的数百篇论文和展板中注意到它们。建议读者通过 NeurIPS2018 会议论文搜索其他有趣的论文。

总之，在 NeurIPS2018 上提出的关于贝叶斯推断的工作清单显示了该主题在机器学习和人工智能时代的相关性。去年，贝叶斯推断在后验密度估计的更好算法方面取得了一些重要进展，并在从深度学习模型的解释到新分子设计等问题上得到了应用。

via：https://medium.com/datadriveninvestor/bayesian-research-in-neurips2018-319cdbca71e9

posted on 2019-09-30 13:14 曹明阅读(366) 评论(0) 收藏举报