多所知名高校合著综述论文、Nature新子刊创刊首发,这是你常听到的贝叶斯统计与建模

一篇关于贝叶斯统计与建模的综述文章,出现在了 Nature 新子刊 Nature Reviews Methods Primers 的第一期上。

新年伊始,Nature 旗下再添三本新刊:Nature Aging(《自然 – 老龄化》)、Nature Computational Science(《自然 – 计算科学》)和 Nature Reviews Methods Primers(《自然综述 – 要领导论》)。其中 Nature Reviews Methods Primers 以刊发综述文章的形式为读者提供各种科学要领的概述及其在不同钻研问题上的使用,每周出版一次。期刊上的所有文章都将采取约稿形式,涵盖生命科学和物理科学中使用的分析、使用、统计、理论和计算要领。1 月 14 日,Nature Reviews Methods Primers 上线第一期,刊登了一篇关于贝叶斯统计与建模的综述文章,作者来自荷兰乌得勒支大学、加州大学默塞德分校、爱丁堡大学、牛津大学、乔治城大学、莱斯大学、哥伦比亚大学、艾伦 · 图灵钻研所等机构。

多所知名高校合著综述论文、Nature新子刊创刊首发,这是你常听到的贝叶斯统计与建模

这篇文章描述了贝叶斯分析的各个阶段,从指定先验和数据模型,到判断、模型测验与改进,探讨了先验和后验展望测验的重要性,选择恰当的技术从后验分散、变分判断和变量选择中采样。此外,这篇文章还提供了贝叶斯分析在多个钻研范畴的成功使用示例,包括社会科学、生态学、遗传学、医学等,并提出了可复现性策略和报告标准,概述了更新版的 WAMBS(何时需要担心误用贝叶斯统计以及如何避免)检查表。最后,这篇文章介绍了贝叶斯分析对人工智能的影响。贝叶斯统计简介贝叶斯统计是鉴于贝叶斯定理的数据分析和参数估计要领,其独特性在于统计模型中的察看和未察看参数是鉴于联合几率分散的,即先验分散和数据分散。典型的贝叶斯工作过程包括三个主要步骤(参见下图 1):通过先验分散捕捉统计模型中给定参数的可用知识,这通常是在数据收集之前确定的;利用察看数据中可用参数的信息确定似然函数;利用贝叶斯定理结合先验分散和似然函数,得到后验分散。后验分散用察看数据来平衡先验知识,从而反映更新的知识,可用于执行判断。在对该联合几率分散取平均时,贝叶斯判断是最优的,对这些定量的判断鉴于察看数据的条件分散。

多所知名高校合著综述论文、Nature新子刊创刊首发,这是你常听到的贝叶斯统计与建模

图 1:贝叶斯钻研阶段。a. 标准钻研过程;b. 利用贝叶斯统计的钻研工作过程。(注:图中后验的表示 p(y|θ) 应为 p(θ|y))贝叶斯统计的基础最初出现在 Reverend Thomas Bayes 的文章中,后来由贝叶斯的朋友 Richard Price 在 1763 年发表了这篇文章,主要关于逆几率,即如何仅鉴于过去的事件确定未来事件发生的几率。1825 年,Pierre Simon Laplace 重新发现了贝叶斯公式,也就是今天我们所说的贝叶斯定理。逆几率与贝叶斯定理在数学范畴中长期存在,但直到最近 50 年,这些工具才在使用统计学范畴中崛起。

多所知名高校合著综述论文、Nature新子刊创刊首发,这是你常听到的贝叶斯统计与建模

贝叶斯定理。(来源:https://zh.wikipedia.org/zh-hans/%E8%B4%9D%E5%8F%B6%E6%96%AF%E5%AE%9A%E7%90%86)贝叶斯工作过程贝叶斯工作过程的前两个步骤如上图 1 所示。首先确定先验分散,先验的选择通常被视为钻研者在实现贝叶斯模型时要做的一个更重要的选择,因为它对最终结果影响巨大。要实现合适的先验,需要用到先验展望测验过程。然后是确定似然函数,将似然函数结合先验得到后验分散(或后验)。先验和似然函数对于确定后验分散非常重要。这篇文章提供了多个示例来展示整个过程。第一个示例是关于博士延毕的。钻研者询问 333 名博士生完成博士论文所需的时间,进而计算延迟时间,即计划时间与实际时间的差距(时间单位为月)。先验分散首先需要形式化先验分散。先验分散在贝叶斯统计中起到决定性作用。下图 2 展示了该示例中似然函数、先验分散和后验分散的关系:

多所知名高校合著综述论文、Nature新子刊创刊首发,这是你常听到的贝叶斯统计与建模

图 2:贝叶斯定理重要组件图示。先验展望测验 由于鉴于贝叶斯分析的判断受限于先验的「正确性」(correctness),因此我们需要审慎地测验指定模型是否能够生成实际数据。这部分通过先验展望测验过程来完成。先验展望测验有助于避免模型错误指定(参见下图 3),例如对比错误地用精度替代方差时的先验展望分散(图 3a)和鉴于正确超参数的分散(图 3b)。此外,这里还展示了察看数据和放荡数据的核密度估计,即对几率密度函数的估计结果(图 3c)。

多所知名高校合著综述论文、Nature新子刊创刊首发,这是你常听到的贝叶斯统计与建模

图 3:博士延毕示例中的先验展望测验。确定似然函数似然函数在贝叶斯判断和频率学派判断中都有使用。在两种判断范式下,似然函数的作用都是将察看数据的几率表示为未知参数。在一些案例中,指定似然函数是非常直接的,例如投掷一枚硬币的实验。

多所知名高校合著综述论文、Nature新子刊创刊首发,这是你常听到的贝叶斯统计与建模

似然函数的硬币实验示例。(来源:https://zh.wikipedia.org/wiki/%E4%BC%BC%E7%84%B6%E5%87%BD%E6%95%B0)后验分散指定先验和似然函数,并收集数据之后,就可以得到后验分散。本文解释了如何将模型与数据拟合来获取后验分散、如何选择变量,以及为什么需要后验展望测验。模型构建是一个迭代的过程,任何贝叶斯模型都可以看做是一个占位符,可以在面对新数据或对现有数据拟合不足时进行改进,也可以仅通过模型改进( model refinement)过程来实现。在贝叶斯判断中,模型拟合的一种不错要领是马尔可夫链蒙特卡罗要领(MCMC)。MCMC 能够利用计算机放荡间接获取对后验分散的判断,下表 1 概述了鉴于 MCMC 和不鉴于 MCMC 的采样技术。

多所知名高校合著综述论文、Nature新子刊创刊首发,这是你常听到的贝叶斯统计与建模

表 1:鉴于 MCMC 和不鉴于 MCMC 的采样技术概览。下图展示了在博士延毕示例中使用 MCMC 要领的后验估计情况:

多所知名高校合著综述论文、Nature新子刊创刊首发,这是你常听到的贝叶斯统计与建模

此外,实现贝叶斯分析有很多标准计算包,参见下表 2:

多所知名高校合著综述论文、Nature新子刊创刊首发,这是你常听到的贝叶斯统计与建模

表 2:常用的开源贝叶斯软件程序包。后验展望测验获取特定模型的后验分散后,我们可以用它放荡鉴于这一分散的新数据,这有助于评估模型是否提供有效展望,对未来事件进行判断。这些放荡可用于多种目的,比如通过对比察看数据和放荡数据的核密度估计值来测验放荡数据是否类似于察看数据。在评估模型是否与数据生成机制有不错的拟合时需要更正式的后验展望测验要领。任何参数依赖的统计或差异都可用于后验展望测验。这与先验展望测验的使用方式类似,但在对比察看数据和放荡数据时要更加严苛。为了阐释后验展望分散的用法,本文展示了另一个示例:了解一个维基百科网页的浏览量,以及与浏览量相关的时间关联因素。

多所知名高校合著综述论文、Nature新子刊创刊首发,这是你常听到的贝叶斯统计与建模

图 6:鉴于当前察看数据进行后验展望测验和对未来页面浏览量进行展望。使用贝叶斯判断在多个科学范畴得到了广泛使用,本文重点介绍了其在「社会和行为科学」、「生态学」和「遗传学」范畴的使用,此处不再展开介绍。可复现性与数据处理恰当的统计信息报告(包括数据和脚本共享)对于钻研的验证和可复现是关键因素。优秀的钻研实践鼓励可复现性,其工作过程参见下图 7:

多所知名高校合著综述论文、Nature新子刊创刊首发,这是你常听到的贝叶斯统计与建模

图 7:钻研工作过程中的可复现性因素。这里展示了贝叶斯钻研阶段(图 1)和 WAMBS 检查表在更广泛的钻研透明度中的使用,并提供了更新版的 WAMBS 检查表。

多所知名高校合著综述论文、Nature新子刊创刊首发,这是你常听到的贝叶斯统计与建模

多所知名高校合著综述论文、Nature新子刊创刊首发,这是你常听到的贝叶斯统计与建模

WAMBS 检查表更新版。对人工智能的影响出于支持大规模使用的需要,贝叶斯概念已经利用了以深度学习为中心的新技术的发展,包括深度学习框架(TensorFlow、Pytorch),创建表示能力更强、数据驱动的模型。除了提供一个强大的工具来挑选灵活、模块化的生成模型之外,DNN 已被用于开发新的近似推理要领,并为贝叶斯实践提出了一种新的范式,该范式将统计建模和计算融入了其核心之中。一个典型的例子就是变分自编码器,它已经成功地使用于多个范畴,比如单细胞基因组学,为这些范畴提供一个通用的建模框架。该框架带来了很多扩展,包括 latent factor disentanglement。底层的统计模型是一个简单的贝叶斯分层潜变量模型,将高维察看值映射到通过 DNN 定义的函数假定正态分散的低维潜变量。变分判断被用于近似潜变量的后验分散。然而,在标准变分判断中,我们为每个潜变量引入一个局部变分参数,在这种情况下,计算需求将随着数据样本的数量的变化呈线性增长。变分自编码器使用一种名为 amortization 的近似过程,用一个单一全局参数集(一种识别网络)取代对许多单个变分参数的判断。该识别网络用于参数化 DNN,输出每个数据点的局部变分参数。值得注意的是,当把模型和判断结合到一起并解释时,作为编解码算法的变分自编码器有一种优雅的解释:它由一个几率编码器和一个几率解码器组成。几率编码器是一个 DNN,可以将每个察看数据映射至潜在空间中的分散;而几率解码器是一个补充性的 DNN,将潜在空间中的每个点映射至察看空间中的分散。因此,模型指定和判断与变分自编码器产生关联,这表明贝叶斯建模和深度学习技术之间的边界越发模糊。其他近期的例子还包括使用 DNN 来构建几率模型,通过使用一系列逆变换来构建复杂的几率分散,以及针对可交换序列数据定义模型。DNN 的表达能力及其在模型构建和判断算法中的使用需要作出一些妥协,而这需要贝叶斯钻研。将模型与判断融合的趋势使得这些技术更多地使用于大规模数据问题,但是基础的贝叶斯概念仍然被完全纳入该范式中。尽管将贝叶斯要领使用于神经网络学习已经出现数十年了,但要想理解先验如何转换为特定的函数特性,我们仍需要进一步钻研涉及复杂网络结构的现代贝叶斯深度学习模型的先验指定。最近人工智能范畴的争论提到了对贝叶斯要领及其替代要领的需求。例如,深度集成被证明在处理模型不确定性时可作为贝叶斯要领的替代要领。但是,近期钻研还表明深度集成实际上可以理解为近似贝叶斯模型平均。类似地,dropout 是一种在 DNN 训练过程中广泛使用的正则化要领,它通过在网络训练过程中随机丢弃节点来提升模型鲁棒性。实验表明,dropout 能够提升泛化性、降低过拟合。针对 dropout 也出现了贝叶斯解释:几率模型的贝叶斯近似形式——深度高斯过程。尽管贝叶斯定理并未完全泛化至人工智能范畴的所有近期进展中,但贝叶斯思维被深深地嵌入了大量近期创新钻研,这无疑是一种成功。下一个十年将出现新的浪潮——贝叶斯智能的创新性发展。关于贝叶斯统计,你还可以阅读这篇文章这篇文章一经发布就引起了广泛关注,但也存在一些瑕疵。例如,知名科学科普博主 @光头怪博士 指出了图 1 中的后验表示错误,并推荐了另一篇他认为不错的文章。这篇论文对 MCMC 要领进行了基础介绍,对 MCMC 要领试图解决的问题、为什么使用,以及 MCMC 要领在理论和实践中的工作原理提供了强大的概念性理解。多所知名高校合著综述论文、Nature新子刊创刊首发,这是你常听到的贝叶斯统计与建模论文链接:https://arxiv.org/pdf/1909.12313.pdf原文链接:https://www.nature.com/articles/s43586-020-00001-2

原创文章,作者:机器之心,如若转载,请注明出处:https://www.iaiol.com/news/duo-suo-zhi-ming-gao-xiao-he-zhu-zong-shu-lun-wen-nature/

(0)
上一篇 2021年 1月 29日 下午4:14
下一篇 2021年 2月 1日 下午3:40

相关推荐

  • 时在中春,阳和方起——机械之心 AI 科技年会本月见

    这是一次注重交换的聚会,所以叫「年会」,没叫「大会」。

    2022年 3月 1日
  • 银行流水、财报、年报、电费分割单等各类文档一键提炼,悲观表格提炼对象再升级!

    很多工作流程中涉及文档的表格的提炼,比如财报信息的鉴别提炼、银行流水的表格审查等,并且这些文档常常在PDF、扫描件、图片等无法直接复制出表格样式的文档中。人工操纵费时费力,还需要留心出错的问题。 悲观数据智能表格提炼对象,结合NLP、OCR、CV 等自研人工智能技术,以智能化方式解决文档表格提炼中的核心痛点问题。可以支援PDF、Word、扫描件、图片等多种文档花样范例,快捷提炼文档中的表格信息,更直觉、更方便、更准确的完成文档的表格提炼,让表格鉴别提炼工作更轻松。 先感受下弱小便捷的产品使用体验

    2022年 1月 11日
  • 墨芯首席科学家严恩勖:用稠密化解决时代最严峻的算力寻衅

    人工智能进入黄金时代,正改变各行各业以及我们的日常生活。今日集微网报道,随着人工智能使用的普及,稠密化进入人工智能行业的主流企业视野。稠密化估计能帮助人工智能突破硬件算力极限,有望实行十倍、甚至百倍的人工智能使用加快,并大幅降低估计成本。墨芯人工智能从诞生起,即专注于稠密化估计产品和解决方案,独创双稠密算法,为客户提供高品质AI估计解决方案,携手共创AI估计未来。为此,墨芯人工智能首席科学家严恩勖针对企业目前的发展历程、研究成果、企业劣势、未来发展等,与集微网分享了他的看法和观点。以下为访谈内容:集微网:在AI报告

    2022年 7月 12日
  • 邢波任校长的大学迎来机械进修鼻祖:Michael Jordan加盟MBZUAI任名誉老师

    提起 Michael Jordan,我们总能想起一连串的称号,比如「人工智能畛域泰斗」、「机械进修鼻祖」、「美国三院院士」、「全世界最有影响力的计算机科学家」等等。

    2022年 1月 20日
  • 马斯克脑机接口公司Neuralink高层动荡:联合创始人兼总裁离任,曾想建侏罗纪公园

    马克斯 · 霍达克的离任会对 Neuralink 的未来发展造成什么影响呢?埃隆 · 马斯克又会选择谁来接任总裁一职呢?这些我们都拭目以待吧!

    2021年 5月 3日
  • Hologres揭秘:深度解析高效率分布式查问引擎

    Hologres(中文名交互式分析)是阿里云自研的一站式及时数仓,这个云原生体系融合了及时服务和分析大数据的场景,全面兼容PostgreSQL协议并与大数据生态无缝打通,能用同一套数据架构同时支持及时写入及时查问以及及时离线联邦分析。它的出现简化了业务的架构,与此同时为业务提供及时决策的能力,让大数据发挥出更大的商业价值。Hologres作为HSAP服务分析一体化的落地最佳实践,其查问引擎是一个完全自研的施行引擎,它的核心设计目标是支持所有类型的分布式分析和服务查问,并做到极致查问机能。为了做到这一点,我们借鉴了各

    2021年 8月 11日
  • google、Facebook频繁创造CPU内核不可靠,浮现无法预测估计过错

    最近google和 Facebook 两大公司频繁检测到 CPU 在一些情况下会以无法预测的方式浮现估计过错。

    2021年 6月 8日
  • 离群?非常十分?新类?开集?散布外检测?一文搞懂其间异同!

    你是否也曾迷惑于「离群检测,非常十分检测,新类检测,开集鉴别,散布外检测」之间错综复杂的关系?你是否也想要解决开放世界的问题却不知道从哪个任意入手?不知道利用什么方法解决问题?这篇最新综述将让你对开放世界畛域有全新的认识!

    2021年 10月 24日
  • AutoX再发40分钟经营视频:不仅没有安全员,还实现全区经营

    继8月发布「城中村」复杂路况全无人驾驭测试视频后,AutoX又于今日(11月16日)发布了国内首个全区、全域、全无人的RoboTaxi经营视频,致力于做全无人Robotaxi的AutoX,已在深圳市坪山区开始进行了不需要安全员的Robotaxi经营。目前,AutoX全无人Robotaxi的经营区域已完全覆盖深圳市坪山区大小街道,也是是中国面积最大的完全无人驾驭经营域,达成了全域168平方公里「无人之境」。根据AutoX发布的经营视频来看,尽管当时并非早晚高峰,但在全程40分钟的经营记录中,仍碰到了大量复杂的门路环境

    2021年 11月 17日
  • 呆板之心CVPR线下论文分享会干货集锦,同时邀你报名ACL 2021论文分享会

    随着人工智能的火热,AAAI、NeurIPS、CVPR 等顶级学术会议的影响力也愈来越大,每年接收论文、参会人数的数量连创新高。但受疫情影响,近两年国外举办的学术会议都转为了线上,无法满足学者们现场交流的需求。以 CVPR 为例,2019 年,CVPR 注册参会人数高达 9227 人,其中来自国内的参会人数就达到 1044 位。因此,在 2020 年和 2021 年,国内 AI 从业者因疫情限制无法进行有效的学术交流。

    2021年 7月 1日

发表回复

您的电子邮箱地址不会被公开。 必填项已用 * 标注