IDEA钻研院工程总监谢育涛谈AI创新的对象:工欲善其事必先利其器

AI 领域有没有好用的科研对象?谢育涛团队打造 AI 对象显著提升 AI 科研效率。

图片

3 月 23 日,在机器之心 AI 科技年会上,IDEA 钻研院工程总监、AI 平台手艺钻研中心负责人谢育涛发表了主题演讲《工欲善其事必先利其器——AI 创新的对象》。演讲视频回顾(点击「浏览原文」也可观看):

图片

扫码回看视频地址:https://www.bilibili.com/video/BV1ki4y1k7xe?spm_id_from=333.999.0.0

以下为谢育涛在机器之心 AI 科技年会上的演讲内容,机器之心进行了不改变原意的编辑、整理:大师好我是谢育涛,来自粤港澳大湾区数字经济钻研院 (International Digital Economy Academy IDEA),异常感谢机器之心的邀请来参加机器之心 AI 科技年会,我之前都是机器之心的用户,今天作为嘉宾和大师分享异常荣幸。前面几位老师分享了关于 AI 方面的钻研和产业化精彩内容,我借这个机会分享一下我对科研对象的考虑,我分享的题目是《工欲善其事必先利其器——AI 创新的对象》。图片我主要介绍三个方面的内容:第一部分是我们生逢 AI 大时期,这是一个异常精彩的时期;第二部分是工欲善其事,在这一部分我将分享一些我们在科研对象方面的探索,但愿能对各位有一些辅助;第三部分介绍我们在 AI 科研领域关于创新方面的一些考虑。图片AI 时期人工智能(AI)这个概念可追溯到 1956 年,在这 60 多年的时间里 AI 经历很多坎坷。我们今天已经完全生活在人工智能时期,例如手机里的人脸识别、指纹识别等都是 AI;在疫情期间,有些人隔离在家不麻烦出去,外卖 APP 为你推荐喜欢的菜单,这背后也是 AI;下单之后骑手怎么分配,路径怎么优化,路况怎么预测等,这背后都有人工智能的影子,目的就是让用户快速吃到想吃的食物。AI 为我们的生活提供了异常大的便利,可以说是无处不在。前面几位老师也分享了当前的人工智能手艺已经进入全方位商业化阶段,并且对各种传统行业、各个参与方都产生了不同程度的影响,改变了各个行业的生态。在中国数字经济这四个字已经第五次出现在《政府工作报告》,这是异常重要的一个话题。在我看来数字化分为两个部分:一个信息化、一个智能化。浅层的数字化就是信息化,深层的数字化就是智能化。信息化在中国已经相当成熟,比如麻烦快捷的手机支付,而在海外其他国家都没有相关麻烦的对象,这一点中国已经走在世界前列。智能化可以说现在正逢其时,AI 在整个国民经济发展包括工业、金融业等起了很大的作用,假如没有 AI 手艺,数字经济只是一个信息化的手艺,它只有蛮力没有智商,而这个发展是很受限制的。如果数字经济中没有智能化的需求,那么产业潜力也无法得到挖掘,对于 AI 手艺而言,各位钻研职员、专家学者也只能永远停留在象牙塔里,手艺不能落地。图片科研引领的 AI 创新所以我们所处的 AI 时期是一个充满了机会的时期,AI 手艺的进步就是这个时期的原动力。AI 手艺的进步在很大程度上是由科研职员推动的,举例来说,在计算机视觉领域,我们从网站 paperswithcode 了解到,在 ImageNet1K 图像分类任务上,它的 Leaderboard 英雄榜从 2011 年开始每年、甚至每个月都被刷新,几乎每一次的重大突破都基于钻研职员发明了新的算法,训练了新的模型,有了更多的数据,得到更好的结果。我们从早期的 SIFT,到 AlexNet,到后来的 ResNet 等等,这些模型都采用不同的数据、不同的算法,如下图所示,图中每一个点都是优秀论文在试图冲击新的高点,无论是大学、钻研机构、还是各大公司,钻研职员从不同的角度不断地进行钻研,提升整个 AI 的能力。在整个 AI 领域伟大的创新都来源于全球范围高水平的 AI 钻研。图片那么中国在 AI 钻研方面如何?根据钻研机构发布的数据来看,中国在人工智能领域论文的全球占比文(下图左)从 1997 年的 4.26%,增长到 2017 年的 27.68%,遥遥领先于其他国家。同时中国的高被引论文数量在 2013 年超越美国成为世界第一。此外我们从清华大学 AMiner 团队发布的 AI 2000 学者榜单中可以得出(下图右),在人工智能 20 个子领域入榜学者所在国家分布(人次),从分布来看基本上还是美国、中国竞争激烈,除了多媒体和物联网子领域中国稍微领先一点,美国在很多领域领先中国。图片总体来说,中国的 AI 科研现状,论文数是第一,优秀的 AI 学者量是第二,科研人才总量第二,杰出人才占比比较低。根据 2017 年的数据来看,中国的人工智能人才大概是 18000 多人,占世界总量的 8.9%,仅次于美国 13.9%,位居第二;在企业人才投入方面是高强度人才投入量,基本上集中在美国企业,中国只有一家公司华为进入了全球前 20。第三个数字是高 H 因子,它用来评价科研职员的学术影响力,这是一个异常重要的指标,这份报告统计了前 10% 的高 H 指数学者,中国杰出人才 977 人,大约不到美国的五分之一,这个差距是比较大的。我们现在在 H 指数方面大概世界排名第 6,杰出人才比例较低。图片工欲善其事必先利其器我们不禁要考虑,如何提高科研职员的钻研水平?大师有不同的解决方案,我要讲的是工欲善其事必先利其器,做科研最好有一些好用的科研对象,但现实情况是我们没有特别好用的对象,科研职员日常使用的对象相当缺乏,例如读论文、写论文、发表论文、评审论文、管理文件、开会等等都缺乏相应的对象。读论文时,大部分钻研者采用比较原始的方法:打印论文,用笔在上面做笔记;写论文也是如此,虽然我们有一些论文编辑对象,但不是很理想;发表论文、评审论文、管理文件、开学术会议等也没有好用的对象。以上种种都是科研职员每天都会遇到的,可是今天的对象是缺失的。第二个缺乏交流平台「独学而无友,则孤陋而寡闻」,如果我们读论文时没有可以交流的人,是异常痛苦的事情,例如我们读论文时经常会遇到课题,这些课题或是公式、或是推论等,一般来讲我们没有可以随时咨询的人。在互联网如此发达的今天却很难找到一个专注于学术的社区。如果有这样一个社区可供大师提问、讨论,且专注于学术内容,对很多钻研者来说是异常好的事情,可是今天这样的学术社区是缺乏的。第三个学术成果传播不畅,现在已经有很多搜索引擎,大师用的比较多的如百度学术、知网等系统,这些基本上满足了我们找论文的需求。但课题是论文太多,不知道该读什么论文,从哪里开始读起,比如说今年 CVPR 2022 收录了 2067 篇论文,这个数字是异常庞大的,想象一下怎么可能把这些论文都读完,甚至找出哪些论文需要浏览都是很困难的事情。出版商也没有特别好的对象让读者更好地获取知识,更麻烦传播的知识。图片打造论文社区:ReadPaper 论文浏览平台做科研需要对象,可是对象是缺失的。我在这里介绍一下我们做的一些简单尝试,去年我们尝试打造一个论文浏览社区。我们做这个社区主要解决三个课题:

第一个学术交流是刚需:大师需要交流而且能够进行深度交流,但是学术社区缺失。作为读者你但愿读到好的论文,有课题能有人回答;作为论文作者,你但愿文章被更多人浏览,但愿读者对你的文章提出建议;机构但愿能够发现钻研方向,课题是不是在正确的方向设立。但是国内外都缺乏一个活跃的学术社区。

第二个论文本身是难读的,全球每年都发表数以百万计的论文,然而多数论文并不好读,尤其是对于母语非英文的钻研职员来说难度更大。

第三个社区对学术钻研的影响力不足,学术社区的缺失导致社区对学术钻研的影响力不足。

图片我们打造了一个专业的学术讨论社区 (网址:readpaper.com),该社区在去年 11 月份正式发布,其具备四个大方面的内容:论文搜索、在线笔记、文件管理、学术讨论。

第一个是论文搜索,我们后端收集了大约 2 亿篇学术论文的元数据,大师可以用自然语言的方式进行搜索,这样你在找论文、速读论文的时候,能够精准直达,而且用户可以快速浏览相关资料。

第二个精读论文,用户可以进入 PDF 文件进行详细的浏览,也可以进行在线笔记,沉浸式浏览体验,实现边读边记。

第三个文件整理,这也是很多学者、钻研职员普遍遇到的课题,太多的文件怎么样有条理地进行跟踪、整理、归类,怎样将文件放到一起便于长期的跟踪,甚至还可以跟大师分享,整理论文也是我们社区但愿能够为大师提供的。

第四个群读论文,也许是导师分派的一个学习小组,也许是网上一群互不认识的人由于相同的论文自发的组织到一起,他们相互之间评论讨论、共同进步。

我们从读论文开始打造一个学术讨论社区,这是我们想做的一件事情。图片下面我将简单讲解一下部分功能,第一个是沉浸式浏览体验,当我们打开 PDF 浏览论文的时候,就进入了我们的论文超级浏览器。我们会用一些自然语言处理手艺剖析 PDF 本身目录剖析就是你文件的目录呈现给读者便于跳转。援用剖析则是对文中援用文件索引的剖析。我们读论文时经常会遇到援用文件如(23)、(36),之前我们将论文打印到纸上进行浏览,遇到如(23)援用我们会翻到后面看该援用的具体内容,然后再回到之前浏览的地方,这样做异常不麻烦。我们有了援用剖析这项功能,PDF 剖析好了以后,在浏览时当你点击(23)屏幕上会弹出一个框,框中显示这篇文章作者是谁,标题是什么,文章发布时间等,甚至还可以显示这篇文章的摘要,这样一来你就可以停留在正在浏览的地方,并专注浏览,这个功能对于打印在纸上进行浏览的体验是无法比拟的,因为你没有办法援用论文的摘要信息。我们对于援用文件列表的剖析也会展示在超级浏览器里面,你还可以对援用列表排序,而打印下来的论文我们不知道哪一篇是高援用的论文,但是我们的浏览器可以帮你解决这个课题。图表剖析也是,比如有时候打印的论文图在第 8 页,相关的注解文字在第 10 页,点击剖析的图标可以把图固定在屏幕上,图文对照浏览,异常麻烦。第三个划词翻译,目前绝大多数论文是英文的,对中国学生、学者来讲还是有障碍的,划词翻译即读者划定单词即可翻译成中文,麻烦浏览。文字截图可以做笔记、可以做摘要,还可以做全文检索,能够让读者更快、更好地读论文。图片ReadPaper 论文十问接下来展示经典十问,我们 IDEA 创院理事长沈向洋博士说过「You are how you read」。我们可以这样理解,浏览的过程就是作者编码的内容如何能够被读者顺利解码,信息被读者解码的过程就是浏览的过程,因此解码过程就是形成自己认知模型的过程,所以「You are how you read」你怎么读就定义了认知模型。沈向洋博士根据多年在钻研界、工业界的经验,总结了经典十问辅助大师读论文,如何通过回答这些课题真正的理解论文,带着课题去浏览论文可以辅助读者有方向性的解码作者思想。图片这个功能已经集成在 readpaper.com 里,比如下图展示的这篇论文已经有人回答了十问,回答课题的人花了大量时间去读懂论文,然后进行分享。读者通过看这十个课题的回答,就能够快速了解一篇论文信息,假如你一天要读 50 篇 CVPR 的论文,这十问应该有很大的辅助。图片我只是简单介绍了一下我们在论文浏览对象方面的一个简单尝试,我们但愿为每一篇文章打造一个社区,因为我们相信每一篇文章都很优秀,文章中都有创意想法,它值得拥有一个社区,我们要为文章打造一个社区,让天下没有难读的论文,让大师读论文更麻烦。因为时间的原因,还有很多功能我没有讲解,比如论文的搜索、管理、讨论,大师可以自己尝试使用,此外我们发布了 PC 客户端,ipad 客户端即将发布,该系统已经有相当多的用户,社区正在形成,我们认为在学生和论文之间我们做的这一点点事情可以辅助读者更好地读论文,更好地学习前人的知识,而且对于即将毕业的学生来说,怎么样收集信息做报告,辅助自己写论文,都能提供辅助。目前来看用户还是比较喜欢我们的对象。工欲善其事必先利其器。图片重新考虑学术生态我们在 AI 时期如何从科研大国到杰出人才大国?我但愿有更多的利器助力科研人才。我也在考虑整个学术生态是不是有一些我们可以做的事情,在各个环节是不是可以提供更好的对象,这样的对象对于每一个人都有辅助。我们将来做学术一定会跟整个生态打交道,这个生态的核心就是一个社区,这里面有学生、老师、作者、读者,论文是传递知识的一个桥梁,这样的社区和生态的其他部分有着千丝万缕的联系,钻研职员在科研机构里面在做钻研课题,科研机构有上课、读论文、写论文,钻研职员还要发表论文、投稿,各种评审对象都有待完善,参加学术会议更是一个复杂的过程,从组织学术会议到跟进、开会、交流,每一 个细节的优化都可以辅助钻研职员提升交流的效率,还有从出版商那里如何更加有效获得高质量的文章,在保护版权的前提下让知识更快的传播,这也是值得我们去考虑的课题。钻研职员成果商业化落地也是很重要的事情,比如说企业里面员工自己能力的提升,科研手艺如何从核心社区转化到商业化,人才的招聘等等都是我们可以优化的事情,这中间的每一步都需要一个好的对象来助力科研职员,来提升我们的钻研水平,改善整个科研学术的生态系统。图片AI 时期科研打头阵,为数字经济的产业智能化不断创造新的增长空间,我想,工欲善其事,必先利其器,我们有必要重新考虑整个学术生态,我也但愿我们能够打造更多的对象助力科研的发展。

原创文章,作者:机器之心,如若转载,请注明出处:https://www.iaiol.com/news/idea-zuan-yan-yuan-gong-cheng-zong-jian-xie-yu-tao-tan-ai/

(0)
上一篇 2022年 3月 31日 上午11:47
下一篇 2022年 4月 3日 下午9:42

相关推荐

  • Hologres揭秘:深度解析高效率分布式查问引擎

    Hologres(中文名交互式分析)是阿里云自研的一站式及时数仓,这个云原生体系融合了及时服务和分析大数据的场景,全面兼容PostgreSQL协议并与大数据生态无缝打通,能用同一套数据架构同时支持及时写入及时查问以及及时离线联邦分析。它的出现简化了业务的架构,与此同时为业务提供及时决策的能力,让大数据发挥出更大的商业价值。Hologres作为HSAP服务分析一体化的落地最佳实践,其查问引擎是一个完全自研的施行引擎,它的核心设计目标是支持所有类型的分布式分析和服务查问,并做到极致查问机能。为了做到这一点,我们借鉴了各

    2021年 8月 11日
  • 打造智能化交流及合营平台 长城汽车智能化技巧论坛成功举办

          7月1日,在长城汽车第8届科技节期间,以“合聚变 智领行”为主题的智能化技巧论坛在长城汽车哈弗技巧中心圆满落幕。本次智能化技巧论坛,邀请国表里行业大师、投资界大咖、科技届代表,以及汽车家当表里生态合营同伴等众多精英嘉宾与会,共同探讨智能汽车将来成长趋势及核心技巧立异突破等相关话题。长城汽车智能化技巧论坛现场      智能化技巧论坛从6月30日开始,至7月1日结束,为期2天。本次论坛聚焦软件定义汽车、

    2021年 7月 1日
  • 百分点科技杜晓梦:数据迷信的下一片“战场”

    编者按:如今在科技领域,越来越多的女性从业者成为行业中坚力量,“她智慧”不同视⻆的思维方式,以及她们对事物的敏感度和包容性,使得这些女性领导者在企业治理过程中具有敏锐的洞察力、缜密的思辨力和透彻而深入的阐发能力。2021年,数字商业期间联合中国网开展了2021年度专题策划:科技创新中的“她观点”,以女性的视角专业解读科技创新源动力,百分点科技首席数据迷信家杜晓梦受邀接受采访,以独特的视角解读了何为数据迷信,它的下一片“战场”在哪里?每秒超过1.

    2021年 5月 14日
  • 阿里云贾扬清:用4S标准带领团队锻造大数据+AI产品体系「阿里灵杰」

    10 月 20 日,在 2021 云栖大会上,阿里巴巴集团副总裁、阿里云估计平台事业部负责人、达摩院 AI 平台负责人贾扬清发布大数据 + AI 产品体系“阿里灵杰”。“时至今日,我们可以越来越清晰的看到算力、算法、数据和场景的融合,尤其是 AI 和数据。没有数据,AI 是留在实验室里的火花;而没有 AI,数据就是堆在那里的一堆成本”,贾扬清提到,“阿里灵杰是我们在过去几年思考实践的过程中所沉淀下来的鉴于 Scale、Speed、Simplicity 和

    2021年 10月 21日
  • 腾讯QQ黑科技亮相2021谷歌开发者大会官网,鉴于TFlite部署AI语音降噪

    当6亿用户习惯每天通过QQ发送语音和进行视频通话,或者在群里与网友语音接龙完成一场Pia戏,又或是与好友一起派对语音答题的时候,大家可曾想过,在不同场景下始终清晰、流畅的QQ音视频感受背后,到底是什么黑科技在支撑这些场景中“声”与“话”的美好?今年11月16日召开的谷歌2021开发者大会期间,大会官网更新了一则案例——《TensorFlow助力:AI语音降噪打造QQ音视频通话新感受》,作者正是QQ音视频通话技巧团队。作为谷歌TensorFlow的优秀应用案例,腾讯QQ团队在该文中详细揭秘了语音增强技巧在QQ音视频功

    2021年 11月 16日
  • 微软工程师用PyTorch实现图注意力网络,可视化效果惊艳

    近日,一个关于图注意力网络可视化的项目吸引了大批研究人员的兴趣,上线仅仅一天,收获 200+ 星。该项目是关于用 PyTorch 实现的图注意力网络(GAT),包括易于理解的可视化。

    2021年 2月 2日
  • 古代首次打败特斯拉,成韩国消费者最中意的EV品牌

    2021韩国电动汽车博览会(xEV TRENDKOREA 2021)从上月19日至本月14日面向1467名民众,实施电动汽车采办喜好观察,于28日发布结果显示,古代力压特斯拉,成为韩国消费者最偏好的电动汽车品牌,古代击败特斯拉是该观察自2018年起开始实施后的首次。 观察还显示,87%的受访者称未来5年内有采办电动汽车的理想,较去年增长了23%。近年电动汽车品牌趋于多样化,消费者对于电动汽车的关注度和采办理想也大幅上升。消费者采办电动汽车时最注重最大续航里程、充电站设施、价格、购车贴补等。受访者认为电动汽

    2021年 5月 28日
  • 目睹太多读博惨案之后,清华姚班助理老师写了个读博决策树

    读博之前请三思。对于部分同窗来说,结业当前读博是顺理成章的人生下一步。但在收获知识、荣誉的同时,你大概也要付出很大代价。最近,清华大学姚班助理老师张焕晨的一篇读博劝退文就在知乎上引起了热议。在文章中,他详细列举了读博之前需要三思的一些成绩,并用决策树的方式呈现了出来。在读完文章后,有人认为焕晨老师把读博之路描写得太痛苦了,劝退之味太浓。但焕晨老师表示,他的本意并非劝退,「故意把话说重是为了让各人认真思考」。他看到的现状是:良多特出的同窗都不在「我适不得当读博」这个重要成绩上进行过认真的思考,由此造成了良多「惨案」

    2021年 6月 24日
  • 94岁诺奖得主希格斯去世,曾预言「上帝粒子」的消失

    一名用诗意的语言揭示宇宙秘密的人。一名 94 岁巨大科学家的逝世,引发了人们广泛的哀思。4 月 10 日消息,诺贝尔物理学奖得主、著名物理学家彼得・希格斯(Peter Higgs)于周一去世,享年 94 岁。希格斯因提出希格斯玻色子也被称为「上帝粒子」而闻名。根据爱丁堡大学的一份声明我们得知(彼得・希格斯是该校的光荣退休传授),希格斯经历短暂的生病后,于 4 月 8 日星期一在家中安静的离开。对于老爷子的去世,爱丁堡大黉舍长 Peter Mathieson 沉重的表示:「彼得・希格斯是一名杰出的科学家 &mdash

    2024年 4月 10日
  • 阿里 BladeDISC 深度进修编译器正式开源

    作者:朱凯 – 机器进修PAI团队 随着深度进修的不断发展,AI模型结构在快速演化,底层算计硬件技术更是层出不穷,对于广大开发者来说不仅要考虑如何在复杂多变的场景下有效的将算力发挥出来,还要应对算计框架的持续迭代。深度编译器就成了应对以上课题广受关注的技术方向,让用户仅需专注于上层模型开发,降低手工优化本能的人力开发成本,进一步压榨硬件本能空间。阿里云机器进修PAI开源了业内较早投入实际业务使用的静态shape深度进修编译器 BladeDISC,本文将详解 BladeDISC的设计原理和使用。BladeD

    2022年 3月 30日

发表回复

您的电子邮箱地址不会被公开。 必填项已用 * 标注