SOTA模型

  • Creator 面对面 | 大规模预训练模型的新思考:效力和泛化

    自 2018 年谷歌推出 BERT(3.4 亿参数)以来,语言模型开始朝着「大」演进。国内外先后出现了参数量高达千亿甚至万亿的语言模型,比如谷歌的 T5(110 亿)、OpnAI 的 GPT-3(1,750 亿)、华为联合鹏城实验室的盘古(Pangu)(2000 亿),智源研究院的 WuDao2.0(1.75 万亿)……

    对于这样的大模型,其背后支撑的是巨额的算力要求。那么对于 AI 民主化,降低模型训练门槛和壁垒,同时兼顾性能和表现,在未来模型的训练上又会有怎样的思考呢?

    2022年 7月 26日
  • Creator 面对面 | 通往第三代人工智能的实践之路如何走?

    人工智能已经是一门使能技巧。现在人工智能取得突破性的规模偏向,一定是从脑科学、材料学等规模得到了启发。同时,人工智能在现在将成为科学家的新生产工具,催生科研新范式。

    2022年 7月 26日
  • Creator 面对面 | 自监视进修范式未来可能在加强进修中发挥关键的作用

    我们都知道自监视进修在 CV 和 NLP 领域都有比较广泛的应用,比如大模型 BERT、GPT-3 等训练,其实最焦点的技术就是鉴于自监视进修的技术。

    那么在 CV 和 NLP 领域都取得成功的自监视进修,是否可以被借鉴或是利用到加强进修领域呢?

    2022年 7月 25日
  • Creator 面对面 | 多少深度进修的算法设计和数学表面

    2016年,Yann LeCun 等人在 《Geometric deep learning: going beyond Euclidean data》一文中提出多少深度进修这一概念。现今多少机器进修和基于图的机器进修已经是当前最热门的研究课题之一。

    2022年 7月 23日
  • Creator 面对面 | 听「学长」唠唠读完博士后的故事

    博士毕业或只是科研生涯的起点,下一程是留在学界、去向业界,还是出发守业?

    2022年 7月 19日
  • Creator 面对面 | 大模型的末尾一千米路“不太平”

    自 2018 年谷歌推出 BERT 以来,语言模型就开始朝着「大模型」的标的目的演进。21 年诸如华为联合鹏城实验室 2000 亿参数的盘古、谷歌 1.6 万亿参数的 Switch Transfomer、智源研究院 1.75 万亿参数的的悟道 2.0 等相继产出。

    2022年 7月 19日
  • Creator 面对面 | 如何突破 AI 实践中的资源限制与壁垒?

    AI 的实际应用尚处于早期,对于大多的AI开发者来说,「从无到有」比「从有到优」要重要得多。能在有限的资源下跑通业务流程,比跑得姿态优雅要更重要,模型精度虽然是越准确越好,但当精度达到可用需求之后,精度就不再起决定性作用。

    2022年 7月 18日
  • Creator 面对面 | 面向对立的 AI 模型架构和进修步骤

    随着 AI 的兴起,不同规模的相关研究热火朝天,各种各样的 AI 模型框架和进修步骤扑面而来,各不相同。那么是否能有一种对立的模型架构和进修步骤来解决不同规模的不同问题呢?让我们来听听怎么看。

    2022年 7月 18日
  • Creator 面对面 | 昇腾异构盘算架构 CANN 的技巧进展和未来展望

    在 2021 年的最后一个季度, CANN 5.0 版本正式发布。昇腾 CANN 作为平台级的异构盘算架构,已经经过了 3 年多的优化,迭代了 4 个大版本,CANN 5.0 在性能方面,AI 模型训练/推理性能大幅提升,用时更短;在功能方面:推理引擎 ATC Suite1.0 首次发布,AI 模型推理性能更高、功能更全面;在便捷性方面:代码开发和调试进一步简化,包括支持混合编程等,使用门槛更低。在性能上,无论是训练规模大小、场景类型,还是推理效率,均有较大提升。实验数据显示,原本需要 6.25 分训练的 BERT 模型,在 CANN 5.0 的加持下缩短了一倍多,只需2.69分钟就能完成训练;至于在 3.0 版本上需要 28 秒训练的 ResNet ,5.0 版本则是“再进化”到 16 秒。

    2022年 7月 15日
  • Creator 面对面 | 北大河图在希罕大模型训练架构上的几点探索

    河图是北京大学数据与智能实验室自研的一款分布式深度学习框架,兼顾创新性和可用性,这也是国内首个由高校自主研发的分布式深度学习系统。底层的算子实现到上层的模型设计完全是由河图团队自主实现。

    2022年 7月 13日