阿里云大数据AI技术

  • 阿里开源 反对10万亿模型的自研分布式训练框架EPL(Easy Parallel Library)

    最近阿里云机器学习PAI平台和达摩院智能估计实验室一起发布“低碳版”巨模型M6-10T,模型参数已经从万亿跃迁到10万亿,规模远超业界此前发布的万亿级模型,成为当前全球最大的AI预训练模型。

    2022年 3月 30日
  • 阿里 BladeDISC 深度进修编译器正式开源

    作者:朱凯 – 机器进修PAI团队 随着深度进修的不断发展,AI模型结构在快速演化,底层算计硬件技术更是层出不穷,对于广大开发者来说不仅要考虑如何在复杂多变的场景下有效的将算力发挥出来,还要应对算计框架的持续迭代。深度编译器就成了应对以上课题广受关注的技术方向,让用户仅需专注于上层模型开发,降低手工优化本能的人力开发成本,进一步压榨硬件本能空间。阿里云机器进修PAI开源了业内较早投入实际业务使用的静态shape深度进修编译器 BladeDISC,本文将详解 BladeDISC的设计原理和使用。BladeD

    2022年 3月 30日
  • 阿里数据中台底座的12年建造实践

    文/阿里云智能计较平台事业部研究员 关涛阿里巴巴数据平台发展的四大阶段建立数据中台,一个强大的数据平台作为底座必不可少。 阿里巴巴数据平台发展的四个阶段,一定程度上其实也是阿里巴巴数据中台发展的四个阶段。这四个阶段里,你可以看到阿里巴巴对自身数据的商业价值的萃取,对原有分而治之的数据系统的聚合,对计较数据财产化和数据高效应用的新思路以及对数据平台处置过程中面临的组织变革等。阶段一:交易百花齐放,发现数据价值2009年到2012年,阿里巴巴电商交易进入爆发期,涌现出非常多有名的交易团队,比如淘宝、

    2021年 9月 29日
  • PyFlink 开发情况利器:Zeppelin Notebook

    也许你早就听说过 Zeppelin,但是之前的文章都偏重讲述如何在 Zeppelin 里开发 Flink SQL,今天则来介绍下如何在 Zeppelin 里高效的开发 PyFlink Job,特别是解决 PyFlink 的情况问题。一句来总结这篇文章的主题,就是在 Zeppelin notebook 里利用 Conda 来创造 Python env 自动部署到 Yarn 集群中,你无需手动在集群上去安装任何 PyFlink 的包,并且你可以在一个 Yarn 集群里同时运用互相隔离的多个版本的 PyFlink。最后你

    2021年 9月 29日
  • DataWorks赋能企业一站式数据开发处置本领

    简介: 企业大数据技术发展至今,历经了两次演变。第一次演变从最初的“小作坊”解决大数据问题,到后来企业用各种大数据技术搭建起属于自己的“大平台”,通过平台化的本领实现数据生产力的升级。 第二次演变让大数据从“大平台”向“矫捷制造”的开发范式演进。在2021阿里云峰会上,阿里巴巴集团副总裁、阿里云智能算计平台事业部高级研究员贾扬清发布基于DataWorks的一站式大数据开发处置的平台,就是这个演变最好的佐证。

    2021年 9月 29日
  • 学术顶会再突破!较量争论平台MaxCompute论文入选国际顶会VLDB 2021

    一、顶会概览 VLDB 2021上,阿里云较量争论平台MaxCompute参与的论文入选,核心分布式调度履行引擎Fangorn、基于TVR Cost模型的通用增量较量争论优化器框架Tempura等分别被Industry Track、Research Track录取。 作为数据管理与数据库领域三大顶级学术会议之一,VLDB每年都吸引了各大高校、科研机构与科技公司的论文投稿,许多重要技术成果都在VLDB上中选发布。 多篇研究成果的发布离不开25位较量争论平台传教师和达摩院传教师花费大量时间撰写和修改,

    2021年 9月 29日
  • MaxCompute履行引擎核心技术DAG揭秘

    作为业界少有的EB级别数据分布式平台,MaxCompute系统每天支撑上千万个分布式功课的运转。在这个量级的功课数目上,毫无疑问平台需要支撑的功课特点也多种多样:既有在”阿里体量”的大数据生态中独有的包含数十万计较节点的超大型功课,也有中小规模的分布式功课。同时不同用户对于不同规模/特点的功课,在运转时间,资材使用效率,数据吞吐率等方面,也有着不同的期待。Fig.1 MaxCompute线上数据分析基于功课的不同规模,当前MaxCompute平台提供了两种不同的运转形式,下表对于这两种形式做了总结对比:Fig.2

    2021年 8月 25日
  • 快手鉴于 Flink 构建及时数仓场景化实践

    一、快手及时计较场景快手业务中的及时计较场景主要分为四块:公司级别的核心数据:席卷公司经营大盘,及时核心日报,以及移动版数据。相当于团队会有公司的大盘目标,以及各个业务线,比如视频相关、直播相关,都会有一个核心的及时看板;大型举止及时目标:其中最核心的内容是及时大屏。例如快手的春晚举止,我们会有一个总体的大屏去看总体举止现状。一个大型的举止会分为 N 个不同的模块,我们对每一个模块不同的玩法会有不同的及时数据看板;运营部分的数据:运营数据主要席卷两方面,一个是创作者,另一个是内容。对于创作者和内容,在运营侧,比如上

    2021年 8月 25日
  • DataWorks数据建模 – 一揽子数据模型管理解决方案

    作者:DataWorks产品经理 刘天鸢在当下的商业环境中,正确的数据管理策略对于数据增值是非常重要的。据统计,企业的数据一直都在以每年50%的速度增长,因此企业数据管理与整合的难度就不断加大了。DataWorks一直以来都致力于成为用户更方便、更快捷地从事数据开发与数据管理的好帮手。此次发布的数据建模,是对已有数据管理领域能力的补齐,为用户带来了在数据开发前,实施事前管理的能力。一、为什么要数据建模引用《大数据之路:阿里巴巴大数据实践》中的内容:“如果把数据看作图书馆里的书,我们希望它们在书架上分门别

    2021年 8月 25日
  • 知乎李大海对话阿里云贾扬清:透视AI使用难题与将来趋势

    “AI行业接下来可能有哪些落后?” “一线从业者如何看待其中的机会?”知乎合伙人、CTO李大海与阿里巴巴副总裁、阿里云智能高级研究员贾扬清亮相知乎直播,与网友分享了他们对AI时代下行业趋势、手艺使用、个人成长等多个层面的洞察和思考。

    2021年 8月 11日