DataWorks赋能企业一站式数据开发处置本领

简介: 企业大数据技术发展至今,历经了两次演变。第一次演变从最初的“小作坊”解决大数据问题,到后来企业用各种大数据技术搭建起属于自己的“大平台”,通过平台化的本领实现数据生产力的升级。 第二次演变让大数据从“大平台”向“矫捷制造”的开发范式演进。在2021阿里云峰会上,阿里巴巴集团副总裁、阿里云智能算计平台事业部高级研究员贾扬清发布基于DataWorks的一站式大数据开发处置的平台,就是这个演变最好的佐证。

企业大数据技术发展至今,历经了两次演变。第一次演变从最初的“小作坊”解决大数据问题,到后来企业用各种大数据技术搭建起属于自己的“大平台”,通过平台化的本领实现数据生产力的升级。

第二次演变让大数据从“大平台”向“矫捷制造”的开发范式演进。在2021阿里云峰会上,阿里巴巴集团副总裁、阿里云智能算计平台事业部高级研究员贾扬清发布基于DataWorks的一站式大数据开发处置的平台,就是这个演变最好的佐证。 

img1.jpg

值得一提的是, 诞生于2009年阿里巴巴集团内部的DataWorks,不仅见证了阿里巴巴十多年大数据几次演变发展,更是阿里巴巴数据中台扶植的最佳实践之一。如今 DataWorks平台可以支撑阿里巴巴内部上百个交易团队的数据交易扶植,每天稳定调度上千万数据处理任务。阿里巴巴每天有超过5万名员工在DataWorks上实现数据分析、数据开发和数据处置工作。

那么,DataWorks如何让大数据向 “矫捷制造” 演进,背后具备什么样的核心本领?在全链路数据服务—大数据与AI分论坛,DataWorks产品负责人黄博远透露了DataWorks核心的三个“ONE”本领。

简单来讲,DataWorks以一站式的理念,通过一条数据开发链路,一套数据规范架构,一套数据处置体系,与大数据算计引擎结合,让企业拥有一站式的数据开发与处置本领。

img2.jpg

1、一条数据开发链路

很多的企业发展到一定阶段以后都会面临这种情况:1)数据来自于不同地域的数据中心,比如阿里云上有公共云、专有云,对于企业来讲也有自己的私域,同时又要服务企业外部的客户与合作伙伴,数据非常分散。

2)大数据的引擎百花齐放,选择多样。不管是阿里自研的SaaS模式云数据仓库MaxCompute、交互式分析Hologres和分析型数据库AnalyticDB,还是开源的EMR、CDH、Flink、Elasticsearch等等,种类极为丰富,我们很难说哪一款产品是最好的,对于企业来说这种技术选型是多样的,按需的。

3)数据与AI及使用如何更好地结合?大数据加工处理完的数据还需要结合AI算法,以服务化的方式给到数据使用,如何实现BI与AI一体化,释放数据价值。

img3.png

针对以上痛点,DataWorks可以帮助企业实现数据集成、数据开发、数据处置和数据服务,将大数据全生命周期管理整合到一条完整链路中。

首先满足企业在复杂网络条件下,DataWorks实现近50种异构数据源的离线/实时的同步,让企业更好地迈出大数据扶植的“第一步”。其次,它的底层对接了MaxCompute、EMR、CDH、Hologres、AnalyticDB、实时算计Flink版等大数据引擎,让多种算计引擎的数据开发处置工作都可以在同一个平台一站式的实现。最后,大数据平台加工好的数据集可以无缝对接到机器学习平台中进行AI训练与在线预测服务,也可以通过数据服务以API方式给到BI、大屏等各种数据使用。

2、一套数据规范架构

对于企业而言,数据绝不是简单地堆积在一起,阿里巴巴通过数据中台扶植,范例了集团统一的数据规范架构,将数据进行清晰的结构分层,每一层又有明确的范围与边界。在贴源层,企业将实现全域数据的汇聚,保留所有的原始数据。在整合层,企业通过数据规范、数据建模等方式确立数据的范例体系。在汇总层,企业将基于交易需求对数据进行汇总加工,提炼公共的数据指标。在使用层,面向前台交易使用构建数据集市,为使用提供源源不断的高质量数据服务。这个数字化转型涉及到非常多的技术和交易的协同改造,是一个系统工程。DataWorks就是把这些共性的本领产品化,提升企业扶植数据规范架构的效率。

3、一套数据处置体系

企业如何管理数据资产?如何保障数据质量?如何保障数据安全?如何有效地控制成本以及减少不必要浪费?这些问题都对数据处置提出了更高的要求。正常来讲,各种数据处置工作通过人工的方式其实也能够实现,但是阿里巴巴现在每天处理的数据超过1.7EB,每天调度的任务数在千万级,很难想象靠人工来实现所有的处置工作。DataWorks将阿里巴巴十多年数据处置的实践沉淀成产品化本领,完整覆盖模型设计、数据质量管理、元数据管理、安全管理等贯穿数据加工处理和使用的全链路所需的处置本领。一个平台,就具备一套完整的体系化的本领。

img4.jpg

在分论坛现场,DataWorks全新发布数据建模产品,让企业从交易视角进行数仓规划、数据规范定义、维度建模和数据指标设计,用范例化的“图纸”指导大数据“扶植”工作,提升企业数据中台扶植的范例性和规范性,大大降低企业数据中台扶植门槛和成本。同时DataWorks将持续加大与生态伙伴合作,推出具备不同行业属性和不同建模方法的数据建模类产品,以支撑不同行业不同场景的数仓模型设计。DataWorks数据建模产品将于2021年7月开启公测,届时欢迎大家在阿里云官网搜索“DataWorks”开通体验。

img5.jpg

除了数据建模外,DataWorks覆盖了数据同步、元数据、数据资产、数据质量、数据地图、任务运维、数据安全、数据分析、数据服务等数据全生命周期的处置本领。

事实上,DataWorks已经使用到各行各业的数字化转型中。在工业行业,DataWorks帮助三一重工打通86个核心交易系统,处理每月50PB的各种图像、视频、物联网数据,扶植业内场景最全的数据中台。在能源行业,DataWorks帮助企业建立10余种数据中台运营范例,实现四大场景50+指标产出,范例数据处置流程,提升数据可用率。在钢铁行业,DataWorks让数据在数据中台进行自由流动,保证数据准确、准时、一致,让企业综合成本削减1亿元。在互联网行业,得物APP通过DataWorks OpenAPI构建全链路数据血缘,自主研发全链路解析本领,下线2万张表与近千个算计任务,让企业成本降低20%。

未来企业的数字化转型将对数据的处置与分析提出更高的要求,DataWorks将帮助企业快速构建数据中台,通过全链路的数据处置提供高质量的数据底座,让数据的“矫捷制造”成为企业数字化的“矫捷转型”。

原创文章,作者:阿里云大数据AI技术,如若转载,请注明出处:https://www.iaiol.com/news/dataworks-fu-neng-qi-ye-yi-zhan-shi-shu-ju-kai-fa-chu-zhi/

(0)
上一篇 2021年 9月 29日 下午2:14
下一篇 2021年 9月 29日 下午2:18

相关推荐

  • 《几许深度进修》作者授课,2022年GDL100课程上线

    今年的 GDL100 包含通例课程、辅导课和专题研讨课,深入讲解了几许深度进修的基本概念和重要问题。

    2022年 7月 29日
  • 瑞莱聪明完成新一轮战略融资,加速打造中国AGI保险平安基座

    近日,人工智能保险平安基础设施提供商瑞莱聪明(RealAI)宣布完成新一轮战略融资,北京市人工智能产业投资基金等参与投资。本轮融资完成后,瑞莱聪明将继续加速通用人工智能保险平安基座产物研发,并不断推进保险平安可控的大模型商业化落地。随着全球范围内最大规模的人工智能浪潮掀起,人工智能的可控性和保险平安性成为愈发重要的发展议题。如今,人工智能大模型的通用性和泛化性大幅提升,利用也从传统的判别式任务走向天生式任务,而人工智能的内生及衍生保险平安问题变得愈加复杂,其带来的挑拨和已经引起的各类危急事件也持续受到全球公众、企业和政府的广泛关注。当

    AI 2024年 4月 12日
  • 影响众多编程语言、引发供应链袭击,剑桥大学发布「木马源」缝隙

    最近,剑桥大学的研讨者公布了一种名为 Trojan-Source 缝隙,可能危及软件和第一手供应链。

    2021年 11月 23日
  • AAAI 2021 | 投票的滑润复杂度

    本文是第三十五届人工智能大会(AAAI 2021)入选论文《The Smoothed Complexity of Computing Kemeny and Slater Rankings》的解读。

    2022年 7月 18日
  • TensorFlow 2.4来了:上线对分布式训练和混合精度的新功能反对

    今天,谷歌正式发布了 TensorFlow 2.4,带来了多项新特性和功能改进。

    2020年 12月 15日
  • 【征稿】IJCAI 2021联邦进修与转嫁进修国内研讨会

    数字时代,隐衷和宁静正成为一个关键问题。公司和组织每天都在收集大量的数据,然而数据隐衷爱护相关法律法规越来越严格,给大数据和人工智能带来了新的挑衅。例如欧盟的《通用数据爱护条例》(General data Protection Regulation,GDPR)就明确提出,禁止在没有明确用户受权的情况下,直接合并来自不同来源的用户数据进行AI建模。为了探索AI如何适应这种新的监管环境,微众银行、京东、第四范式等中国企业共同香港科技大学、新加坡南洋理工大学、普林斯顿大学等国内知名高校及科研院所,将在第30届人工智能国内

    2021年 4月 9日
  • Mistral AI新模型对标GPT-4,不开源且与微软分工,网友:忘了初心

    「欧洲版 OpenAI」的「最强开源大模型」,被微软收编了。生成式 AI 领域,又有重量级产品出现。周一晚间,Mistral AI 正式颁布了「旗舰级」大模型 Mistral Large。与此前的一系列模型不同,这次 Mistral AI 颁布的版本功能更强,体量更大,直接对标 OpenAI 的 GPT-4。而新模型的出现,也伴随着公司大方向的一次转型。随着 Mistral Large 上线,Mistral AI 推出了名为 Le Chat 的聊天助手(对标 ChatGPT),任何人都可以试试效果。试用链接:htt

    2024年 2月 27日
  • Alluxio宣布获得新一轮5000万美元融资

    新设中国区总部,开启寰球扩张新征程

    2021年 11月 17日
  • 优秀!2021年google博士生奖研金陆续揭晓,同济校友王鑫龙、南大校友李昀入选

    在近日公布的google2021博士生奖研金部分名单中,来自阿德莱德大学、新南威尔士大学、昆士兰科技大学和悉尼大学的四位博士生获得该殊荣。

    2021年 8月 31日
  • 1600米深海沉船如何索求?斯坦福人形机器人实现远程人机交互下潜

    深海里面藏着许多秘密,沉船,坠机,数不尽的金银珠宝和历史记忆都埋藏在深海中。从前索求这些遗址的方法多为整体打捞,许多证据难以保存。近日,斯坦福大学的机器人团队研发出名为 OceanOneK 的水下人机交互机器人,通过远程操控,让人形机器人以最接近真人潜水的方式在水下 1600 米实现索求,最大程度地实现了人机交互,也最大程度地保护了遗址的完整性。

    2022年 7月 29日

发表回复

您的电子邮箱地址不会被公开。 必填项已用 * 标注