Spark 大数据处理最佳实践

开源大数据社区 & 阿里云 EMR 系列直播 第十一期主题:Spark 大数据处理最佳实践讲师:简锋,阿里云 EMR 数据开发平台 负责人内容框架:大数据概览如何摆脱技术小白Spark SQL 进修框架EMR Studio 上的大数据最佳实践直播回放:扫描文章底部二维码加入钉群观看回放,或进入链接https://developer.aliyun.com/live/247072一、大数据概览大数据处理 ETL (Data  → Data)大数据分析 BI   (Data &nbs

开源大数据社区 & 阿里云 EMR 系列直播 第十一期

主题:Spark 大数据处理最佳实践

讲师:简锋,阿里云 EMR 数据开发平台 负责人

内容框架:

大数据概览如何摆脱技术小白Spark SQL 进修框架EMR Studio 上的大数据最佳实践

直播回放:扫描文章底部二维码加入钉群观看回放,或进入链接https://developer.aliyun.com/live/247072

一、大数据概览

大数据处理 ETL (Data  → Data)大数据分析 BI   (Data  →  Dashboard)机器进修    AI   (Data  →  Model)

image.png

二、如何摆脱技术小白

什么是技术小白?

只懂表面,不懂本质

比如:只理解参考别人的 Spark 代码,不理解 Spark 的内在机制,不理解如何调优       Spark Job

摆脱技术小白的药方

理解运行机制学会设置装备摆设学会看 Log

理解运行机制:Spark SQL Architecture

image.png

学会设置装备摆设:如何设置装备摆设 Spark App

设置装备摆设 Driver

 • spark.driver.memory

 • spark.driver.cores

设置装备摆设 Executor

 • spark.executor.memory

 • spark.executor.cores

设置装备摆设 Runtime

 • spark.files

 • spark.jars

设置装备摆设 DAE………….

 

 参考网址:https://spark.apache.org/docs/latest/configuration.html

学会看 Log:Spark Log

image.png

三、Spark SQL  进修框架

Spark SQL 进修框架( 结合图形/几何)

1. Select Rows 

image.png

image.png

2. Select Columns 

image.png

image.png

3. Transform Column

image.png

image.png

4. Group By / Aggregation 

image.png

image.png

5. Join 

image.png

image.png

Spark SQL 执行计划

1. Spark SQL – Where

image.png

2. Spark SQL – Group By

image.png

3. Spark SQL – Order by

image.png

四、EMR Studio 实践

EMR Studio 特性:

兼容开源组件支持连接多个集群适配多个算计引擎交互式开发 + 功课调剂无缝贯串适用多种大数据应用场景算计存储分离

1. 兼容开源组件

EMR Studio 在开源软件 Apache Zeppelin,Jupyter Notebook, Apache Airflow 的基础上优化了做了优化和增强。

image.png

2. 支持连接多个集群

一个 EMR Studio 可以连接多个 EMR 算计集群,您可以很方便地切换算计集群,提交功课到不同的算计集群上运行。

image.png

3. 适配多个算计引擎

自动适配 Hive、Spark、Flink、Presto、Impala 和 Shell 等多个算计引擎,无需复杂设置装备摆设,多个算计引擎间协同工作

image.png

4. 交互式开发 + 功课调剂无缝贯串

Notebook + Airflow : 无缝贯串开发环节和生产调剂环节

利用交互式开发模式可以快速验证功课的正确性.在 Airflow 里调剂 Notebook 功课,最大程度得保证开发环境和生产环境的一致性,防止由于开发阶段和生产阶段环境不一致而导致的问题。

image.png

5. 适用多种大数据应用场景

大数据处理 ETL交互式数据分析机器进修实时算计

6. 算计存储分离

所有数据都保存在 OSS 上,包括:

     • 用户 Notebook 代码

     • 调剂功课 Log

即使集群销毁,也可以重建集群轻松恢复数据

image.png

EMR Studio  Demo 演示:

参考文档:https://help.aliyun.com/document_detail/208107.html?spm=a2c4g.11186623.6.845.6cfc24577t1RbI

⭐具体产品介绍和演示 ,可以点击以下链接直接观看回放:

   https://developer.aliyun.com/live/247072

原创文章,作者:阿里云大数据AI技术,如若转载,请注明出处:https://www.iaiol.com/news/spark-da-shu-ju-chu-li-zui-jia-shi-jian/

(0)
上一篇 2021年 8月 11日 下午3:09
下一篇 2021年 8月 11日 下午3:12

相关推荐

  • 华为云位居中国DevOps市场领导者,份额、战略双第一!

    9月21日 ,国际权威阐明师机构IDC发布《IDC MarketScape: 中国 DevOps 平台市场厂商评价,2022》报告。本次报告, IDC从公司规模、产品技术、市场份额以及未来发展战略等维度对众多云厂商进行评价,华为云软件开发生产线DevCloud在市场份额和发展战略两大维度均排名第一,再次位居领导者位置。华为云DevCloud作为一站式、平安可托、全流程矫捷的DevOps云平台,已上线13项端到端子办事,办事于220万开发者,应用于10多个行业,覆盖开发全场景,全面领跑DevOps云办事市场。报告指出

    2022年 9月 22日
  • 地平线征程6正式发布:2024年开启量产,2025年交付超10款车型

    官宣10家首批量产合作车企,地平线征程6发布即爆款

    AI 2024年 4月 25日
  • 七年力作:UC伯克利马毅新书预印版开放下载,探讨低维模型与高维数据分析

    这本书是一个承前继后的proposal,包罗数据迷信、呆板学习从哪里来以及该往哪里去。

    2020年 12月 8日
  • 一半功耗,六倍算力提升:墨芯联手海潮开拓希罕化较量争论生态

    机器之心发布机器之心编辑部6 月 13 日,墨芯人工智能与海潮签订元脑计谋合作协议。这是在海潮计谋投资墨芯之后,双方的进一步计谋合作。墨芯将携手海潮信息,以超过的希罕化较量争论技术和产品,广阔的生态潜能,融合资源与算法,共创全栈 AI 解决方案,为各行各业 AI 使用供给强大算力引擎和生态支撑,为企业降本增效,并加速产业的人工智能化进程。AI 较量争论的新锐势力——希罕化较量争论墨芯人工智能科技创立于 2018 年,总部位于深圳,致力于通过希罕化算法构建高性能低 TCO(总拥有本钱)的 AI 算力,其产品主要是用于云端和终端的

    2022年 6月 13日
  • Pravega Flink connector 的过去、现在和未来

    本文整理自戴尔科技集团软件工程师周煜敏在 Flink Forward Asia 2020 分享的议题《Pravega Flink Connector 的过去、现在和未来》,文章内容为:Pravega 以及 Pravega connector 简介Pravega connector 的过去回顾 Flink 1.11 高阶特性心得分享未来展望   一、Pravega 以及 Pravega connector 简介Pravega 项目的名字来源于梵语,意思是 good speed。项目起源于 2016

    2021年 7月 22日
  • WAIC开发者日Workshop预告:超参数科技如何索求海量AI计划问题

    近年来,无论是在学术研究还是产业落地层面,关注的焦点都在从智能感知向智能计划阶段过渡。「计划 AI」逐渐成为热点问题,不管是谷歌、微软、IBM 等全球科技巨头,还是国内一众 AI 龙头企业,均积极投身于智能计划的相关研究。其中,海量 AI 如何在大型开放世界做智能计划,是推动智能计划手艺发展、加速社会智能化转型的重要问题,也是人工智能领域的手艺难题之一。为深入研究海量 AI 前沿问题,超参数科技联合麻省理工学院、清华大学深圳国际研究生院,以及数据科学挑战平台 Alcrowd 主办了 Neural MMO 系列挑战赛

    2022年 8月 30日
  • 模型鲁棒性好不好,复旦大学一键式评测平台告诉你

    复旦大学自然言语处置惩罚实验室发布模型鲁棒性评测平台 TextFlint。该平台涵盖 12 项 NLP 使命,囊括 80 余种数据变形步骤,花费超 2 万 GPU 小时,进行了 6.7 万余次实验,考证约 100 种模型,选取约 10 万条变形后数据进行了言语合理性和语法正确性人工评测,为模型鲁棒性评测及提升提供了一站式解决方案。

    2021年 4月 6日
  • 新加坡国立大学金玥明组全奖博士生、博士后、科研助理招募

    新一年博士招生正式启动!本期我们将为大家介绍新加坡国立大学金玥明课题组招募博士生 / 博士后 / 科研助理的相关信息。

    2022年 8月 11日
  • 火了一整年的多模态进修,在工业界的落地和实践进展到底怎么样了?

    在小红书,看见多模态进修的无限可能。

    2022年 11月 23日
  • 图神经网络精确预计有机化合物性质,加速静态电池的设计

    编辑/绿萝大规模从头较量争论与布局预计的进步相结合,在有机功能资料的发觉中发挥了重要作用。目前,在有机资料的广阔化学空间中,只发觉了一小部分。实验和较量争论研讨职员都需要加速探索未知的化学空间。来自美国国家可再生能源实验室(NREL)、科罗拉多矿业学院和伊利诺伊大学的研讨职员展示了一种可以精确预计有机化合物性质的机械进修方法。展示了基态(GS)和更高能量布局的平衡训练数据集,对使用通用图神经网络(GNN)架构精确预计总能量的重要性。该研讨可加速静态电池的设计。该研讨以「Predicting energy and stabi

    2021年 12月 24日

发表回复

您的电子邮箱地址不会被公开。 必填项已用 * 标注