E-MapReduce 4.0产品新特性
演讲嘉宾:王晓平,花名子关,高级产品经理 视频回放地址:https://developer.aliyun.com/live/1402?spm=a2c6h.12873587.0.0.560314b8CiquAr 以下内容根据演讲视频以及PPT整理而成。本次的分享主要围绕以下三个方面: 一、EMR产品概述二、EMR产品新特性三、EMR Road Map 一、产品概述1. E-MapReduce(EMR)是什么E-MapReduce是阿里云上云原生的开源大数据平台,一款利用开源大数据解决用户分析问题的大数据产品。在2016年6月,E-MapReduce开始公测,2016年9月开始商业化,目前为止E-MapReduce已经商业化三年多的时间。在2019年8月,阿里发布了E-MapReduce (EMR)敏捷版。在2019年10月,阿里巴巴将发布EMR4.0版本。EMR4.0版本的Hadoop将会升级到3.1.x。 2. EMR产品特性:EMR产品特性主要展现在以下三个方面。100%开源组件:EMR产品所使用的大数据组件为100%开源组件。对用户来说,学习成本和迁移成本都相对较低。此外,EMR会根据社区的进度和Bug Fix进行升级,保证产品是根据社区持续升级,实现较好的用户体验。还有,EMR对Spark、Hadoop、Kafka等组件均有性能和应用性的增强。以Spark为例,EMR比较早的集成了Spark AE,推测执行的自动化和特性,同时包括基于Spark来进行物化视图的自研的产品功能。成本优势:EMR产品相对于用户自建Hadoop更具有成本优势。首先,EMR集群支持弹性伸缩。此处的弹性伸缩指两方面。比如可以根据一个时间点,大部分用户在用开源大数据Hadoop时在每天晚上12点定时跑一个较大的日报任务,而日报任务可能并不需要全天都跑,可能在早上就会跑完。此时使用弹性伸缩有利于节省计算资源。同时也可以采用按负载伸缩的方式,设置YARN Root的队列的某一个指标进行伸缩。用户可以根据自己实际的application排队情况及container分配的情况进行伸缩。其次,EMR支持OSS作为数据存储系统。除HDFS之外可以使用OSS,将HDFS的schema改为OSS路径直接读写OSS。相对来说,可以实现用户的数据分层存储,当用户的热数据放在HDFS里,冷数据则可以放在OSS中。同时实现OSS的生命周期的管理。比如说相对温数据放在一个标准型里,但如果用户的数据是一年前或者几年前的数据,则可以放到归档型或者低频型的更便宜的OSS存储中。第三个特性是EMR在弹性伸缩的基础上同时支持竞价实例。ECS提供了一种比较便宜的实例类型,即竞价实例。用户可以自己出一个价格来实现成本节省。考虑到数据可靠性的影响,竞价实例只能用在计算节点上,若上面有HDFS的数据存储,则不允许使用竞价实例或者弹性伸缩。最后,EMR可以通过作业来拉起一个临时集群。当用户只是想要跑一个大数据的任务,可以通过集群模板设置集群的配置。当作业被触发时,EMR会先创建好临时集群,作业执行完毕,临时集群会被释放掉。通过临时集群的方式实现比较灵活的集群创建和管理。企业级特性:EMR采用了MIT Kerberos和Apache Ranger实现用户鉴权和用户权限管理。同时提供了EMR APM实现集群和作业的监控。3. EMR开源软件栈下图是EMR目前支持的开源软件栈。最底部是EMR的Docker和ECS。通过ECS是目前在公有云上的主要形态,专有云可以通过Docker的方式,在ECS之上部署一个EMR Agent,主要负责集群管理和集群运行数据的采集,检测集群端前是否出现问题。数据导入时EMR提供了Sqoop,使用开源的DataX组件、Flume组件或SLS将数据导入到EMR上。数据存储这一块EMR支持HDFS和OSS。在OSS之上又开发了jindoFS,jindoFS可以用OSS作为数据湖的概念,通过jindoFS catch的方式做数据加速,提升OSS读取数据的效率。EMR最新版本支持Kudu和Delta […]