大數據

大數據

假期充电 | 2019 Flink 社区年度文章合集(电子书免费送)| 开发者必读(155期)

最炫的技术新知、最热门的大咖公开课、最有趣的开发者活动、最实用的工具干货,就在《开发者必读》! 每日集成开发者社区精品内容,你身边的技术资讯管家。 每日头条 假期充电 | 2019 Flink 社区年度文章合集(电子书免费送) 在过去的一年中 Apache Flink 社区官方微信公众号为小伙伴们推送了大数据及 Flink 相关活动资讯 46 篇;Apache Flink 的系列基础教程 19 篇、企业级应用实践 […]

大數據

Delta Lake 和 Apache Hudi 两种数据湖产品全方面对比

Delta Lake 是数砖公司在2017年10月推出来的一个项目,并于2019年4月24日在美国旧金山召开的 Spark+AI Summit 2019 会上开源的一个存储层。它是 Databricks Runtime 重要组成部分。为 Apache Spark 和大数据 workloads 提供 ACID 事务能力,其通过写和快照隔离之间的乐观并发控制(optimistic concurrency control),在写入数据期间提供一致性的读取,从而为构建在 HDFS

大數據

SD-WAN在广电网络中的应用研究

SD-WAN是Software-Defined Networking In a Wide Area Network 的缩写,提起 SD-WAN,有几个关键词会首先映入眼帘:Overlay、SLA、安全、NFV、集中控制、灵活快速、自动化,那么SD-WAN到底是什么呢?业界普遍认为SD-WAN本质是一种企业专线技术,说到企业专线我们会想到传统的MPLS VPN,SD-WAN和MPLS VPN两者在承载技术层面的区别,前者是 Overlay(一般是IPSec、VXLAN 等技术),后者是 Underlay,无论是 Overlay报文还是Underlay报文,走的都是同一条光纤链路,其所经过的各种网元设备也基本相同,所以SD-WAN的质量是不可能好于传统MPLS VPN专线。提到质量,我们广电网络公司是比不过三大运营商的,而且我们的网络也不是全国联网的,根本没法做全国性专线的业务。但我们可以通过SD-WAN技术帮客户“省钱”,打出我们自己的特色牌。下面我们来介绍SD-WAN技术在广电网络的实际应用。一、服务好高端的互联网集客用户这里主要是指小企业互联网专线客户,这类客户里面低端的就是直接一根互联网专线就解决问题,但是高端一点的,会有连回总部和访问国外的需求,还有些客户需要使用用友、金蝶和Office365等SAAS云,都希望能得到更好品质的服务。这些需求在以往是很难解决的,单纯扩用户侧带宽是没有用的,因为出口侧总是在拥塞。后来我们在出口使用了DPI^([1])(深度包检测Deep Packet Inspection)和DFI(深度/动态流检测Deep/Dynamic Flow Inspection)技术,把高端客户需要访问的目标地址和应用进行优化,引到更昂贵但是不拥塞的线路上去,可以解决这个问题。表1

大數據

阿里云超算集群报表:高效管理计算资源

弹性高性能计算(E-HPC)基于阿里云基础设施,为用户提供公共云之上的HPC服务。与传统HPC有限计算资源不同的是,E-HPC通过利用云的弹性可以做到资源的动态伸缩,从而根据实时的作业负载情况调整硬件计算资源,自动优化用户的成本资源。 集群管理员最为关心的应该是集群计算资源的利用率。传统超算往往是自建机房,一旦落成,核时数就随着时间线性增长。相较于传统超算的“静态”资源,云上的“动态”资源调度就显得更加灵活。尤其是配合Spot实例,可以帮助用户大大地降低成本。为了更加直观地获取这些“动态”资源的使用情况,E-HPC的报表功能就呼之欲出了。 E-HPC报表简介 E-HPC报表通过整合用户的作业执行情况,结合用户集群的硬件资源配置,分别从用户、队列和实例维度进行统计,将计算资源的利用率直观地呈现给用户,帮助用户更好地进行计算资源的划分和调度,提升计算节点的利用率,降低成本。 总览 上图是从用户角度呈现集群的总体利用率,右侧是指定用户在查询时间内已完成的作业。此时如果发现集群的空闲率较高,就可以考虑将空闲节点分配给利用率高(计算需求大)的用户,或者可以将部分空闲节点释放,降低计算资源的浪费。如上图,userNo1的利用率约为16%,userNo2的利用率约为12%,而集群的空闲率约为71%。如果此时userNo1或者userNo2有很多等待资源的排队作业,用户就可以将空闲节点暂时划分给两个用户,加大他们的资源数量,缩短作业处理周期。 手动进行资源编排来提升利用率是管理“静态”资源的有效方式,但是“动态”资源还有更有效的方式,就是E-HPC的自动伸缩。不同于手动调整资源,自动伸缩可以自行帮助用户进行计算节点的申请和释放。因此当集群中没有排队作业,但仍有空闲节点时,自动伸缩将会按照用户配置的规则来决定如何释放空闲节点,从而降低集群中节点的空置率。当集群中有等待计算资源的排队作业时,自动伸缩就可以动态的根据作业负载和用户配置的策略来扩容,快速处理作业。 下图就是从节点维度呈现自动伸缩管理节点的使用情况。横轴是时间,图中每个实例的长度表示当前实例的生命周期。实例的生命周期是从实例创建成功开始,到实例被释放或者查询结束时间为止。如果用户开启自动伸缩,节点维度的报表就可以清楚呈现扩容实例的生命周期,用户可以据此来调整自己的配置,避免不必要的浪费。 例如,上图中compute002、compute004-008节点均是由自动伸缩创建的,可以看到这些节点的实际利用率约为44%。右侧是实例compute004上运行的作业详细信息。两者比对我们发现异常:作业运行结束至该实例释放用时约8分钟。这段时间内实例没有任何负载,一直处于空闲状态,因此应该被压缩。我们可以在自动伸缩的配置中减小释放实例的查询次数和每轮的查询时间,从而加速空闲实例的释放。 主要架构 目前E-HPC已支持包括PBS Pro、Deadline和Slurm等8种调度器。为了适配不同的调度器,我们对报表功能进行模块化设计,从而提升其兼容性。如下图所示。 数据采集 我们在用户集群的管理节点通过定时查询的方式获取作业的相关执行情况,并存储在用户管控节点的数据库中。由于不同的调度器对历史作业的保留方式不同,因此需要针对不同的调度器进行不同的处理。例如PBS Pro会维护一个作业日志文件并定期更新数据;Deadline调度器需要使用GetJobDetails手动获取历史作业信息。因此我们在用户的管控节点设置一个定时任务从调取器中获取历史作业信息并记录在数据库中。 数据处理 由于作业信息中不包含实例的具体配置,并且作业之间是离散的,因此我们结合管控端存储的实例信息来计算集群的核时比。并且从用户、队列和实例维度分别统计,从而更加直观地帮助用户了解查询时间内集群的使用情况。 数据呈现 前端主要是响应用户的请求,并且将管控端的计算结果呈现给用户。 总结

大數據

深度学习技术在自动驾驶中的应用与挑战

导读:深度学习技术经过近几年井喷式的发展,在很多领域都得到了广泛的应用。在自动驾驶系统中,深度学习技术也起到了至关重要的作用,同时也面临着非常多的挑战。我们一直在探索,在一个安全、稳定的自动驾驶产品中,深度学习技术应该有着怎样的作用边界,又如何能最好地发挥其优势。本次分享的主题为深度学习技术在自动驾驶中的应用与挑战,主要包括: 深度学习技术 端到端:从感知到控制 深度学习的特点 应用策略 01 深度学习技术 深度学习技术在2012年开始爆发,由AlexNet在ImageNet数据集上达到了一个很高的分类准确率,横扫各种CV、NLP任务,在强化学习领域也大展身手,尤其擅长玩游戏,比如deepmind最近在研究打星际争霸。右边是各种网络图,大家可以参考文末的链接。 02 端到端:从感知到控制 16年的时候,英伟达研究了end to end神经网络,左侧输入左中右三个Camera的image,直接通过CNN输出转向的指令。如demo截图中,测试人员把手伸出了天窗,表示他没有操控车辆,然后车辆自动实现转向。不过这种方式存在2个隐患:① 因为是end to end 如果出现问题,完全不知道是哪里出了问题,很难去校正模型。② 对于转向这个指令,需要考虑的因素非常多,一些微小的场景变化就会引发不同的转向指令(如路上多了一个石块),因此,必须覆盖到所有的情况,才可以把这个模型训练的非常好,这需要海量的数据。 03 深度学习的特点

大數據

Apache Flink 1.10.0 重磅发布,年度最大规模版本升级!

Flink 1.10 同时还标志着对 Blink[1] 的整合宣告完成,随着对 Hive 的生产级别集成及对 TPC-DS 的全面覆盖,Flink 在增强流式 SQL 处理能力的同时也具备了成熟的批处理能力。本篇博客将对此次版本升级中的主要新特性及优化、值得注意的重要变化以及使用新版本的预期效果逐一进行介绍。 官网下载链接 https://flink.apache.org/downloads.html 新版本的二进制发布包和源码包已经可以在最新的 Flink 官网下载页面[2]找到。更多细节请参考完整的版本更新日志[3]以及最新的用户文档[4]。欢迎您下载试用此版本,并将您的反馈意见通过 Flink 邮件列表[5]或 JIRA[6]

大數據

速度收藏!看完这份知识图谱,才算搞懂 Flink!

先跟大家分享一个好消息!即日起,Apache Flink 社区微信公众号 Ververica 正式更名为 Flink 中文社区 并由 Apache Flink PMC 成员进行维护,是国内唯一的 Flink 社区官方微信公众号,详细信息请见次条「声明」。 在去年的一年中,Flink 中文社区共发布文章 144 篇,通过提供 Flink 技术原理剖析、上手实操、多场景下的最佳实践以及社区的最新资讯等帮助大家更好的理解、使用

大數據

独家下载 |《领军行业大数据及AI实战》解锁九大行业领军企业云上大数据及AI实战

点击免费下载《领军行业大数据及AI实战》>>> 飞天大数据平台不仅是阿里经济体大数据生产的基石,更为各行业客户提供大数据整体解决方案和强劲算力。上一册介绍阿里巴巴内部大数据实战的电子书《阿里巴巴大数据及AI实战》推出后,受到了广大开发者的认可。本次带来不同行业下企业的大数据&AI案例和实战电子书《领军行业大数据及AI实战》,希望能给广大企业和开发者带来更多受益。 云上不同行业企业大数据及AI典型场景最佳实践全揭秘。2020首个大数据实战手册——《领军行业大数据及AI实战》 也可在PC端打开 http://yq.aliyun.com/download/3897 下载 以上是部分行业下企业通过大数据和AI来洞察并推动业务的案例和实战分享,感谢本书中的所有企业及分享人,通过分享让更多企业和开发者能够得益于大数据和AI,让数据和AI赋予企业更多洞察和想象。

大數據

【2020】DataWorks云上直播周回顾(不断更新中)

鼠年开工,【2020】DataWorks云上直播周开启,连续开启线上直播内容,让大家在家期间也能通过通过线上的形式了解产品最佳实践与最新功能。 1.DataWokrs On MaxCompute最佳实践(录播)http://cloud.video.taobao.com/play/u/3926817755/p/1/e/6/t/1/240374538793.mp4 2.DataWokrs On EMR最佳实践(录播)https://cloud.video.taobao.com/play/u/3926817755/p/1/e/6/t/1/249572978192.mp4

大數據

一站式图计算研发平台GraphStudio

1. 背景 GraphStudio是DataWorks团队和GraphCompute(原MaxGraph)团队合作推出的一站式图计算研发平台。基于GraphCompute图计算引擎和DataWorks飞天大数据平台,我们致力于帮助用户以简单易用的方式完成图模型构建、数据导入、算法探索、算法结果应用等一系列工作。 1.1 GraphCompute 从DB-Engine 2019年发布的各类数据库发展趋势图上可以看出,最上方绿色的这条Graph DBMS代表图数据库。自2013年以来,图数据库的发展速度一骑绝尘,图存储、图计算相关技术产品不断涌现。图计算究竟能帮助我们解决哪些问题? 社交关系:在社交应用中,可以通过构建人与人的社交关系,分析特定用户的多度好友、关注度、转发量等。 金融风控:人员和事件构成一张庞大的关系网络,通过关联分析可以快速识别异常,及时避免风险。例如识别电商领域的刷单行为,金融领域的洗钱、骗保等。 网络安全防控:把IP、域名、主机的一系列实体构建成图,借助图的互联互通,找出网络环境中的不安全因素。比如木马病毒经常控制若干域名进行恶意通讯,在已经发现不安全域名时,通过域名和服务器IP的关联关系,快速找出新的有问题的域名。 在这样的背景下GraphCompute应运而生,从基于MaxCompute的bigGraph,到具备独立部署能力的MaxGraph,再到完成品牌升级、与大数据平台进一步融合的GraphCompute。GraphCompute发展逐渐成熟,具有弹性扩展高可用性、高性能低延时、查询分析双引擎、与大数据生态深度集成等优势。 1.2 DataWorks DataWorks是集数据治理、数据开发、任务调度、元数据管理、数据集成为一体的全域智能大数据平台。从支持MaxCompute单引擎,已逐步发展为跨存储+跨引擎+跨云+跨region的、有数据综合治理和AI加持的飞天大数据平台。 1.3 GraphStudio GraphStudio搭建了GraphCompute和DataWorks融合的桥梁。GraphStudio是DataWorks智能数据开发中的一员,为GraphCompute的开发者提供图实例建模、数据查询、实例运维等图计算开发分析服务。并依托DataWorks中的数据集成和任务调度,支持GraphCompute数据导入;依托数据综合治理,提供图查询结果的数据分析。在2019年5月份完成GraphStudio v0.1弹内发布后,我们已经逐步完成了已有图实例的使用迁移、GraphStudio v1.0的弹内发布、GraphCompute与GraphStudio的公有云首发,同时GraphCompute与GraphStudio将在专有云企业版3.9版本输出。本文将为大家介绍最新版本GraphStudio的主要功能,以及我们的后续产品规划。

Scroll to Top