大數據

大數據

Spark 小文件合并优化实践

作者:梁世威,同盾科技平台工具部研发工程师,从事开源大数据计算/存储和优化方面的工作。 “ 对 spark 任务数据落地(HDFS) 碎片文件过多的问题的优化实践及思考。” 此文是关于公司在 Delta Lake 上线之前对Spark任务写入数据产生碎片文件优化的一些实践。 形成原因数据在流转过程中经历 filter/shuffle 等过程后,开发人员难以评估作业写出的数据量。即使使用了 Spark 提供的AE功能,目前也只能控制 shuffle read 阶段的数据量,写出数据的大小实际还会受压缩算法及格式的影响,因此在任务运行时,对分区的数据评估非常困难。 shuffle 分区过多过碎,写入性能会较差且生成的小文件会非常多。 […]

大數據

关键技术 五:LTE-A DC 双连接 | 带你读《5G UDN(超密集网络)技术详解》之十四

第 2 章 LTE 微蜂窝和小小区技术 2.3.5 LTE-A 小小区开关 2.3.6 LTE-A DC 双连接 虽然前述的载波聚合技术,能提供高效的无线频谱资源之间的聚合,但在 LTE 网络侧,由于载波聚合技术架构要求多个分量载波之间,必须由同一个 MAC 实体进行统一的调度和资源管理,这就要求多个分量载波被同一基站所配 置管理,或者虽然跨不同的基站,但它们之间能用理想低时延的回程链路(Ideal Backhual)相连,因此即使是两个独立 MAC 实体,它们之间也可进行实时的 无线资源协同操作。前面的

大數據

案例酷 | 机器人瓦力来了:训练AI吞食垃圾 瀚蓝环境探索破解垃圾围城难题

引言:随着我国经济快速发展和城市人口不断增长,以及新型的城镇化建设,很多地方垃圾围城的问题正日益严峻。垃圾在填埋过程中会产生大量的臭气、沼气和二氧化碳以及大量的细菌病毒等微生物,会对人居环境产生恶劣的影响,高效的做法是将垃圾通过现代化焚烧技术,实现无害化,同时焚烧余热还可供发电,既环保有效、又能变废为宝。根据《“十三五”全国城镇生活垃圾无害化处理设施建设规划》,生活垃圾焚烧比例将由 2015 年的 28.6%提升至 2020 年的 50%。预计“十三五”期间垃圾焚烧建设市场规模将高达两千亿。 对于垃圾焚烧企业来说,垃圾的成分变化多端,如何提升焚烧控制的稳定性,是一个重要的技术挑战。焚烧工程师通过调节焚烧炉的各种参数,确保垃圾焚烧充分、蒸汽量稳定,一方面减少锅炉设备受损,另一方面可以更稳定发电并降低烟气污染物的排放。但是,每天的生活垃圾不一样,成分也很复杂,一年四季受温度和湿度影响不断变化,要做到稳定的燃烧很不容易。 长久以来,焚烧控制主要依赖于人的判断,靠的是经验积累。老师傅经验丰富,通过调节锅炉温度和进风大小,就可以让垃圾焚烧得更充分;年轻师傅经验少,容易出现判断失误的问题,稳定性就差很多。此外,老师傅如果出现身体和精神状态不佳,影响工作状态,也会有判断失误的状况。人工智能的参与,提供了很多想象的空间。 垃圾焚烧技术进步路上障碍 瀚蓝环境股份有限公司(简称瀚蓝环境)是一家专注于环境服务产业的上市公司。公司拥有22个生活垃圾焚烧发电项目,日生活垃圾焚烧发电总规模33100吨。仅是广东佛山南海厂区的六台焚烧锅炉,每天就能“消化”近3000吨垃圾,发电150万度,足以满足南海区16万户40万人的生活用电需求。 虽说垃圾焚烧发电是朝阳产业,市场潜力巨大,但过去多年,进一步提升垃圾焚烧稳定性的关键技术,一直没有突破。 瀚蓝环境固废事业部信息管理部总监赵浩表示,整个垃圾焚烧发电的过程,主要是靠锅炉师傅通过调节焚烧炉的各种参数,尽量做到让垃圾的燃烧更充分、蒸汽更稳定。而限制技术进步的最大阻碍,就出在焚烧过程对人工经验的过度依赖,这给技术进步带来诸多障碍。 一是经验存在偏差与不稳定。不同工艺专家技术水平参差不齐,调出来的效果相差较大。此外,现场人员难以长时间集中精力观察参数变化,导致焚烧炉无法发挥到最佳状态,垃圾焚烧的稳定性不足。 二是经验难以固化与传承。经验都存在老师傅的脑袋里。培养一位合格的工艺专家需要 1-2年的时间,一旦离岗,经验也随之带走,没有任何积累留给新人。而培养一名新员工直到上岗,则要耗费大量精力与时间。长时间的大强度劳动,也加剧了工人的流失。 此外,经验还存在天花板。即便再有经验的老师傅,也只能做到对一部分参数的认知,而整个垃圾焚烧过程涉及上千种参数,远超出人脑的计算与理解能力。 引入AI:数据+模型+经验=最优参数推荐 为摆脱对经验的过度依赖,瀚蓝环境意识到更高效的数字化手段是可行办法。通过将经验与数据中的隐性知识转化为显性知识,并嵌入到机器中,让机器协助人类来完成复杂焚烧过程的复杂决策与控制。但摆在眼前的问题是,垃圾焚烧领域鲜有数据科学家,懂行业机理模型的数据科学家更是凤毛麟角,行业算法处于空白。于是,瀚蓝环境找到阿里云工业大脑团队,希望借助其在数据与算法上的优势,加之与瀚蓝环境专家经验结合,共同开发垃圾焚烧工艺优化算法,优化垃圾焚烧的稳定性。 工业大脑落地场景的选择至关重要。数据可用性、风险可控、可实施、高收益与可复用是选择优先场景需要考虑的关键因素。

大數據

没学好数据库的程序员,真的混不到饭吃么?

来自公众号:SegmentFault 业内有句俗语: 只会写代码的是码农;学好数据库,基本能混口饭吃;在此基础上再学好操作系统和计算机网络,就能当一个不错的程序员。 如果能再把离散数学、数字电路、体系结构、数据结构/算法、编译原理学通透,再加上丰富的实践经验与领域特定知识,就能算是一个优秀的工程师了。 这么说其实是有一些道理的,因为计算说穿了就是两个东西:数据与算法。 目前市面上常见的软件应用,大部分都属于数据密集型应用。通俗的话来讲,就是这些应用干的事儿就是把数据收集起来,需要的时候再拿出来。而这些操作都需要数据库来进行承载。 所以说,数据库离我们很近,也是一项开发者们非常需要掌握的技能。这期的 「SFKP • 计算机百科」,我们就来「SFKP • 数据库」。 本期内容重点: 数据库解析,数据库发展史,我国数据库进程,对开发者的建议 啥是数据库? 名词解析:数据库 数据库,简而言之可视为电子化的文件柜 —— 存储电子文件的处所,用户可以对文件中的数据运行新增、截取、更新、删除等操作。所谓“数据库”系以一定方式储存在一起、能予多个用户共享、具有尽可能小的冗余度、与应用程序彼此独立的数据集合。 数据库技术产生于

大數據

案例酷 | 云栖小镇: 如何解决城市停车“老大难”?

引言:公开数据显示,北京城六区居住停车位缺口高达几十万个,北京市正在研究出台错时共享停车指导意见。而类似的停车难已成为全国通病,根据统计数据显示,全国停车位缺口超过5000万个。一方面车多位少。另一方面车场的平均空置率也高达51.3%,存在严重的停车资源不匹配现象。政府部门应该如何治理? 其根本关键是停车场和车主之间数据信息要打通、以及车位信息实时更新、车位导航实时指引。这些背后都需要智能科技的力量。杭州云栖小镇位于杭州之江国家旅游度假区核心区块,每年举办的云栖大会、2050大会等,都会给这个地区带来巨大拥堵。通过整合利用停车数据资源和算法的在线调度,云栖小镇实现了车辆、车场、车位的精准推荐和最优适配,化解了城市停车的“老大难”问题。这是全国第一个跨区域停车场数据化打通和数据化引导停车的案例,对各地政府相关部门有积极的实践意义。 云栖小镇全域3.5平方公里,总计22个停车场,其中包括公共停车场、商业配套停车场、产业园区停车场、企业自有停车场、社区停车场及特殊单位自有停车场(如西湖大学、市委党校、杭州卷烟厂等)。如何基于现有政策、资源来整合这些停车场,并让其对外开放合理利用,成为项目推动的主要问题。云栖小镇通过3个小创新,有效提升了车位的利用率,提升了车主的出行体验。 1. 先离场、后付费,让停车周转“快”起来 在位于云栖国际会展中心的一个地下停车场,每天早晚高峰都有大量车辆驶入或离场。但和其他停车场不同的是,这里没有收费道闸杆,也没有收费员,车辆自由出入。 每次从车库出来,车主都会收到一条账单短信提醒,确认无误后用支付宝就可以完成付款。据测算,“先离场后付费”的停车收费模式在今年实施之后,车主的平均出场时间从23.4秒降低到2.6秒,降幅达89%,解决了停车场出口排队缴费的拥堵难题。目前,除了免费停车场,剩余12个停车场已经全部实现先离场后付费服务,其中包括主动要求实现全国首批无杆停车示范的停车场有5个。 2. 全接入、全调度,让车位资源“活”起来 小镇通过接入全域22个停车场6495个停车位,实现停车位数据全接入,通过全域时空调度算法,实现车主与空余停车位资源的动态配置。车主通过支付宝页面搜索到“便捷泊车”小程序,进入应用页面后,可以寻找到距离自己最近的停车场,点击打开后,导航界面会显示附近停车场可预订的车位数以及剩余车位,同时结合路网、历史停车等数据计算出车主到场时目标停车场的空余车位数量,确保有空余车位可用。确定好要去停车场后,便可以在小程序里进行一对一的车位预约,预约成功后,当汽车驶入停车场靠近车位十米以内时,地锁会自动开启,车辆离开时,地锁也会自动关闭,大大节约了等待停车的时间。 整个配置的背后,核心是在实时获得多个停车场的感知数据的基础上,结合阿里云自研算法来适配更多停车场景,保证调度结果更优。这个算法包括了多个调优因子,能保证车主快速找到“最适合”自己的车位。 3. 有车位、无违停,让路面秩序“好”起来 找不到合适的车位是车主违停的主要原因,以往治理道路车辆违停以“罚”为主,看到车上的罚单也成为车主最郁闷的事情。小镇通过打通路面监控系统和浙江省“掌上 110”便民服务平台,自动识别违停情况,发现违章车辆,第一时间向车主发送提醒短信。在提醒“车辆违停,尽快驶离”的同时,提供附近适配的停车场信息和精准导航信息。从“刚性执法”到“柔性提醒”,带来的不仅仅是小镇停车的秩序改善,更是具有小镇科技特色的人文关怀。 除了云栖小镇,2019年7月,杭州下城区政府选择新天地商圈作为城市大脑应用场景示范区,“便捷泊车”项目也成为其中主要的建设内容。 以前每天下班后,周末假期、店内大促等时间,商业中心停车场经常出现资源紧张、排队等车的情况,而周边其他停车场却部分不饱和。便捷泊车项目实施之后,一期已经完成新天地商圈的11个停车场、管理泊位1万余个的覆盖,二期已经开始规划,将会覆盖武林商圈、嘉里中心等商业停车场。整个功能上也更加多样,增加了错峰停车、动态调价等选项。不仅提升了停车场的资源利用率,为业主带来商业收益,更主要的是方便了车主最快时间找到车位,提升了出行和消费体验。 未来,通过利用阿里巴巴云计算、物联网、大数据、人工智能、便捷支付、全景导航及芝麻信用等技术的整合打通,实现全域停车资源的“智能感知-智能调度-智能服务”,既可让个人获得良好的驾车出行体验,也能让政府监管部门获得全域停车资源的综合调度能力,让停车场库的运营方获得了提升车位资源周转率的增润能力。 撰文:肖剑、李双宏、李培敬文章来源:阿里研究所

大數據

定义无处不在的事件 – CloudEvent

本文选自《Knative 云原生应用开发指南》。更多云原生技术资讯可关注阿里巴巴云原生技术圈 背景 Event 事件无处不在,然而每个事件提供者产生的事件各不相同。由于缺乏事件的统一描述,对于事件的开发者来说需要不断的重复学习如何消费不同类型的事件。这也限制了类库、工具和基础设施在跨环境(如 SDK、事件路由或跟踪系统)提供事件数据方面的潜力。从事件数据本身实现的可移植性和生产力上受到了阻碍。 什么是 CloudEvents CloudEvents 是一种规范,用于以通用格式描述事件数据,以提供跨服务、平台和系统的交互能力。事件格式指定了如何使用某些编码格式来序列化 CloudEvent。支持这些编码的兼容 CloudEvents 实现必须遵循在相应的事件格式中指定的编码规则。所有实现都必须支持 JSON 格式。 协议规范 命名规范 CloudEvents 属性名称必须由 ASCII

大數據

关于 Broker/Trigger 事件模型

本文选自《Knative 云原生应用开发指南》。更多云原生技术资讯可关注阿里巴巴云原生技术圈 Broker 和 Trigger 从 v0.5 开始,Knative Eventing 定义 Broker 和 Trigger 对象,从而能方便的对事件进行过滤(亦如通过 ingress 和 ingress controller 对网络流量的过滤一样)。 Broker

大數據

事件注册机制 – Registry

本文选自《Knative 云原生应用开发指南》。 更多云原生技术资讯可关注阿里巴巴云原生技术圈 背景 作为事件消费者,之前是无法事先知道哪些事件可以被消费,如果能通过某种方式获得哪些 Broker 提供哪些事件,那么事件消费者就能很方便通过这些 Broker 消费事件。Registry 就是在这样的背景下被提出的,通过 Registry 机制,消费者能针对特定的 Broker 的事件通过 Trigger 进行事件订阅消费。这里需要说明一下,Registry 设计与实现目前是针对 Broker/Trigger 事件处理模型。 诉求

大數據

4G LTE/LTE-A系统的主要性能特点 | 带你读《5G UDN(超密集网络)技术详解》之四

第一章 5G 前蜂窝移动历史 1.2 4G LTE同构宏蜂窝和异构微蜂窝概述 | 1.3 4G LTE/LTE-A系统的主要性能特点| 宏基站 eNB 和微基站 eNB 配置提供的服务小区之间的主要区别是:系统 容量和无线覆盖的区域大小不同,只有当它们以不同方式、不同类型搭配,混 合地部署组网在一起时,才能形成上述所谓的“同构宏蜂窝”与“异构微蜂 窝”网络之间的诸多差别。无论是宏基站 eNB 还是微基站 eNB,它们提供的

Scroll to Top