大數據

大數據

【全新系列】飞天大数据平台 DataWorks 2019-12 产品月刊

尊敬的DataWorks用户:您好,为了您更好地使用DataWorks产品,从2020年1月开始,Dataworks将每月推出产品月刊,为您提供最新的产品活动、功能更新、灰度功能邀测、大数据技术文章等各类信息,希望DataWorks为您提供高效的,一站式的大数据开发操作系统级体验。 【产品活动】 1.首月99元,3分钟入门DataWorks(标准版)强大功能!点击查看详情截止2020年1月24日,购买任意Region的DataWorks增值版本-标准版,均能享受首月99元优惠活动,体验6大专属场景。活动结束后恢复原价2500元/月。2.参与DataWorks产品满意度调研,有机会赢取200元无门槛代金券诚邀您参与DataWorks产品满意度调查,我们将在认真填写的用户中随机抽取100名,每名用户赠送200元DataWorks无门槛代金券。您的建议会直接反馈到产品与研发团队,感谢您的支持!问卷调查地址 【产品功能更新】 1. DataWorksV3.0 重磅发布DataWorks V3.0全新升级了多引擎架构,在MaxCompute的基础之上,全新支持了开源大数据引擎E-MapReduce、实时计算(Flink)、交互式分析、图计算服务(Graph Compute)。同一个工作空间支持多个引擎实例,方便对业务、任务和表进行统筹管理。同时支持跨地域任务依赖调度,任务调度更加灵活,方便跨地域业务之间协同工作。新特性快速一览 2.DataWorksV3.0_DataWorks on EMR最佳实践开源的Haoop平台也可以通过使用EMR对接DataWorks,为您带来高效的的大数据开发体验,详细操作视频请点击查看 3.DataWorksV3.0_数据分析模块全新发布数据分析主要提供表格模式的MaxCompute表操作、电子表格协同编辑和统计分析、可视化报表搭建和分享等核心功能。凭借简单易用的操作界面,使数据变化所见即所得,可视化完成数据的修改和分析、报表的搭建和分享,支持电子表格、可视化报表、维表三种分析形式。**[DataWorks数据分析,快速的数据智能洞察平台](链接地址https://developer.aliyun.com/article/742245)** 4.DataWorksV3.0_数据分析模块全新发布

大數據

基于宜搭的《请假管理》应用搭建

需求分析 搭建一个请假管理系统首先需要明确系统的目标用户,目标用户的业务诉求往往决定系统功能的边界。在这个case中我把目标用户分为两类:一类是管理员用户,另一类是普通员工,他们对请假系统的业务诉求我简单的做了归纳: 用户划分 管理人员 业务诉求: 维护员工的假期信息 维护假期的分类及申请说明 配置假期审批的流程 统计员工假期数据 普通员工 业务诉求: 提交请假申请 审批结果通知 查看提交记录 通过对目标用户的业务诉求的整理,我们基本可以圈定要在宜搭上实现的功能,下面要做的是对业务诉求的抽象 需求抽象 针对请假管理,可以从四个维度进行功能拆解,对每个维度需要实现的内容进行了细化: 基础信息运维 维护员工假期信息的单据页面 员工姓名、工号

大數據

2019年Apache Spark技术交流社区原创文章回顾

整理了这一年分享过的来自诸多专家的实践经验,希望2020年我们仍然能够互相支持,壮大Spark社区。 福利:转发本文到朋友圈,集赞30个截图发送至小编(小编微信见文末),送Spark社区定制毛线帽一顶,限量10顶先到先得。 感谢持续分享输出优质内容的阿里云EMR团队的王道远,余根茂,彭搏,郑锴,夏立,林武康,李呈祥,吴威,殳鑫鑫,宋军,关文选,孙大鹏,辛现银,江宇,陈强,陈龙,陶克路,姚舜扬,周克勇,苏昆辉;阿里云Tablestore存储服务技术专家朱晓然,王卓然;Databricks研发总监李潇;资深数据架构师祝威廉;entobit技术总监邓力;某游戏公司数据平台负责人李伟;eBay软件开发工程师李万雪;同盾科技工程师梁世威;感谢圈内的技术大佬浪尖,过往记忆,AI前线,vivo技术,滴滴技术提供的帮助。(排名不分先后) 浅谈 Spark 的多语言支持 Apache Spark3.0什么样?一文读懂Apache Spark最新技术发展与展望 基于Spark SQL实现对HDFS操作的实时监控报警 通过Spark SQL实时归档SLS数据 使用Spark SQL进行流式机器学习计算(上) 通过WebUI查看Structured Streaming作业统计信息 现代流式计算的基石:Google DataFlow Spark

大數據

2019年Apache Spark技术交流社区原创文章回顾

整理了这一年分享过的来自诸多专家的实践经验,希望2020年我们仍然能够互相支持,壮大Spark社区。 福利:转发本文到朋友圈,集赞30个截图发送至小编(小编微信见文末),送Spark社区定制毛线帽一顶,限量10顶先到先得。 感谢持续分享输出优质内容的阿里云EMR团队的王道远,余根茂,彭搏,郑锴,夏立,林武康,李呈祥,吴威,殳鑫鑫,宋军,关文选,孙大鹏,辛现银,江宇,陈强,陈龙,陶克路,姚舜扬,周克勇,苏昆辉;阿里云Tablestore存储服务技术专家朱晓然,王卓然;Databricks研发总监李潇;资深数据架构师祝威廉;entobit技术总监邓力;某游戏公司数据平台负责人李伟;eBay软件开发工程师李万雪;同盾科技工程师梁世威;感谢圈内的技术大佬浪尖,过往记忆,AI前线,vivo技术,滴滴技术提供的帮助。(排名不分先后) 浅谈 Spark 的多语言支持 Apache Spark3.0什么样?一文读懂Apache Spark最新技术发展与展望 基于Spark SQL实现对HDFS操作的实时监控报警 通过Spark SQL实时归档SLS数据 使用Spark SQL进行流式机器学习计算(上) 通过WebUI查看Structured Streaming作业统计信息 现代流式计算的基石:Google DataFlow Spark

大數據

链表实战之超市购物车 | 带你学《Java面向对象编程》之九十六

上一篇:链表实战之宠物商店 | 带你学《Java面向对象编程》之九十五【本节目标】通过阅读本节内容,你将借助链表这一工具,实现对更加复杂的现实情景的数据处理,进一步掌握链表的各类定义、实现以及运用手段。 综合实战:超市购物车 使用面向对象的概念表示出下面的生活场景:小明去超市买东西,所有买到的东西都放在了购物车,最后到收银员结账。 图一 超市购物设计实现 步骤:1、定义商品标准2、定义购物车标准3、定义一个购物车的实现类4、定义收银台5、定义商品信息图书:书包:6、进行代码测试的编写 interface ILink<E> { //设置泛型避免安全隐患 public void add(E e) ; //增加数据 public int

大數據

spark过节监控告警系统实现

作者:浪尖原文链接本文转载自公众号:Spark学习技巧 马上要过年了,大部分公司这个时候都不会再去谋求开新业务,而大数据工匠们,想要过好年,就要保证过年期间自己对自己的应用了如执掌。一般公司都会有轮值人员,至少要有春节应急预案,尤其是对于我们这些搞平台,或者线上应用的,应急预案更是必不可少。今天浪尖主要是分享一下关于在yarn上的spark 任务我们应该做哪些监控,如何监控。 Spark on yarn这种应用形态目前在企业中是最为常见的,对于这种spark的任务,浪尖觉得大家关心的指标大致有:app存活,spark streaming的job堆积情况,job运行状态及进度,stage运行进度,rdd缓存监控,内存监控等。 其实,春节最为重要的就是app存活了,春节期间各大应用应该都会有一部分数据增量,那么实际上就需要我们的程序能有一定的抗流量尖峰的能力,这个也很常见,因为正常的app都会有流量尖峰和低谷,你做一个实时应用程序,必须要去应对流量尖峰,也就是说你程序的处理能力正常要大于流量尖峰的,要是你的数据流量有历史信息,那么就简单了,只需要将spark streaming和flink的处理能力盖过流量最高值即可。当然,会有人说spark streaming 和flink不是有背压系统吗,短暂的流量尖峰可以抗住的呀,当然太短暂的几分钟的流量尖峰,而且你的任务对实时性要求不高,那是可以,否则不行。 1. App存活监控 企业中,很多时候spark的任务都是运行与yarn上的,这个时候可以通过yarn的客户端获取rm上运行 任务的状态。 Configuration conf = new YarnConfiguration();

大數據

如何让机器客服更像人类客服?

概要 人类通过语言将大脑里的知识表达出来,通过对话相互传递知识。机器通过学习大量的语料可以一定程度学会流畅的语句表达,但如果没有知识,则生成的只会是漂亮而无内涵的回复。传统的模块化的对话模型可以通过数据库查询等方式将关键信息填入回答的模版中,但是端到端的对话生成模型则要更复杂一些。 为了解决这个问题,记忆网络(Memory Networks)通常是一个不错的技术方法。但是现有的记忆网络结合对话系统只是提供了如何引入知识的一个方法,并不能很好的处理多种来源和结构的知识。 因此在这篇文章中,我们提出了一个异构记忆网络(Heterogeneous Memory Networks, HMNs)来同步处理用户语句,对话历史以及背景知识库。HMNs由上下文无关(context-free memory)记忆网络和我们提出的上下文敏感(context-aware memory)记忆网络组成,分别用于编码、储存结构化的知识元组(knolwdge tuples)和序列化的用户语句、历史对话,并生成两个小词表分布(知识词表和历史对话词表)以及一个大词表(所有训练的词汇分布)供回复语句生成的选词。在三个数据集上的实验结果表明,HMNs超过了现有的SOTA模型,能够较显著的提高端到端任务型对话模型的表现。 问题背景 人类客服在回答客户问题时首先理解用户的语言,然后到相关数据库、知识库中查询所需要的知识,最终整理并回答问题。在这个过程中如果缺乏相对应的知识数据,即使是人类也几乎不可能准确回答用户所需要的问题,因为客户可能需要的关键点就是那条数据库中的知识,而再漂亮的回复偏离了重点也是不合格的。机器也是如此。生成模型如果仅通过历史对话语料学习,最终学习到的可能只是最安全、最通用的回复,但在实际对话中缺乏关键知识,也将导致无法解决具体事务。因此在对话模型中恰当的引入知识显得至关重要。 如图所示一个典型的任务型对话,用户问题What is the address for keen需要根据上文的hotel_keen以及KnowledgeBase中检索到的2_miles、578_arbol_dr等作为关键信息来生成系统回复的语句。在这种情况下,传统的pipeline类型的对话系统通常采用填槽(slot filling)以及检索的方式来查找所需的关键信息,这种方式需要大量的人工标注。深度学习的发展促使我们更进一步探索:许多[7,

大數據

机器学习在高德用户反馈信息处理中的实践

1.背景作为国内领先的出行大数据公司,高德地图拥有众多的用户和合作厂商,这为高德带来了海量的出行数据,同时通过各个渠道,这些用户也在主动地为我们提供大量的反馈信息,这些信息是需要我们深入挖掘并作用于产品的,是高德地图不断进步和持续提升服务质量的重要手段。 本文将主要介绍针对用户反馈的文本情报,如何利用机器学习的方法来提高大量用户数据的处理效率、尽可能实现自动化的解题思路。 先来解释一下重点名词。 情报:是一种文本、图片或视频等信息,用来解决高德地图生产或者导航中的具体问题,本质上是指与道路或交通相关的知识或事实,通过一定空间和时间通知给特定用户。 用户反馈:是指用户借助一定的媒介,对所使用的软件等提供一些反馈信息,包括情报、建议和投诉等。典型的用户反馈类型和选项如下图所示: 2.问题及解法用户反馈的方式可以通过手机的Amap端、PC端等进行上报,上报时选择一些选择项以及文本描述来报告问题,以下是一个用户反馈的示例,其中问题来源、大类型、子类型和道路名称是选择项,用户描述是填写项,一般为比较短的文本。这些也是我们可以使用的主要特征。 每个用户在上报了问题之后,均希望在第一时间内问题能够得到解决并及时收到反馈。但是高德每天的用户反馈量级在几十万,要想达到及时反馈这个目标非常的不容易。 针对这些用户反馈信息,当前的整体流程是先采用规则进行分类,其中与道路相关的每条反馈都要经过人工核实,找到用户上报的问题类型和问题发生的地点,及时更新道路数据,作用于导航。 针对一条反馈的操作需要经过情报识别、情报定位、情报验证等环节: 1) 情报识别主要是判断问题类型即给情报打标签:①分析用户上报的信息包括问题来源、大类型、子类型和用户描述等,②查看上传的图片资料,包括手机自动截图和用户拍照; 2) 情报定位主要是找到问题发生的位置信息即定位坐标:①分析用户反馈问题时戳的位置点即戳点的有效性,②查看用户上报问题时车辆行驶的位置即自车位置,③分析用户使用高德软件过程中的规划和实走轨迹等日志信息; 3) 情报验证:通过以上两步确定了情报标签和位置坐标,此环节需要验证情报标签(含道路名称):①分析影像和大数据热力图或路网基础数据,②查看用户上传的资料和采集的多媒体图片资料。 整个业务处理流程如下图所示: 在处理用户反馈问题整个过程秉持的原则是完全相信用户的问题存在。若用户上报的信息不足以判断问题类型和问题发生地点,则会尽量通过用户规划和实走轨迹等日志信息进行推理得出偏向用户的结论。 目前整个用户反馈问题处理流程存在的主要问题有:规则分发准确率低,人工核实流程复杂、技能要求高且效率低,去无效误杀严重等。 为了解决以上问题,我们希望引入机器学习的方法,以数据驱动的方式提高作业能力。在进行机器学习化的探索过程中,我们首先对业务进行了拆解及层级化分类,其次使用算法来替代规则进行情报分类,再次工程化拆解人工核实作业流程为情报识别、情报定位和情报验证等步骤,实现单人单技能快速作业,最后将工程化拆解后的情报识别步骤使用算法实现其自动化。 3.机器学习解题

大數據

Go 开发关键技术指南 | 带着服务器编程金刚经走进 2020 年(内含超全知识大图)

作者 | 杨成立(忘篱) 阿里巴巴高级技术专家 关注“阿里巴巴云原生”公众号,回复 Go 即可查看清晰知识大图! 导读:从问题本身出发,不局限于 Go 语言,探讨服务器中常常遇到的问题,最后回到 Go 如何解决这些问题,为大家提供 Go 开发的关键技术指南。我们将以系列文章的形式推出《Go 开发的关键技术指南》,共有 4 篇文章,本文为第 3 篇。 Go 开发指南 Interfaces

Scroll to Top