大數據 – Page 147 – 小科科的春天

如何让机器客服更像人类客服？

click / 2019-12-29

作者 | EMNLP 2019 概要人类通过语言将大脑里的知识表达出来，通过对话相互传递知识。机器通过学习大量的语料可以一定程度学会流畅的语句表达，但如果没有知识，则生成的只会是漂亮而无内涵的回复。传统的模块化的对话模型可以通过数据库查询等方式将关键信息填入回答的模版中，但是端到端的对话生成模型则要更复杂一些。为了解决这个问题，记忆网络（Memory Networks）通常是一个不错的技术方法。但是现有的记忆网络结合对话系统只是提供了如何引入知识的一个方法，并不能很好的处理多种来源和结构的知识。因此在这篇文章中，我们提出了一个异构记忆网络（Heterogeneous Memory Networks, HMNs）来同步处理用户语句，对话历史以及背景知识库。HMNs由上下文无关（context-free memory）记忆网络和我们提出的上下文敏感（context-aware memory）记忆网络组成，分别用于编码、储存结构化的知识元组（knolwdge tuples）和序列化的用户语句、历史对话，并生成两个小词表分布（知识词表和历史对话词表）以及一个大词表（所有训练的词汇分布）供回复语句生成的选词。在三个数据集上的实验结果表明，HMNs超过了现有的SOTA模型，能够较显著的提高端到端任务型对话模型的表现。问题背景人类客服在回答客户问题时首先理解用户的语言，然后到相关数据库、知识库中查询所需要的知识，最终整理并回答问题。在这个过程中如果缺乏相对应的知识数据，即使是人类也几乎不可能准确回答用户所需要的问题，因为客户可能需要的关键点就是那条数据库中的知识，而再漂亮的回复偏离了重点也是不合格的。机器也是如此。生成模型如果仅通过历史对话语料学习，最终学习到的可能只是最安全、最通用的回复，但在实际对话中缺乏关键知识，也将导致无法解决具体事务。因此在对话模型中恰当的引入知识显得至关重要。如图所示一个典型的任务型对话，用户问题What is the […]

大數據

面对道路施工封闭，深度学习能帮司机做什么？

click / 2019-12-28

1.业务背景动态事件是道路通行能力的变化进而影响用户出行的事件。通过动态事件的描述，可以了解动态事件包含两个要素，第一个是通行能力的变化，第二个是影响用户出行。动态事件基本类型是封闭、施工、事故，如图1所示。其中封闭是道路通行能力极弱，正常车辆不能通行，特殊车辆才可能通行；封闭影响用户出行，需要用户掉头并绕路才能到达目的地，严重影响用户的出行。图1 动态事件定义及基本类型为了对动态事件有形象的理解，图2展示了动态事件的常见情况。第一张图展示了天气类的封路，雨雪雾等均可能引起道路封闭。第二张图展示了管制类封路，如道路要进行马拉松比赛，所以管制性封路。第三张图像展示了施工类封路，第四张图展示了施工但未封闭的情况。图2 动态事件示例高德有多种发现封路事件的方法，本文主要介绍基于用户轨迹数据的动态事件挖掘算法。图3中第一张图片展示了道路封闭发生后，流量从100左右跌到了0；第二张图片展示了车辆的轨迹不能正常通过某一段道路，需要掉头并绕路通过；第三张展示了一条道路不能通行，道路上没有车辆的GPS点。热力用来描述GPS点的密度，GPS点密度越高，热力越明显，颜色越深。图3 封闭事件的大数据线索封路问题主要拆分为新增和消散两部分工作来展开的。新增和消散对应封闭事件的上线和下线。封闭问题之所以分为新增和消散，主要原因是新增和消散在业务分布上有着很大的差异。新增问题是面向全路网的数据，封闭事件是小概率事件，发现封闭事件前会进行导航规划。消散面向的是线上事件，绝大部分为封闭事件，不进行导航规划。本文主要介绍封路新增问题。下面开始介绍封路挖掘的解决方案。 2.解决方案高德在处理动态事件时，基本逻辑是利用已知数据，找出疑似封闭事件，之后再进行提纯，产出封闭事件并进行上线。按照此逻辑，产线处理过程分为三个层次：数据层发现层验证层大数据的解决方案也是基于此三层架构来设计的。经过系统化设计最终确定了分层化、半监督的深度学习方案，该方案可用于离线挖掘，也可以用于实时挖掘。整体方案如图4所示：

大數據

看云栖说云栖—— 从 DB 到 BD 的桥梁

click / 2019-12-28

必须认识到，我国社会主要矛盾的变化，没有改变我们对我国社会主义所处历史阶段的判断，我国仍处于并将长期处于社会主义初级阶段的基本国情没有变，我国是世界最大发展中国家的国际地位没有变。 —— 《十九大报告》拜软硬件技术的发展所赐，很大一部分想要做“大数据”的用户，现在用阿里云分析型数据库（ADS）其实就已经够用了。本文内容取自2019年杭州阿里云栖大会《下一代云数据分析专场》。趋势分析和产品发布，趋势有这些：市场趋势：2020年全球数据规模约为40zB，2025年要增长430%；2023年，75%的数据库都在云上；2022年新业务将会采用实时分析的比例达到50% 技术趋势：从单机进化到分布式架构；OLTP（在线事务处理）和OLAP（在线数据分析）将融合，HTAP（离线分析和在线数据处理混合负载）成为主流；支持多可用区的大规模扩展、支持极速恢复和复制，数据分析也要云原生；结构化数据和非结构化数据将能够融合分析；云边一体化的数据分析将覆盖边缘计算节点；云分析产品架构从使用传统硬件到使用软硬件一体化的架构。发布了两个产品，其中一个是基于MySQL的AnalyticDB from MySQL 3.0（ADS for MySQL），有这些更新：云原生架构，基于容器技术 MySQL兼容性提升支持从GB级升级到100PB级写入性能提升50%、查询性能提升40%。读写强一致，写入数据立即可见数据更可靠，支持只读实例，同城容灾。还有一个是基于PostgresSQL的AnalyticDB

大數據

阿里云MVP学院：感受绩效管理和文化，与AI Inside同行者在路上

click / 2019-12-28

阿里云MVP是专注于帮助他人充分了解和使用阿里云的技术实践领袖。MVP学院自2018年5月启动向MVP提供软硬技能的系统性培训，从组织文化、管理、前沿科技、专业技术领域等。 2019年12月26日在阴雨绵绵的杭州西溪园区内，从上海、西安、青岛等地来到杭州的MVP和好友们，一起错过了5个小时的日偏食，聚在一起与达摩院高级技术专家们、阿里云智能高级HR专家华山论剑。阿里云智能高级HR专家衣航，从组织的变化由工厂到公司，到现在的平台型的三个不同阶段的特点，组织不断应对灵活多变的环境，让组织拥有最大公约数的可能性。用马云老师说过的话：使命感和梦想是企业的方向，KPI是里程表，价值观是红绿灯和斑马线。层层剥开了组织战略到执行的更好的连续，实事虚做，到虚事做实，将阿里巴巴集团的双规制绩效方式进行了解读。放下手机，打开笔记不停的记录着心得和收获，本期MVP来自企业的CXO、团队Leader，携带着HR到现场，讨论技术型组织的该如何建设？如何面对快速环境的变化，形成灵活多变的组织能力？等等问题，与专家进行了一对一的交流。达摩院AI Inside同行者大会，开场阿里云智能数据智能业务总经理潘立维讲述了AI生态同行者大会举办的初衷和愿景，AI技术专家高杰为在场的开发者介绍了阿里云智能达摩院AI产品生态矩阵，达摩院在通用和专用人工智能方面进一步发展，在信息感知、机器学习等方面进步显著。达摩院的两位资深产品专家分别对两个新品多媒体AI和卫星及无人机遥感影像分析做了详细的介绍，新产品发布的速度代表了开发者们向上的力量，也代表了人工智能在迈向会听、会看、会说、会思考、会学习、会行动的路上更近一步。同行者大会中，刘湘雯作为阿里巴巴云智能事业群战略与合作部总经理、阿里巴巴达摩院院长助理，为新一期阿里云MVP人工智能领域的5位MVP颁证。阿里云 MVP王瑞宾是人工智能方面的老兵，深耕企业信息化和司法领域的信息化，分享了《人工智能检测在目前司法监督管理上的应用》，用实际演示的方式带领开发者感受了人工智能的进步，让大家对人工智能检测的落行应用有了更多的期待。产品面对面环节，达摩院团队OCR、智能语音、数据智能、图像搜索、人脸识别、NLP、机器翻译、多媒体AI、卫星及无人机遥感影像分析产品、货架识别专家们依次介绍，阿里云MVP、开发者们与达摩院专家进行深度对话，倾听了目前MVP和开发者在人工智能实际应用中遇到的技术并且实打实的吐槽了一些产品的功能。相信2020年作为人工智能爆发的元年，会有更多AI产品受到关注。随着大数据、云计算、物联网等技术的发展，推动了人工智能技术的飞速发展，大幅度提升了图像分类、语音识别、人脸识别等人工智能技术的实现，新一轮的科技革命和产业变革已近在眼前。未来MVP学院会更加围绕MVP关注的行业热点及前沿技术领域为课程设计，来持续为阿里云 MVP形成输入、输出、沉淀的终身学习闭环。阿里云MVP招募进行中，欢迎更多的不同领域的科技技术专家加入阿里云MVP，打造个人技术影响力，为更多开发者发声，为技术发声！

大數據

SGX入门：如何开发第一个最简单的 SGX 应用 HelloWorld

click / 2019-12-27

本文将向大家展示如何基于 Intel SGX SDK 开发一个最简单 SGX 应用：HelloWorld，这个程序在可信区生产 “Hello world”并传递给不可信代码(缓冲区)打印输出到终端。虽然 Intel SGX SDK 安装目录中默认提供了数个 Sample，但每个 Sample 对于初学者来说非常复杂和难以理解。关于 SGX 开发运行环境的搭建可参考：《SGX入门：搭建

大數據

将 Sidecar 容器带入新的阶段 | KubeCon NA 2019

click / 2019-12-27

图为 KubeCon NA 2019 大会分享现场照 Speaker: 徐迪蚂蚁金服技术专家：负责蚂蚁金融云PaaS平台建设，Kubernetes 社区老兵，核心代码库贡献量社区前50；张晓宇阿里云技术专家：负责阿里巴巴云原生应用容器平台的生态建设，主要设计和研发节点稳定性和资源利用率相关解决方案，同时也是 Kubernetes 社区热心的成员和贡献者。本文根据徐迪和张晓宇在 KubeCon NA2019 大会分享整理。分享将会从以下几个方面进行切入：首先会简单介绍一下什么是 Sidecar 容器；其次，我们会分享几个蚂蚁金服和阿里巴巴集团的通用场景，以及我们是如何解决这些挑战的。当然，现在还是有很多的挑战需要后续继续解决，邀请大家与我们一同努力。 Sidecar 简介

大數據

能量收集通信 | 带你读《5G系统关键技术详解》之五

click / 2019-12-27

第 1 章 5G 系统新技术的概况 1.11 无线资源管理、干扰缓解和缓存 1.12 能量收集通信近，由于环境问题，绿色通信的研究兴趣激增。据报道，世界各地的蜂窝网络每年消耗大约 6×1010 kWh 的能源。特别是，蜂窝网络使用的电力中有 80%被无线通信基站消耗，每年排放超过一亿吨二氧化碳[77]。如果不进一步采取措施来减少能源消耗，预计这些数字将在 2020 年之前翻一番。此外，如果传输信息的单位能源成本不能减少，无线通信系统不断上升的能源开销将给运营商带来经济负担。因此，节能通信设计已成为

大數據

清华刘知远：自然语言理解难在哪儿？

click / 2019-12-27

文章转自：大数据文摘作者：刘知远来源：知乎 NLP日知录在微博和知乎上关注自然语言处理（NLP）技术的朋友，应该都对#NLP太难了#、#自然语言理解太难了#两个话题标签不陌生，其下汇集了各种不仅难煞计算机、甚至让人也发懵的费解句子或歧义引起的笑话。然而，这些例子只是让人直觉计算机理解人类语言太难了，NLP到底难在哪里，还缺少通俗易懂的介绍。最近刚做完会议投稿，这里花些时间总结下我对这个问题的认识，期望对那些感兴趣NLP的同学有些帮助。欢迎批评意见和建议，未来争取不断更新。自然语言理解本质是结构预测要搞清楚自然语言理解难在哪儿，先看自然语言理解任务的本质是什么。作为人工智能关注的三大信息类型（语音、视觉、语言）之一，自然语言文本是典型的无结构数据，由语言符号（如汉字）序列构成。要实现对自然语言的表意的理解，需要建立对该无结构文本背后的语义结构的预测。因此，自然语言理解的众多任务，包括并不限于中文分词、词性标注、命名实体识别、共指消解、句法分析、语义角色标注等，都是在对文本序列背后特定语义结构进行预测。例如，中文分词就是在原本没有空格分隔的句子中增加空格或其他标识，将句子中每个词的边界标记出来，相当于添加了某些结构化语义信息到这个文本序列上。面向不同NLP任务，人们制定不同的待预测的语义结构空间：文本分类是最简单的情形，即预定义的类别体系，最常见的如情感分类是postive、neutral、negative三类；中文分词是词边界的标记；词性标注是句子中每个词的词性标签（如名词、动词、形容词、副词、连词、介词等）；命名实体识别是标记哪些词（或多词）是实体名及其实体类型（如人名、地名、机构名等）；共指消解是标记哪些词在做指代以及指代的是前面出现的哪个概念或实体；句法分析则是将句子背后的句法树结构或依存结构预测出来。自然语言理解的关键是语义表示不过，以上NLP任务都只是在不断“逼近”对文本的理解，是对文本语义的局部表示。要实现对文本的完整理解，需要建立更完备的语义结构表示空间，这种更完备的语义表示经常成为上述NLP任务进行结构预测的依据。在统计学习时代，一般采用符号表示（Symbol-based Representation）方案，即每个词都看做互相独立的符号。例如，词袋模型（Bag-of-Words，BOW）是最常用的文本表示方案，忽略文本中词的出现顺序信息，广泛用于文本分类、信息检索等任务。N-Gram也是基于符号表示的语言模型，与BOW模型相比，将句子中词的出现顺序考虑了进来，曾在机器翻译、文本生成、信息检索等任务中广泛使用。到深度学习时代，一般采用分布式表示（Distributed Representation或Embeddings）方案，每个语言单元（包括但不限于字、词、短语、句子、文档）都用一个低维稠密向量来表示它们的语义信息。分布式表示是深度学习和神经网络的关键技术。分布式表示方案是受到了人脑神经机制的启发，基本思想是[2]： Each entity is represented by a

大數據

2019必看8大技术大会＆300+公开课全集（500+PDF下载）

click / 2019-12-27

超强技术盛典点击下载>>>2019云栖大会精品资料 2019年9月25日-27日，杭州云栖大会圆满举办。大会包含130+场峰会和专场、上千位重量级分享嘉宾以及硬核科技大型展区。开发者社区搜集全站云栖资料与大咖演讲实录，为你带来一年仅此一次的丰富云栖干货！每一年杭州云栖云栖大会结束后，都有无数开发者希望获取资料进行学习。这里面可有近 80份 PDF资料供大家下载学习哦! 然而，只有PDF显然是不能满足大家的求知热情的，我们为你准备了30+云栖演讲稿实录！大咖精彩演讲内容，动动手指，就能详细解读。追求更具冲击性的视觉体验？那就观看现场精彩演讲视频吧，让您如临现场！点击查看>>>大会精彩演讲视频点击查看>>> 阿里巴巴D2前端论坛视频 D2 前端技术论坛 (Designer & Developer Frontend Technology

大數據

通过Spark Streaming作业处理Kafka数据

click / 2019-12-27

本节介绍如何使用阿里云E-MapReduce部署Hadoop集群和Kafka集群，并运行Spark Streaming作业消费Kafka数据。前提条件已注册阿里云账号，详情请参见注册云账号。已开通E-MapReduce服务。已完成云账号的授权，详情请参见角色授权。背景信息在开发过程中，通常会遇到消费Kafka数据的场景。在阿里云E-MapReduce中，您可通过运行Spark Streaming作业来消费Kafka数据。步骤一创建Hadoop集群和Kafka集群推荐您将Hadoop集群和Kafka集群创建在同一个安全组下。如果Hadoop集群和Kafka集群不在同一个安全组下，则两者的网络默认是不互通的，您需要对两者的安全组分别进行相关配置，以使两者的网络互通。登录阿里云 E-MapReduce 控制台。创建Hadoop集群，详情请参见创建集群。创建Kafka集群，详情请参见创建集群。步骤二获取JAR包并上传到Hadoop集群本例中的JAR包：对E-MapReduce的Demo进行了一定的修改后，编译生成的JAR包。JAR包需要上传到Hadoop集群的emr-header-1主机中。