大數據 – Page 170 – 小科科的春天

打败围棋冠军后，机器智能下一步能战胜黑客吗？ | 开发者必读（091期）

click / 2019-10-29

最炫的技术新知、最热门的大咖公开课、最有趣的开发者活动、最实用的工具干货，就在《开发者必读》！每日集成开发者社区精品内容，你身边的技术资讯管家。每日头条深度 | 打败围棋冠军后，机器智能下一步能战胜黑客吗？从深蓝战胜象棋冠军到AlphaGo战胜围棋冠军，每一次机器智能在特定领域战胜人类，都会引发整个社会的广泛关注。洞察了棋类博弈真相的机器智能，接下来能洞察网络安全的真相并且在黑客博弈中战胜人类吗？在机器智能炙手可热的今天，或许我们该静下心来，去理解机器智能的本质、网络安全的困境以及未来二者结合的挑战。最强干货如何有效降低大数据平台安全风险在2019杭州云栖大会大数据企业级服务专场，由阿里云智能计算平台事业部资深技术专家李雪峰带来以“如何有效降低大数据平台安全风险”为题的演讲。本文首先概括了企业在大数据上云过程中会产生的安全顾虑。接着，在大数据平台中要处理的安全风险中，对数据中心物理安全与网络安全、大数据平台系统安全以及数据应用安全三部分做了详细的介绍。最后，描述了阿里云飞天大数据平台的安全体系。揭秘阿里云WAF背后神秘的AI智能防御体系应用安全领域，各类攻击长久以来都危害着互联网上的应用，在web应用安全风险中，各类注入、跨站等攻击仍然占据着较前的位置。WAF(Web应用防火墙)正是为防御和阻断这类攻击而存在，也正是这些针对Web应用的安全威胁促使了WAF这个产品的不断发展和进化。同时，各种机器学习算法和模型也被不断提出和应用在WAF等安全产品中，以期望解决这些风险。一篇文章带你了解阿里云全域集成解决方案背后的黑科技在云栖大会的全域集成发布会现场，一位工程师在100%真实的环境下，为所有来宾现场演示了“从零开始搭建一款集成应用”的过程。通过全域集成中台，仅仅用了5分钟时间就快速搭建好了一个企业中常见的“发票识别”集成应用，并且成功推送识别成功后的发票内容详情。作为阿里云SaaS加速器的重要组成部分，全域集成解决方案为客户和伙伴提供“集成加速”能力，本文将聚焦现代企业数字化转型的中台策略，全方位探索全域集成的强大功能。每天读本书带你读《Redis 5设计与源码分析》之一：Redis简介多名专家联袂推荐，资深专家联合撰写，深入理解Redis 5设计精髓。本书系统讲解Redis […]

大數據

AI加持的阿里云飞天大数据平台技术揭秘

click / 2019-10-28

摘要：2019云栖大会大数据&AI专场，阿里云智能计算平台事业部研究员关涛、资深专家徐晟来为我们分享《AI加持的阿里云飞天大数据平台技术揭秘》。本文主要讲了三大部分，一是原创技术优化+系统融合，打破了数据增长和成本增长的线性关系，二是从云原生大数据平台到全域云数仓，阿里开始从原生系统走入到全域系统模式，三是大数据与AI双生系统，讲如何更好的支撑AI系统以及通过AI系统来优化大数据系统。直播回放 >>> 以下是精彩视频内容整理说到阿里巴巴大数据，不得不提到的是10年前王坚博士率领建构的飞天大数据平台，十年磨一剑，今天飞天大数据平台已是阿里巴巴10年大平台建设最佳实践的结晶，是阿里大数据生产的基石。飞天大数据平台在阿里巴巴集团内每天有数万名数据和算法开发工程师在使用，承载了阿里99%的数据业务构建。同时也已经广泛应用于城市大脑、数字政府、电力、金融、新零售、智能制造、智慧农业等各领域的大数据建设。说到阿里巴巴大数据，不得不提到的是10年前王坚博士率领建构的飞天大数据平台，十年磨一剑，今天飞天大数据平台已是阿里巴巴10年大平台建设最佳实践的结晶，是阿里大数据生产的基石。飞天大数据平台在阿里巴巴集团内每天有数万名数据和算法开发工程师在使用，承载了阿里99%的数据业务构建。同时也已经广泛应用于城市大脑、数字政府、电力、金融、新零售、智能制造、智慧农业等各领域的大数据建设。在2015年的时候，我们开始关注到数据的海量增长对系统带来了越来越高的要求，随着深度学习的需求增长，数据和数据对应的处理能力是制约人工智能发展的关键问题，我们在给客户聊到一个摆在每个CIO/CTO面前的现实问题——如果数据增长10倍，应该怎么办？图中数字大家看得非常清晰，非常简单的拍立淘系统背后是PB的数据在做支撑，阿里小蜜客服系统有20个PB，大家每天在淘宝上日常使用的个性化推荐系统，后台要超过100个PB的数据来支撑后台的决策，10倍到100倍的数据增长是非常常见的。从这个角度上来讲，10倍的数据增长通常意味着什么问题？第一，意味着10倍成本的增长，如果考虑到增长不是均匀的，会有波峰和波谷，可能需要30倍弹性要求；第二，实际上因为人工智能的兴起，二维结构性的关系型数据持续性增长的同时，带来的是非结构化数据，这种持续的数据增长里面，一半的增长来自于这种非结构化数据，我们除了能够处理好这种二维的数据化之后，我们如何来做好多种数据融合的计算？第三，阿里有一个庞大的中台团队，如果说我们的数据增长了10倍，我们的团队是不是增长了10倍？如果说数据增长了10倍，数据的关系复杂度也超过了10倍，那么人工的成本是不是也超过了10倍以上，我们的飞天平台在2015年后就是围绕这三个关键性的问题来做工作的。原创技术优化 + 系统融合当阿里巴巴的大数据走过10万台规模的时候，我们已经走入到技术的无人区，这样的挑战绝大多数公司不一定能遇到，但是对于阿里巴巴这样的体量来讲，这个挑战是一直摆在我们面前的。大家可以看到，2015年的时候，我们整个的体系建立起来之后，就开始做各种各样的Benchmark，比如2015年100TB的Sorting，2016年我们做CloudSort，去看性价比，2017年我们选择了Bigbench。如图是我们最新发布的数据，在2017、2018和2019年，每年都有一倍的性能提升，同时我们在30TB的规模上比第二名的产品有一倍的性能增长，并且有一半的成本节省，这是我们的计算力持续上升的优化趋势。那么，计算力持续升级是如何做到的？如图是我们经常用到的系统升级的三角理论，最底层的计算模型是高效的算子层和存储层，这是非常底层的基础优化，往上面要找到最优的执行计划，也就是算子组合，再往上是新的方向，即怎么做到动态调整与自学习的调优。我们先来看单一算子和引擎框架的极致优化，我们用的是比较难写难维护的框架，但是因为它比较贴近物理硬件，所以带来了更极致的性能追求。对于很多系统来说可能5%的性能提升并不关键，但对于飞天技术平台来讲，5%的性能提升就是5千台的规模，大概就是2～3亿的成本。如图做了一个简单的小例子做单一算子的极致优化，在shuffle子场景中，利用Non-temporal Store优化shuffling中的缓存策略，在这样的策略上有30%的性能提升。除了计算模块，它还有存储模块，存储分为4个象限。一四象限是存储数据本身的压缩能力，数据增长最直接的成本就是存储成本的上升，我们怎么做更好的压缩和编码以及indexing？这是一四象限做的相关工作；二三象限是在性能节省上做的相关工作，我们存储层其实是基于开源ORC的标准，我们在上面做了非常多的改进和优化，其中白框里面都有非常多的标准改动，我们读取性能对比开源Java ORC 均快 50%，我们是ORC社区过去两年最大贡献者，贡献了2W+行代码，这是我们在算子层和存储层的优化，这是最底层的架构。

大數據

阿里巴巴大数据技术关键进展及展望

click / 2019-10-28

摘要：2019杭州云栖大会大数据技术专场，由阿里云通用计算平台负责人关涛带来以 “阿里巴巴大数据技术关键进展及展望” 为主题的演讲。本文首先讲解了从阿里巴巴的角度看待大数据领域的客户价值迁移，概览了核心技术的发展点，最后针对如何构建智能化大数据平台的相关工作进行了介绍，从引擎优化到 “自动驾驶”，并列举了几个典型案例。观看演讲回放 >>>以下为精彩视频内容整理：一、大数据领域的客户价值迁移大数据10年，从“尝鲜”到“普惠” 大数据技术已经存在了20年的历程，并且阿里的飞天平台也有了10年的历程。上图是Gartner非常有名的评测机构，在Emerging Technologies中展示了Hype Cycle。Emerging Technologies是指其中所有的技术都视为新兴技术。横轴分为五个部分，从Trigger开始，到达最热潮，然后到了冷静期，再继续向前发展。不同的颜色表示在所指的几年之后相应的技术会变得成熟。在2014年，Big Data已经到达了尖峰期的末端状态。在2015年，Big Data就不在上图中了，关于Big Data应该放在哪里的问题，许多人都参与了讨论，最终Gartner 的分析员 Betsy Burton给出了总结性的一句话：“Big Data..has become

大數據

机器学习算法—KMEANS算法原理及阿里云PAI平台算法模块参数说明

click / 2019-10-27

概述： KMEANS算法又被成为K均值算法，是一种常用的聚类算法，由于不需要根据给定的训练集训练模型因此是一种无监督学习算法。其本质是根据选定的参数K将数据分类成K类，在聚类过程中从单一样本开始通过不断计算聚类数据的均值来作为整个类的中心进而再将距离此类别中心最近的数据纳入同一类。算法原理： 1、以下图样本散点图展示数据集的整体分布情况2、K值是KMEANS最重要的选择参数，直接决定着数据聚类的类别数量，在选择K值后，会在数据中随机选择K个数据样本最为初始中心点，如K=3，则结果如下图所示3、计算和中心点距离最近的点，将其归入同类4、每个类别当有了两个以上的数据时，类的中心就会发生变化，因此类中一旦有新的数据被划入时就需要重新计算整个类的中心点，这一步的计算也是整个算法的核心，所以称为K均值算法5、通过几步计算之后的结果，能够更直观的展示出类的聚合情况和中心点的位置情况6、判断聚类过程结束的标准有两个，一是中心点的位置不再发生变化，即结果收敛；二是执行了最够多次的迭代次数（通俗可以理解为计算了几次中心点位置）注意事项： 1、K值是整个算法中最重要的参数，但是也是最不好确定的参数，如果需要比较好的确定K值，需要采用其他验证算法，如计算样本离最近聚类中心的总和，总和越小，则聚类的效果越好；轮廓系数，轮廓系数的范围为-1至1之间，数字越大则聚类效果越好；兰德指数，范围为-1至1之间，数字越大则聚类效果越好；同质化得分，如果所有的聚类都只包含属于单个类的成员的数据点则聚类结果将满足同质性，其取值范围为0至1之间，值越大意味着聚类结果与真实情况越吻合。2、以上验证方法虽然对于确定K值有效，但是验证过程需要额外的计算力资源，并且占用的计算力接近于聚类过程所需要的计算力资源，数据集如果较大，则计算力的消耗会产生叠加效应。3、较为简易的方法为，从数据集中随机抽取部分小规模数据，以散点图等可视化手段来观察数据的可能聚类数量，以此来判断K的取值。这种方法可以认为是经验法的一种表现形式，相比经验法的完全定性分析，随机抽取数据观察能够在经验的基础上增加定量的分析部分，虽然随机抽取的数据也可能有误差，但是抽取的数据量越多，则准确度越高。4、因为初始的中心点选择是根据K的值随机选择K个点，所以选择的随机性加上迭代过程造成算法的结果只是局部最优解，毕竟反复的计算最短距离的点和类的中心都是在局部已经聚合的类的基础上进行的，而不是从全局的范围进行。算法使用场景： 1、隐含类别的数据较为平衡的情况，如隐含类别的数据量差别较大，则聚类的效果就较差。2、数据最好是凸数据，即隐含类别间的差异越大，则聚类效果越好，因为中心点不再变化所需要的迭代次数较少，比较容易收敛。3、一般作为数据预处理，或者用于辅助分类贴标签使用，因为在已经经过分类的数据上再进行聚类，准确度会非常高。阿里云PAI平台算法模块及参数设置说明： inputTableName ：输入表表名selectedColNames：输入表中用于训练的列名，默认选择所有列inputTablePartitions：输入表中指定哪些分区参与训练，默认选择所有分区centerCount：聚类数K，是算法中最重要的参数，决定数据的聚类数量loop：最大迭代次数，算法中非常重要的参数，当最大迭代次数到达但是仍然无法收敛时，则停止计算accuracy：中心点计算终止条件，如果两次迭代之间变化低于该值，算法终止，默认值0.0，值过大则会出现欠拟合情况，值较小则中心点容易在小范围间变化造成计算结果无法收敛distanceType：距离度量方式，euclidean(欧式距离)，cosine(夹角余弦)，cityblock(曼哈顿距离)，默认为欧式距离initCenterMethod：质心初始化方法，random(随机采样)，topk(输入表前k行)，uniform(均匀分布)，external（指定初始质心表），默认值为随机采样initCenterTableName：初始质心表名，当质心初始化方法采用指定初始质心表方式时采用seed：初始随机种子数，正整数，默认值为当前时间，seed设置为固定值则每次聚类结果是稳定的enableSparse：输入表数据是否为稀疏格式，默认值为非稀疏格式itemDelimiter：当输入表数据为稀疏格式时，kv间的分割符，默认值为空格kvDelimiter：当输入表数据为稀疏格式时，key和value的分割符，默认值冒号modelName：输出模型的模型名idxTableName：输出聚类结果表，和输入表对应，并指明聚类后每条记录所属的类号idxTablePartition：输出聚类结果表的分区表名clusterCountTableName ：输出聚类统计表，统计各个聚类包含的点的数目centerTableName：输出聚类中心表coreNum：节点个数，与参数memSizePerCore配对使用，正整数，默认自动计算memSizePerCore ：单个节点内存大小，单位M，正整数，默认自动计算lifecycle：指定输出表的生命周期，默认没有生命周期

大數據

阿里云，Facebook，英特尔，Databricks, Flink 大数据&AI前沿技术一文看尽—2019杭州云栖大会 “大数据&AI” 峰会全集

click / 2019-10-25

本文将为大家呈现2019杭州云栖大会“大数据&AI”峰会当天的完整分享视频和部分文字稿，希望可以让更多开发者了解大数据和AI领域的最前沿技术以及发展趋势。 —————————–以下为峰会现场视频回放————————– 大数据 & AI发展的新挑战和新机遇贾扬清阿里巴巴集团副总裁，阿里云智能计算平台事业部总裁、高级研究员观看视频 >>> AI at Facebook Bill Jia Facebook VP of AI Infrastructure观看视频 >>> AI

大數據

贾扬清谈大数据&AI发展的新挑战和新机遇

click / 2019-10-25

摘要：2019云栖大会大数据&AI专场，阿里巴巴高级研究员贾扬清为我们带来《大数据AI发展的新机遇和新挑战》的分享。本文主要从人工智能的概念开始讲起，谈及了深度学习的发展和模型训练，以及数据的爆发增长，着重阐述了算法、数据和算力的闭环。直播回放 >>> 以下是精彩视频内容整理：作为一个研究者的身份，在这么多年AI的科研工作之中，有哪些有意思的事情？说到人工智能，从十几年前我开始做人工智能的时候，我当时认为毕业可能就失业了，我们永远不会像做数据库、系统、架构的人那样容易找到工作。到了2012年之后，我发现人工智能能够找到工作了，不光如此，而且大家还非常想要人工智能方面的人才。从2013年开始，我们常常从各路媒体口中听到人工智能的未来已来。我现在仍然在做人工智能的研究，我认为人工智能的未来也没有那么快到来。所以回想人工智能的这些东西，我一直在想，人工智能困难不困难？我们对于人工智能困难程度的估计是怎么样的？通过翻阅历史书我得知，最早提出人工智能概念的人是麦卡锡，这个预言是做什么呢？让机器使用语言让它来解决现在还只有人能够解决的问题。最重要的一点，既然是一个智能企业，那么它能够自我进化，大家觉得努力一个夏天，就能够取得重大的进展，这是1956年发生的事情。现在我们知道，除了产生了一些人工智能的定义，剩下的什么都没有发生。到了1966年，我们听到一句话：我们有非常好的想法，只差一个程序了。当时有一个教授提出了MIT的夏季视觉计划，要有效的利用夏天实习生来搭建计算机视觉系统的核心来识别物体与背景，以及物体的种类。1966年的夏天过去了，什么都没有发生，1966年我们没有看到无人车，现在也没有看到无人车。为什么实现人工智能那么困难？人的大脑在功耗上来说只有20W，一个手机是5W的功率，所以人可以做非常多的事情，那么，为什么实现人工智能要那么困难？我最开始做人工智能的时候是从计算机视觉起家的，让我们大概来看一下计算机视觉在这几年做了什么事情。 2012年深度学习流行之前，计算机视觉各种方法都采取了简单的特征来解决问题，处理各种图像，手工计算图像猜测最有用的特征是边，所以我们当时手写了很多的算法，从图片中拿一个小块出来，算一下左边的像素值是多少，右边的像素值是多少，有差别就会有一个竖边，用这样简单的竖边、横边、45度边等手工设计特征来做图像识别。我们显然知道人在做图像识别的时候，用这样的特征是远远不够的，我们看上面的这个图，它多半能够有一点效果，但是用这样的特征来做自动驾驶系统，我们不敢做，不知道大家敢不敢。 2012年开始提出了用更加深度的神经网络和数据驱动的训练来形成更加复杂的、类似于人的视觉系统的计算机视觉模型的想法。它的想法是说，模型像人的大脑一样是分层的，我的收入通过每一层来提取更复杂的信息来形成抽象的概念，每一层神经网络中间都有很多的参数，这些参数是通过大量数据训练来形成的。这样的深度学习方法能够给我们带来非常灵活的设计和非常多的不同领域的应用，从计算机系统到语音到自然处理，几乎所有能够感知到的领域都能够用到深度学习来解决掉。深度学习是机器学习的一部分，并没有像神经网络那么牛，但是在这么多年之中，我们发现并沉淀了很多非常好的算法，比如说决策数和线性模型，它们的计算量不需要有深度学习那么大，但是它们在非常多的领域有非常棒的表现。我们在Flink之中实现特别多的浅层学习模型或者说传统学习模型，今天无论是传统学习还是深度学习，尤其是最近几年的深度学习，给我们带来了算法上非常大的潜力。我们回想一下，最开始手工设计的图像特征，我们发现它最大的限制并不在于我们能够处理多大的数据，有多大的算力，反而是我们的算法本身就是简单的。通过深度学习，通过其它的计算学习算法的进化，我们的算法能够处理更多的数据，可以学到更加复杂的决策，越来越多算法的复杂性就对算力提出了巨大的需求，这个说起来不太有体感，我们还是拿图像来做一个例子。深度学习系统或者说今天所提到的人脸识别、车识别、物体识别，都是基于深度神经网络来做的。在2015年的时候，当时有人提出了一个Resnet模型，能够达到非常好的正确率。那么，Resnet训练一次需要在120万张图片之中进行10的18次方的计算。我当时有一次去伦敦的时候算了一下，如果所有伦敦的人每秒钟能够算一次计算的话，全伦敦需要4千年来训练模型。咱们中国有人多的优势，但也不能这么用。所以通过传统的高性能方式，我们可以把大量的GPU通过高速的网络互联起来，让这些GPU做两件事情：一是每一个GPU领一堆小图片去算一下模型，看每个参数应该怎么样进化，二是通过高速互联，使得GPU可以很快同步模型，确定这个模型应该往这里走或者往那里走，这在传统的高性能计算领域都有非常好的积累，所以今天我们在阿里的平台上通过Eflops+PAI可以实现在3分钟之内训练出这样的resnet模型。最初训练深度学习的时候大概需要7天的时间，Resnet的计算量增加了10倍，在增加的基础上还可以通过软硬件协同的方式，把训练的时间从10天降低为3分钟，所以这就是AI系统和大数据结合所带来的价值。我们刚才说120万张图片的数据集，在实际的应用之中，我们发现数据的数量是呈指数级的增长，而且是成千上万倍差别的，拍立淘是阿里巴巴用来让用户用手机拍一个图片来看在淘宝之中相似的图片是怎么样的，拍立淘模型训练需要一个PB左右的图像，和现在的图像相比，大了非常多，计算量也大了许多。在我们今天有了大量数据的情况下，不仅是数据量给我们带来了很大的挑战，而且数据的质量也给我们带来了很大的挑战。我们在实验室当中做计算机视觉、语言、图像等等工作的时候，这些数据是比较简单的，我们可以想象一下怎么样存储图片？就是有一个文件夹放一个图片在里面就可以了，但是在实际应用中，我们在做推荐系统的时候，这些数据一定程度上是比较脏的，不是说它比较差，而是它本身需要大量的处理，很多核心推荐算法的来源是用户购买的行为，哪些行为存在log里边，我们需要来理解这个log，通过比较复杂的数据链路来清洗数据，所以我们说算力算法数据的合成是AI的三个要素。我们在讲AI的时候会提到算力算法和数据的闭环，但是其实90%的工作是在算法之外的，或者说数据算力之外的，我们在考虑AI系统的时候，谷歌在十几年前就提出了这样的理论，机器学习这件事情就像是一个高息的贷款，最开始觉得非常美好，但是在实际落地的时候，我们需要付的利息或干的事情是非常多的。我在Facebook工作时，做过手机端的深度学习的训练，手机端的学习是非常多的，模型的压缩、模型的部署、运行速度调优等一系列的东西。有一天早上8点钟我到了办公室，看到有些同学在他的桌子上放了一个测试的手机，它的背后贴了一个小贴纸，贴纸说：昨天还好好的，今天发现重新训练的模型不对了。很多做过深度学习的同学有这样的感觉，今天我们在做深度学习的部署和推理的时候，其实不光是跑一个GPU跑一个训练那么简单，从最开始如何来设置我们的模型和数据输入的链路，数据怎么样去提取特征，到后面怎么样来管理资源，最后怎么来部署，怎么样来管理自己在模型上的想法等等，这是一个非常大的系统工程，不光是说我拿一个CNN的算法放在手机上就行了，今天AI在要落地的时候，不光是有算法，而是要有一系列系统工程的内容。大数据和AI峰会就是想要给大家分享我们在处理大数据和AI的时候所遇到的问题，所想到的一些心得，所沉淀下来的方法论和能够给大家提供的一系列工具和想法。飞天大数据平台和AI平台是支撑阿里巴巴所有的应用，我们也和社区、合作伙伴有非常紧密的联系。今天由我抛砖引玉的简单讲了讲一些想法，我希望在各位嘉宾的分享之中，能够更加详细的和大家探讨大数据和AI在将来的走法，我们应该怎么样把算法、数据和算力的闭环真正和产业结合起来落到实处去，这是我想要给大家分享的内容。详细了解飞天大数据平台&飞天AI平台核心产品EB级云智能数据仓库 MaxCompute一站式大数据智能开发云平台 DataWorks实时计算云原生版本在PAI平台，快速便捷拥有云端PyTorch体验开源大数据生态 E-MapReduce

大數據

数据中台的存储系统和计算平台枚举

click / 2019-10-23

作者：向师富转自：阿里巴巴数据中台官网 https://dp.alibaba.com采集&传输层 SqoopHadoop、关系型数据库之间传输数据的工具。传输时，会启动多个MR作业并发的传输数据 DataX阿里巴巴开源的数据同步工具，用来在各种异构数据源之间同步数据。比如 RDBMS<->Hadoop/MaxCompute、RDBMS<->hbase/ftp等等。部署、运维非常简单，将DataX的jar包copy到linux系统中即可运行 Flume分布式的高可用的数据收集、聚集的工具。通常用于从其他系统搜集数据，如web服务器产生的日志，结合Kafka的消息队列功能，实现实时日志处理、离线日志投递。典型的使用方案是：离线计算：应用系统日志 -> flume -> kafka -> hdfs -> MR作业实时计算：应用系统日志 -> flume ->

大數據

高德在提升定位精度方面的探索和实践

click / 2019-10-23

2019杭州云栖大会上，高德地图技术团队向与会者分享了包括视觉与机器智能、路线规划、场景化/精细化定位时空数据应用、亿级流量架构演进等多个出行技术领域的热门话题。现场火爆，听众反响强烈。我们把其中的优秀演讲内容整理成文并陆续发布出来，本文为其中一篇。阿里巴巴高级地图技术专家方兴在高德技术专场做了题为《向场景化、精细化演进的定位技术》的演讲，主要分享了高德在提升定位精度方面的探索和实践，本文根据现场内容整理而成（在不影响原意的情况下对文字略作编辑），更多定位技术的实现细节请关注后续系列文章。以下为方兴演讲内容的简版实录：今天要分享的主题是关于定位的场景化、精细化。高德定位，并不只是服务于高德地图本身，而是面向所有的应用开发者和手机设备厂商提供定位服务。目前已有30万以上的APP在使用高德的定位服务。用户每天会大量使用定位服务，比如看新闻、打车、订外卖，甚至是购物，首先都是要获得位置信息，有了更精准的位置信息，才可能获得更好的服务体验。高德地图有超过1亿的日活用户，但是使用定位的有好几个亿，每天的定位请求数量有一千亿次。如此大的数据量，高德定位服务可以保持毫秒级的响应速度，我们在这里面做了很多工作。此外，我们还提供全场景的定位能力，不管为手机、车机还是任何厂家，都能提供位置服务。我今天从四个方面介绍，分别是：定位面临的挑战高德地图全场景定位分场景提升定位精度未来机遇定位面临的挑战大家可能都知道GPS，GPS在大部分情况下可以提供很好的精度，但是对于某些场景还是不够，比如驾车，GPS给出的精度大概是10米，如果仅靠GPS定位甚至无法区分出在马路的哪一侧。第二个场景是在室内，室内收不到GPS信号，这样的场景下如何实现比较准确的定位？第三个场景是如何在精度和成本之间取得平衡，因为不可能为了追求一个很好的精度去无限投入成本。只有通过海量大数据挖掘，算法和数据质量的提升，达到效果的持续优化，才能达到最终对各种场景的全覆盖。有很多技术可以选择，除了GPS定位，还有基于网络定位、Wifi基站，原理就是通过扫描到的Wifi和基站列表、信号强度，进行数据库查找，找到Wifi位置，定位。除此之外还有惯性导航定位，惯性导航是一种相对定位的方式，可以不断计算跟上次定位的偏移量，有了初始定位之后，根据连续计算可以获得最终的位置。还有根据地图匹配定位，比如GPS的点落在一个湖里，显然是有问题的，可以通过地图匹配，找到最近的一条路，这时候精度就得到了提升。还有一些定位方式最近几年变得很热门，例如视觉、雷达、激光，自动驾驶的概念推动了这些技术的发展，这些方式各有各的定位精度和差异性。例如视觉，在实践中往往需要大量计算和存储的开销。很多时候，还是要基于Wifi的定位，获得初始定位，然后在不同场景下不断的优化，通过不同的数据源提升精度。高德地图如何实现全场景定位

大數據

一文带你了解 Flink Forward 柏林站全部重点内容

click / 2019-10-23

作者：杨克特（鲁尼）前言 2019.10.7~9号，随着70周年国庆活动的顺利闭幕，Flink Forward 也照例在他们的发源地柏林举办了第五届大会。虽然还没有拿到具体的数据，不过从培训门票已经在会前销售一空的这样的现象来看，Flink Forward 大会还是继续保持了一个良好的势头。本届大会不管是从参会人数上，提交的议题，以及参加的公司数量来看都继续创了一个新高。当然，这要去掉去年 Flink Forward 北京站的数据 ;-)。阿里巴巴这次共派出了包括笔者在内的3名讲师，总共参加了4场分享和2个问答环节。在这里，我会根据自己参与的议题给大家做一下这次会议整体的一个介绍和个人在这次参会过程里面的感受和思考，希望对感兴趣的同学有所帮助。 Keynote 先说说这两天的 Keynote。第一天的开场 Keynote 还是继续由社区一哥 Stephan Ewen 来给出。他先总结了一下 Flink

大數據

一文带你了解 Flink Forward 柏林站全部重点内容

click / 2019-10-23