大數據 – Page 169 – 小科科的春天

如何在Spark中实现Count Distinct重聚合

click / 2019-10-30

背景 Count Distinct是SQL查询中经常使用的聚合统计方式，用于计算非重复结果的数目。由于需要去除重复结果，Count Distinct的计算通常非常耗时。以如下查询为例，Count Distinct的实现方式主要有两种： SELECT region, COUNT(DISTINCT userId) FROM orders GROUP BY region 对订单表的数据按照region进行shuffle分区，在每个分区中使用一个类似HashTable的数据结构，存储所有的非重复userId的值，最后统计所有key的数量。对表t的数据按照（region, userId）进行shuffle分区，第一步的结果即为非重复的（region, userId）对，对于第一步的结果再按照region分区，统计每个分区中的Row数量。第一种方式只需要一次shuffle，但是需要在内存中维护一个数据结构，占用大量内存，甚至导致OOM。第二种方式多了一次shuffle，但是更加稳定可靠。Spark采用第二种方式实现Count […]

大數據

带你读《区块链真相》之二：靠谱人的靠谱联合改变世界——区块链带来的八大变革

click / 2019-10-30

点击这里查看第一章点击这里查看第三章第二章靠谱人的靠谱联合改变世界——区块链带来的八大变革 25年前，当互联网刚出现的时候，只有少数先知率先觉醒；对于区块链，我们也会看到许多先知先觉者，在大声宣布一个伟大时代的到来。区块链将重新构建企业，重新构建这个世界的生产方式、消费方式、组织方式，乃至于分配方式。区块链将带来伟大的变革，主要体现在以下八个方面：靠谱人的靠谱联合。降低信用成本，实现自我净化。可追溯性决定：记账就得认账。创作者权益得到保护，普通人参与利益分配。拥有真正属于自己的资产。部分地实现去中心化，权力回归个体。大规模全球协作形成。财富被大量创造并惠及所有人。 2.1　靠谱人的靠谱联合段永朝认为，首先，区块链是一个网络，它意味着越来越紧密的连接，而且，这个连接突破了物理连接，进入到了价值连接的层面。其次，区块链越来越多地让价值和思想、情感在链上流动，这意味着越来越多的靠谱的人被连接起来了。换言之，并不是区块链的哪一个先知先觉者把价值观注入到了区块链里，而是越来越多靠谱的人愿意以这种方式连接在一起。而这种靠谱的人的连接产生的价值观，在向着一个有益的方向进行演化，这就是未来的演化方向。至少，这种方向的可能性，现在展现在我们面前了。2016年3月，医疗行业巨头公司Philips在阿姆斯特丹正式成立了区块链实验室，目的是探寻区块链技术在医疗健康行业的巨大应用价值。而在此前，Philips先后宣布与区块链数据存储初创企业Tierion和区块链技术专家Gem达成合作，旨在为病人提供隐私及敏感数据的区块链解决方案，以及开发区块链医疗网络、建立一个支持全球通用的医疗数据基础设施。此外，Philips还在全球寻找有意向的合作伙伴和开发者来共同合作这个项目。从这个案例中我们可见一斑。 2.2　降低信用成本，实现自我净化经济活动离不开成本，比如人们常说的金钱成本、时间成本、沟通成本等，而这其中信用成本最让人挠头。美国著名教育家约翰·杜威说：“被人尊重和信任的欲望是人类天性最深刻的冲动”。信任对于人类社会的重要性，就如同空气和水对于生命体的重要性。信任不仅仅是人和人之间关系的润滑剂，也会赋予商业新的能量。而区块链，将给人们带来一种聪明的信任。20世纪40年代，德国哲学家卡尔·西奥多·雅斯贝尔斯在他出版的《历史的起源与目标》一书中提出了“轴心时代”的概念，轴心时代的先哲们都在不停地追问一个问题“人们如何才能够好好相处、彼此信赖？”他们最终达成了这样的共识：己所不欲，勿施于人。那么，人与人如何形成一种稳定的信赖关系呢？先哲们通过多次实践、思考和观察，形成了一种朴素的认知：用中国谚语来说，就是“日久见人心”。即通过重复打交道，经年累月，才能了解一个人的内心世界和道德水准，判定他是否值得交往。段永朝认为，恰恰是“日久见人心”这样一个朴素的认知，使交易成本变得昂贵。如果一个社会需要多次重复博弈才能够建立信任，那就意味着巨大的资本、资源和能源的浪费。但是，区块链将为高昂的信任成本带来改变。以色列投资人、营销专家Nimrod May曾任Woo.io首席营销官、风投公司RDSeed的CEO，现任Sirin Labs首席营销官，他是区块链技术的忠实信仰者。他是我2018年5月以色列之行中的六位受访嘉宾之一。在Nimrod May看来，总体而言，区块链技术是基于计算机预设流程之上的，只有在智能合约的自动管理下，各签约方才能达成共识。智能合约比人治管理更为便利，只有在各方兑现其承诺后，交易才能达成。所以智能合约是完全公正客观、不偏不倚的执行者，可谓是最安全可靠的交易方式。区块链中的交易过程之所以值得信赖，是因为其执行者是一台计算机，所运用的是智能合约算法。在交易的过程中，智能合约就像信号灯一样控制着一切。区块链技术能够大大增强交易方之间的信任。它将在全球范围内创造出一套十分公平、公正和平等、互信的商业交易流程，成为未来商业交易的主要方式。 2.3　可追溯性决定：记账就得认账

大數據

带你读《区块链真相》之一：天上掉下个区块链，吃透区块链的六大要领

click / 2019-10-30

点击这里查看第二章[点击这里查看第三章](https://developer.aliyun.com/article/723930区块链真相武卿　著第一章天上掉下个区块链，吃透区块链的六大要领区块链到底是什么？这是我对这个行业的基本疑问。关于这个问题，答案众说纷纭，有人说区块链是一种信任机器，有人说区块链是价值互联网，还有人说区块链就是一种分布式的共享账本。在本书的开篇，我决定先从这个问题开始。 1.1　区块链基本概念：区块+链澳大利亚麦考瑞大学计算机博士邹均，曾在IBM澳洲软件部负责CBA、西太银行、IAG等一线金融行业的软件架构和解决方案。2011年，回到中国后，他曾经担任多家云计算公司高管，主持研发的云计算平台和分布式存储荣获工信部“云帆奖”等多个奖项。邹均现在是中关村区块链联盟副秘书长、广电运通区块链科技有限公司CEO。关于“到底什么是区块链”，我常听圈子里的人打赌：“我敢保证，全中国能把区块链是什么说清楚的人，不超过十个。”这或许是真的。关于区块链的概念，在我认识的人里头，说得最清楚的，就是邹均。邹均从两个概念入手讲述了区块链。第一是“链”的概念，如供应链、食物链等，这些链的共性就是根据一个相同的纽带，把具有相同属性的这些东西串接在一起。区块链其实也是一种链条，是指按一定顺序把区块链接起来。第二是“区块”的概念。“区块”实际上是用来记录交易信息的一个账本的档案。从区块和链的概念来说，区块链的实质很简单：它是一个由人来制定协议规则，由分布式网络的各个节点来执行规则，共同维护网络状态的一个档案库。邹均以一个形象的比喻举例，区块就是账页，链就是把账页连接成册的装订线，再加上骑缝章，使之不能被篡改。当然，与传统的账本相比，区块链有更神奇的地方，账本上的交易能够自动地验证，账本的状态能够自动地确认，形成共识。账页上的交易都能够向前追溯，提供透明性和可审计性。因此，在账本上造假比较困难。 1.2　理解区块链的基础：互联、并发、信任 2018年1月在做前期调研时，我发现了一种特别有趣的现象，基本上，币圈的人都认为区块链就是加密货币，而链圈的人则认为区块链是一种分布式的共享账户体系。到底应该怎样更加深入地理解区块链，我请教了财讯传媒集团（SEEC）首席战略官、北京苇草智酷科技文化公司创始合伙人段永朝。段永朝，高级工程师，工学硕士，从业互联网、媒体领域三十余年，是数字论坛创始成员，中国计算机学会高级会员，信息社会50人论坛执行主席。段永朝是我的山西老乡，也是奇霖传媒多个重要历史事件的见证人和亲历者。在他看来，币圈、链圈并非水火不容，但在看待区块链的方式上有所区别。币圈比较看重区块链支撑下的货币，链圈则更看重未来的金融学、数字金融和数字经济将会奠基在一个什么样的支付方式和支付手段之上。段永朝认为，这两种认知都有问题，都局限在传统经济学的思维上。面对新的数字经济，我们需要构建起一种新经济学的思维，要深入理解区块链，就需要先理解它的三个重要基础。 1.2.1　理解区块链的基础—互联区块链的大背景是互联网，想要理解区块链到底是什么，就需要深刻地理解互联网。互联网的商业发展史已经经过了25年，在互联网的沉淀之下，区块链事实上已经把生产、消费、投资，以及生产组织、财富分配等问题，一并纳入到了它的分析框架，这是理解区块链的一个基础。 1.2.2　理解区块链的基础—并发今天的世界已经处于无所不在的连接之上，区块链上的经济活动此起彼伏。我们甚至可以设想，在北京、上海、马尼拉、伦敦、纽约等世界某地，某一个瞬间发生了一种并发式的交易。区块链，代表了个人、组织之间无所不在的连接和时刻不停的经济活动。 1.2.3　理解区块链的基础—信任在这种无所不在的连接和并发的经济活动中，信任的重要性不言而喻。段永朝毫不讳言说，整个社会中，80%的信息流动就是试探、询价、试错、尝试，人们将大量的时间、金钱和资源浪费在搜寻合适的交易方中，更重要的是，在这种小心翼翼的探寻过程中，我们甚至可能会为此而上当受骗，为此而付出成本和代价。段永朝说，“人们能不能一次达成信任？难道不能在创造快乐的同时交付产品吗？今天的账户体系、记账方法、生产方法、产品和服务的交付方式、衡量每个人靠谱不靠谱的评价标准，通通都要打上问号。”而为这些问号揭开谜底的，就是区块链。在区块链上，账户已经突破了狭义的经济账户概念，变成了广义的社会账户，就是因为它首先需要把每一个人的活动，包括经济活动、社会活动、文化活动、创意活动，通通都记录在案。这是每一个人举手投足时留下的社会足迹，足以标志一个人是否值得信赖。段永朝解释，这也是为什么我们会把区块链视为构造未来社会重要的基石。2015年10月，《经济学人》杂志发表了题为《The Trust Machine》的封面文章，将区块链比喻为“信任的机器”。区块链行业早期的开拓者、区块链技术专家、FCoin交易所创始人、前火币网CTO张健认为，这个定义抓住了区块链的本质—区块链试图用数学的方法去定义信用。他强调，信息的传输和价值的传输必然相匹配，就如古代有镖局运输金银，信息时代有电子银行、网上支付，有什么样的信息传输手段，就有什么样的价值传输手段。随着信息时代的发展，价值像信息一样几乎无成本传输的时代必将到来。 1.3　区块链概念引申

大數據

一条SQL在 MaxCompute 分布式系统中的旅程

click / 2019-10-29

摘要：2019杭州云栖大会大数据技术专场，由阿里云资深技术专家侯震宇、阿里云高级技术专家陈颖达以及阿里云资深技术专家戴谢宁共同以“SQL在 MaxCompute 分布式系统中的旅程 ”为题进行了演讲。本文首先介绍了 MaxCompute 计算平台及其特点、超大规模企业级SQL引擎和其功能。然后讲解了如何构建企业级分布式智能调度执行框架。最后介绍了新一代列式存储引擎AliOrc及优化方式。视频直播回放 >>>以下为精彩视频内容整理： MaxCompute–面向企业的超大规模计算全托管，多租户，超大规模平台 MaxCompute拥有庞大的用户群体，支持阿里集团的各个关键业务和复杂场景，支持多个互联网新兴企业核心业务，以及支持关系国计民生、国家安全的关键行业。同时拥有超大规模计算存储，包括单日千万以上计算任务、多EB级别存储量、10万台以上服务器以及全球超过十个数据中心。企业级高性能计算引擎 TPC-BigBench是更面向于大数据运算的BigBench，覆盖一些复杂类型，包括机器学习场景，更贴近于大数据场景的业务。在2017年，阿里的TPC-BigBench首个通过100TB 验证的引擎。在2018年，TPC-BigBench 首个达到18000+引擎。在2019年，进一步提升到 25000+，正式公布到TPC官网。 MaxCompute不仅仅在阿里集团内部被广泛的使用，也支撑着许多著名的互联网方面的厂商，以及关系到国计民生、国家安全方面的应用。超大规模企业级SQL引擎–MaxCompute UniSQL 一条SQL在分布式系统中的旅程

大數據

[转]科创板百日大数据：哪类企业容易过关？

click / 2019-10-29

作为中国资本市场的改革试验田，科创板已开市近百日。百日内，闯关科创板的企业处于什么状态？行业和区域方面是怎样分布的？募集资金属于什么水平？针对上述问题，创头条记者根据资料对科创板和其受理企业进行梳理，以期多方位展现科创板态势和行业发展走向。 1、审核进程：共计165家公司，55家注册生效截至目前，科创板目前共有165家受理公司，其中已注册生效的有55家，64家公司已问询，但在申报过会中，有11家在审核阶段撤回、2家被上市委否决、1家注册未获通过、2家在注册阶段撤回，共有16家失败。科创板问询制度异常严密，之前未予通过的企业由于会计审核问题触碰法律红线被否，其中在注册阶段主动撤回的某企业，也因会计审计不过关被上市委劝退。 2、上市标准分布：企业纷纷选择第一套标准目前，在选择上市标准方面，相对宽松的第一套标准是各公司的首要选择。 165家公司中有136个选择了第一套标准上市，其次为选择第四套、第二套、第五套标准。此前，创头条记者曾就此采访业内人士，业内人士表示原因在于目前申报科创板的企业大多数是拟IPO企业，IPO的标准与标准一的要求基本契合。此外，科创板实行注册制，企业市值受到询价结果的影响较大，可能会出现询价后市值不达标现象，因此企业与保荐机构出于谨慎性考虑，倾向于选择市值要求最低的第一套标准。 3、区域分布，集中在北上广和江浙地截至目前，鉴于科创板对标的是高新技术性企业，相应的目前对应的区域也主要聚集在高新技术发展和经济发达地带，同时上交所所在地带来的金融聚集效应也较为明显。其中北京以32家位居首位；广东次之，有28家；上海方面为23家；而江苏和浙江分别为26家和14家。 4、保荐状态：头部效益明显，中小券商挑战大统计可以看出，在保荐方面，资深投行中金公司以17名位居榜首，其次为实力雄厚的中信建投以及后起之秀华泰证券。中信、招商以及国信证券的表现也不俗。业内认为，头部券商因丰富的项目储备很容易在科创板领域占据先发优势。另一方面，根据科创板承销业务指引，保荐机构根据科创板项目发行规模的不同实现2%-5%的跟投比例。这意味着，保荐项目越多，券商的资金实力就越强，而这对于中小券商来说意味着很大的挑战。 5、行业分布：高度匹配科创定位目前来看，科创板严守六大行业，新一代信息技术、新材料、新能源行业、节能环保行业、高端装备、生物医药领域。数据显示，科创板公司中专用设备制造业为32家，计算机、通信等行业电子设备制造业为31家，其中医药相关公司是23家。

大數據

从310到蚂蚁森林，蚂蚁金服在线图计算的创新与实践

click / 2019-10-29

蚂蚁金服过去十五年，重塑支付改变生活，为全球超过十二亿人提供服务，这些背后离不开技术的支撑。在 2019 杭州云栖大会上，蚂蚁金服将十五年来的技术沉淀，以及面向未来的金融技术创新和参会者分享。我们将其中的优秀演讲整理成文并将陆续发布在“蚂蚁金服科技”公众号上，本文为其中一篇。今年 4 月，蚂蚁金服董事长兼 CEO 井贤栋在参与第二届一带一路国际合作高峰论坛时表示，通过九年的实践，蚂蚁金服改善了中小企业的融资渠道并形成了 310 模式，即 3 分钟在线申请、1 秒钟审核放款、0 人工干预。与此相对的是，仅仅在两年前，有相关人士表示，他们出台的 310 模式却是 3 周申请，1 月审核，0 几率获贷。

大數據

如何在Spark中实现Count Distinct重聚合

click / 2019-10-29

大數據

混合云模式下 MaxCompute + Hadoop 混搭大数据架构实践

click / 2019-10-29

摘要：2019杭州云栖大会大数据企业级服务专场，由斗鱼大数据高级专家张龙带来以 “混合云模式下 MaxCompute+Hadoop 混搭大数据架构实践” 为题的演讲。本文讲述了从 Apache Hadoop 阶段到 Cloudera CDH 阶段斗鱼大数据架构的发展历程。提出了上云过程中斗鱼遇到的问题和跳战，包括数据安全、数据同步以及迁移任务。概括了混合云模式给斗鱼带来资源效率更高和资源成本更低的变化。精彩视频回放 >>>以下为精彩视频内容整理：斗鱼大数据架构发展历程在2014年中期，斗鱼就开始使用大数据，最开始使用的是简单的HBase和Hadoop。在2015年，开始使用CDH运维大数据集群，主要针对可视化运维。在2017年的下半年，斗鱼开始接触阿里云大数据的一些产品，并且与其他产品做了对比。最终选择了阿里云的MaxCompute。 Apache Hadoop阶段由于业务场景比较简单，组件较少，并且使用的人也少，但可以灵活的操作，同时集群规模较小，运维要求低，可以自由的利用开源，培养了许多人才。但在发展过程中也遇到了一些阻碍，例如：组件增多，运维成本高，业务增长快，集群扩容操作繁琐，人员增加，数据安全要求高，物理机操作，环境安全难保障。 Cloudera CDH阶段

大數據

如何有效降低大数据平台安全风险

click / 2019-10-29

摘要：在2019杭州云栖大会大数据企业级服务专场，由阿里云智能计算平台事业部资深技术专家李雪峰带来以“如何有效降低大数据平台安全风险”为题的演讲。本文首先概括了企业在大数据上云过程中会产生的安全顾虑。接着，在大数据平台中要处理的安全风险中，对数据中心物理安全与网络安全、大数据平台系统安全以及数据应用安全三部分做了详细的介绍。最后，描述了阿里云飞天大数据平台的安全体系。精彩视频回放 >>>以下为精彩视频内容整理：企业大数据上云的安全顾虑企业大数据上云过程中，通常会产生一些安全顾虑。当数据进行企业内部的云上迁移时，数据是否可能会丢掉。当数据在云上被存储时，数据是否有可能被篡改。当数据在云上被使用的时候，数据是否有可能被泄露。这些顾虑都来自于信息的基本元素，包括信息的可能性问题、信息的完整性问题以及信息安全的保密性问题。这三个问题并不是因为数据要上云而额外带来的。此外，在企业内部构建自己的大数据中台的时候，也仍然会遇到安全问题。上图是大数据平台安全风险框架。对于一个企业级的大数据中台要处理的安全风险，分为三个层次。第一个层次是数据中心的物理安全与网络安全，要构建一个数据中心需要有基础的数据中心，还需要有自己的IDC，IDC自身的安全以及网络接入的安全直接影响到数据平台的可用性。数据中心的物理安全能够提供更可靠的基础，也为大数据平台带来更高的安全保障。第二层是大数据平台的系统安全，是由大数据内部的各个安全子系统构成的，这些安全子系统共同保障了大数据平台的完整性。第三层是数据应用的安全，它非常接近于用户的使用场景。用户需要使用各种各样的数据安全产品，来为自己的数据安全场景做保障，从而保密自己的数据。数据中心物理安全与网络安全在飞天大数据平台中，阿里云的数据中心承担了数据中心的物理安全与网络安全的职责。整个安全风险可以分为三个维度: 第一个维度是数据中心的保障设施，包括供电保障以及冷却保障，阿里云的数据中心可以支持独立的多路供电、低压变配电系统和高冗余UPS/HVDC以及高可靠后备电源系统和多级防雷接地系统共同为阿里的数据中心提供了高可用的数据保障。阿里云的数据中心在冷却系统中可以提供冷源设备管路以及终端的多路冗余，从而为数据中心提供冷却的高可用的保障。第二个维度是数据中心的安全管控。在数据中心运维过程中会出现一系列安全的流程，一方面是安全管控，在安全管控中，阿里云的数据中心将参与整个生产过程中的人和建筑物各分为三个等级，并在每个等级上标记不同的颜色，基于这些颜色构成了色彩管理体系。同时，为了安全的管控整个设施的有效运行，阿里云的数据中心还建立了对抗的检验体系。另一方面，在阿里的数据中心中将提供7×24监控系统，可以将数据中心的事件进入到不同的管控平台中。第三个维度是数据中心的网络安全。数据中心都是要提供网络访问的，在数据中心自身的网络架构中，阿里能够提供多路的冗余接入，最大限度的保证网络可用。同时，作为一个数据中心要提供低收敛比的网络架构，主要是针对数据中心进行的量身优化。此外，针对网络防御，阿里提供高防的网络服务和近源攻击的清洗，同时，阿里的数据中心利用云安全的基础设施WAF提供七层的网络防御。大数据平台系统安全 MaxCompute平台安全系统主要包括四个子系统。第一个子系统是访问控制，主要处理所有的访问接入控制以及限制控制，在接入控制上可以支持IP白名单，在权限控制上提供ACL(DAC)能力和LABEL(MAC)能力以及基于属性的POLICY(ABAC)能力、共享能力、数据保护能力。第二个子系统是应用程序的隔离，用户执行的UDF会在这个子系统里执行，支持没有权限限制的Java和Python语言所编写的UDF，同时提供三方引擎的计算能力，为MaxCompute提供计算平台。第三个子系统是风控和审计，提供多种事件审计的日志，包括任务日志和用户日志及表的日志，同时提供多种的元数据能力，包括表和资源。第四个子系统是平台的可信系统，基于信任的语言提供了存储加密的能力。 MaxCompute平台访问控制系统 MaxCompute平台访问控制系统是基于多租户的体系进行构建的，在云上的每个MaxCompute租户在MaxCompute内部会对应到一个或多个project，其中任何一个project会包括三类的内容。第一类是project属性，包括Quota和Owner信息。第二类是project数组，包括User ID和Role。第三类是project所有的资源，包括表、函数、文件系统和Instance实例。

大數據

如何有效降低大数据平台安全风险

click / 2019-10-29