大數據 – Page 173 – 小科科的春天

Virgin Hyperloop One如何使用Koalas将处理时间从几小时降到几分钟–无缝的将pandas切换成Apache Spark指南

click / 2019-09-03

Virgin Hyperloop One（超级高铁公司）是一家从事超级高铁研究的公司，致力于能让高铁达到飞机的速度并且拥有更低的成本。为了能够制造一个商业的系统，我们需要收集并且分析非常大量的各种不同的数据，包括各种运行测试数据，多种模拟数据，技术设施数据，甚至社会经济数据等等。我们之前绝大部分处理数据的代码都是基于pandas使用python脚本来进行处理。之所以写这篇文档是因为我们想分享我们如何使用Koalas在很少修改代码的情况下来扩展我们的处理能力和节省大量处理时间的。随着我们的业务不断的增长我们的数据量也在不断的增长。我们的数据处理范围越来越大，复杂程度越来越高，这导致我们基于pandas的python脚本越来越慢，知道慢到不能满足我们的商业需求。所以我们调研了Spark，希望使用Spark能够带来更快的处理时间并且能够提供按需灵活弹性的能力。我们尝试这样做了，但是很快我们发现切换到Spark的过程中，我们必须付出非常多的时间把我们之前的基于pandas的python代码修改成基于PySpark的代码。我们意识到我们需要一套能够不需要修改过多代码就能迁移到Spark上的解决方案。我们非常高兴的发现了这个解决方案：Databricks最近开源的Koalas。 Kolas的Readme中是这样写的： Koalas项目基于Apache Spark实现了pandas DataFrame API，从而使数据科学家能够更有效率的处理大数据。如果你已经熟悉pandas，那么你不需要付出任何学习成本就能使用Spark，一份代码可以同时在pandas(用于测试，小数据集)和Spark(用于分布式datasets)两个平台上运行。本文我将介绍Koalas为什么值得你去尝试。只需要修改不到1%的pandas代码，我们就能将我们以前的代码跑在Koalas和Spark上。我们将处理时间提升了10倍，从几小时下降到了几分钟。并且我们具备了水平扩展的能力，这使我们能够处理更多的数据。快速开始在安装Koalas之前，首先我们需要一个能够运行PySpark的Spark集群。然后我们执行以下命令： pip install koalas 如果使用conda，则执行以下命令: conda install koalas -c conda-forge […]

大數據

Apache Flink 零基础入门（七）：Table API 编程

click / 2019-09-03

作者：程鹤群（军长）文章概述：本文主要包含三部分：第一部分，主要介绍什么是 Table API，从概念角度进行分析，让大家有一个感性的认识；第二部分，从代码的层面介绍怎么使用 Table API；第三部分，介绍 Table API 近期的动态。文章结构如下：什么是 Table API Flink API 总览 Table API 的特性 Table API

大數據

如何正确使用 Flink Connector？

click / 2019-09-03

本文主要分享 Flink connector 相关内容，分为以下三个部分的内容：第一部分会首先介绍一下 Flink Connector 有哪些。第二部分会重点介绍在生产环境中经常使用的 kafka connector 的基本的原理以及使用方法。第三部分答疑，对社区反馈的问题进行答疑。 Flink Streaming Connector Flink 是新一代流批统一的计算引擎，它需要从不同的第三方存储引擎中把数据读过来，进行处理，然后再写出到另外的存储引擎中。Connector 的作用就相当于一个连接器，连接 Flink 计算引擎跟外界存储系统。Flink 里有以下几种方式，当然也不限于这几种方式可以跟外界进行数据交换：第一种

大數據

滑板、航拍、写小说…你以为是个艺人，其实是支付宝程序员 | 开发者必读（055期）

click / 2019-09-03

最炫的技术新知、最热门的大咖公开课、最有趣的开发者活动、最实用的工具干货，就在《开发者必读》！每日集成开发者社区精品内容，你身边的技术资讯管家。每日头条支付宝这些程序员要逆天，滑板、画漫画、写科幻小说、航拍，玩得太溜他一边用代码改变世界，一边用科幻小说去创造未来。他一边用编程书写传奇，一边用画笔记录生活。他一边用程序驱动科技，一边用滑板挥洒汗水。他一边用产品推动技术，一边用航拍记录大地。他们是四位来自蚂蚁金服的普通程序员，代码有千万种可能，人生有万千种姿态，看起来高冷的 IT 男，背地里也可能是热血青年！最强干货为互联网业务而生：阿里云全球首发云Cassandra服务！十年沉淀、全球宽表排名第一。ApsaraDB for Cassandra是基于开源Apache Cassandra，融合阿里云数据库DBaaS能力的分布式NoSQL数据库。Cassandra已有10年+的沉淀，基于Amazon DynamoDB的分布式设计和 Google Bigtable 的数据模型。具备诸多优异特性：采用分布式架构、无中心、支持多活、弹性可扩展、高可用、容错、一致性可调、提供类SQL查询语言CQL等。Cassandra为互联网业务而生，已在全球广大互联网公司有成熟应用，是目前最流行的宽表数据库。技术人最不该忽视可视化数据分析！在这个“人人都是数据分析师”的时代，阿里的同学几乎都在参与数据的采集、加工与消费。数据可视化作为连接“加工——消费”的重要一环，其质量至关重要。优秀的可视化能促成卓越洞见，糟糕的内容则让所有的努力失去意义。今天，阿里高级产品经理沉砂为我们详细介绍数据可视化工具以及如何选择有效图表。左手小程序，右手生活号，只需6招让留存率提升70%！

大數據

PaddlePaddle工程师详解热门视觉模型，强烈建议！

click / 2019-09-03

上篇计算机视觉（Computer Vision）是研究如何使机器“看”的科学，更进一步的说，是使用摄像机机和电脑代替人眼对目标进行识别、跟踪和测量等的机器视觉，并通过电脑处理成为更适合人眼观察或传送给仪器检测的图像。形象地说，就是给计算机安装上眼睛（摄像机）和大脑（算法），让计算机像人一样去看、去感知环境。计算机视觉技术作为人工智能的重要核心技术之一，已广泛应用于安防、金融、硬件、营销、驾驶、医疗等领域。本文上篇中，我们将介绍基于PaddlePaddle的四种计算机视觉技术及其相关的深度学习模型。一、图像分类图像分类是根据图像的语义信息对不同类别图像进行区分，是计算机视觉中重要的基础问题，是物体检测、图像分割、物体跟踪、行为分析、人脸识别等其他高层视觉任务的基础。图像分类在许多领域都有着广泛的应用。如：安防领域的人脸识别和智能视频分析等，交通领域的交通场景识别，互联网领域基于内容的图像检索和相册自动归类，医学领域的图像识别等。得益于深度学习的推动，图像分类的准确率大幅度提升。在经典的数据集ImageNet上，训练图像分类任务常用的模型，包括AlexNet、VGG、GoogLeNet、ResNet、Inception-v4、MobileNet、MobileNetV2、DPN(Dual Path Network)、SE-ResNeXt、ShuffleNet等。 △ AlexNet △ VGG △ GoogLeNet △ ResNet △ Inception-v4

大數據

这些好用的 Chrome 扩展，你值得拥有！

click / 2019-09-03

来源：https://4ark.me//post/549a6198.html 前言使用浏览器扩展程序可以使你的工作效率提高数倍不止，那么下面我就向大家分享一下我日常使用的扩展，可能大多数扩展大家都已经在使用了，不过也难免有一两个是你不知道的。正文以下排名并不分先后，请坚持看到最后，或许你会有惊喜。 1.谷歌访问助手本来想了一波广告词来吹它，但想到… 算了，别问，问就是好用。注：装了这个就可以访问之后介绍的扩展链接了。链接：http://www.ggfwzs.com/ 2. 新浪微博图床感谢新浪微博提供的免费图床（对外链无限制），以及吊炸天的 cdn 图片加速服务，从此妈妈再也不用担心我的图床不能用了，另外还支持在网页图片右键菜单中一键上传。链接：https://dwz.cn/I2AVKk5s 3. AdBlock 最受欢迎的 Chrome

大數據

阿里云创峰会聊城站高峰对话二：工农业互联网探索中的产业智能化

click / 2019-09-03

8月23日，在阿里云创峰会聊城站第二场高峰论坛环节，各位嘉宾围绕”工农业互联网探索”这一话题，分享了人工智能在工农业不同场景中的应用，以及新一轮产业升级浪潮下相应领域迎来的机会和变化。以下为对话实录（略作删减）：主持人李茂达：大家好，今天嘉宾们谈到人工智能、大数据、云计算，其实这些技术已经推动了新一轮的产业升级的浪潮到来，现在5G开始商用，已经意味着万物的到来，包括工业、农业、制造业都会发生一个很大的变化。今天第二个圆桌论坛，请了很多工农业专家，在相应的领域将带来什么样的机会，请每个人用一分钟来介绍一下所在的企业。诺伯特智能装备（山东）有限公司副总经理刘博华：各位嘉宾我是来自诺伯特公司的刘博华，我们公司主要是研发、生产工业机器人、小车，及工业机器人的集成应用。象限空间（天津）科技有限公司CEO王勃：各位嘉宾下午好，我是象限空间的王勃，我们公司是一家飞行器和无人机应用系统的创新企业，成立于2016年，现在的主要业务产品有飞行器的动力装置系统集成，航空发动机的研发，无人机系统的研发，动力系统实验室的设计和建设，还有工程设计的服务。从以上业务可以看出我们公司是贴合无人机整个产品线布的整个技术路线，我们核心能力在飞行器动力系统集成和航空活塞发动器研发，目前国内2/3的大中型无人机企业，都与我们有合作。聊城市丰泽园农产品种植有限公司总经理于宗君：我们企业主要开发的是会员制的臭氧机，下一步希望带着用户做成一个规模化、一体化的产业链，最终让农户富起来。济南越疆智能科技有限公司总经理吴福财：我们越疆公司希望服务全国和全球，我们2018年有148个出口国家和地区，械臂出口数量排名第一。我们从商业、工业、教育行业，对人工智能做出我们自己的努力。鲁西集团信息部部长国亮：我是鲁西化学的，在聊城市拥有7平方公里的装置，我们的园区也是围绕着国家绿色智能制造战略的一个产业园区，我们投入比较大，并且我们整个新材料的占比和以前相比有一个比较大的提高。我们以前做化学，现在做PC，未来我们想在推进化工智能化的过程中，确保整个园区在安全环保上达到世界一流的水平。主持人李茂达：他们都是非常优秀或者顶级的公司。工业4.0时代的到来，工业机器人成为智能制造的主力军，诺博机器人是其中的佼佼者。不仅拥有院士站，在市场上也成绩斐然。我想先问一下诺伯特的刘总，诺博机器人希望打造一个怎样的蓝图？刘博华：我们2013年10月在聊城注册成立，真正生产是2016年3月份。目前在山东省，诺伯特投资总额现在投资5.8亿，规模和技术实力在山东省是首屈一指的。今年的销售额目标是2.5亿，保底目标是2亿。下一步要加大市场投入，将开发三种系统。第一是针对航空航天复合材料、关键零部件机器人的加工系统。还有一个3D视觉和工业机器人应用，现在3D视觉发展非常迅速。另外一块，就是打磨系统，现在打磨系统是作为工业机器人是非常难的一个行业，我们通过为龙头集团设计打磨系统开始做实验，将进一步推动这个行业的发展。同时也计划在2025年争取IPO挂牌上市。主持人李茂达：那确实是一个好消息，不管是系统还是产品，都比较先进。主持人李茂达：前不久上周在聊城举行了一场规模盛大的无人机秀，有几万名市民围观。无人机大家并不陌生，但工业级无人机相比消费级无人机要求更高。象限空间是国内顶级的无人机研发生产商，公司拥有2个院士站。我想问一下象限空间王总，工业级无人机对机器性能、技术上有什么要求？目前主要用于哪些场景？王勃：无人机的分类，特别是消费和工业无人机，不同的人有不同的想法，我按照自己的想法跟大家介绍一下。实际上无人机不能够说它是消费机还是工业机，而在于它到底用在哪里，消费机就是个人消费用的，工业机是工业行业或者某一个部门、公司为了一些工业上的需求而定制的，这是我的理解。另一方面，工业无人机在各个方面都有一些很高的要求，首先要航时长，载荷大，此外在可靠性、电子兼容性，环境适应性方面与可消费无人机差距非常大。为了满足需求，除了设计上要下很大的工夫之外，还要有大量的实验。所以工业级无人机的价钱比消费机一般高1—2个量级，从技术上没有太大的区别，但是从可靠性和使用要求上，技术难度是非常高的。另外，无人机一旦核心的控制失效，就没有办法挽回。所以做工业机对于我们来说是一个大的挑战。主持人李茂达：从刚才他的介绍里面，大家可以看到工业级的无人机确实存在很多的技术指标，在特殊的环境里面应用，要保证性能的稳定。所以我们也多多支持他们发展。

大數據

中国科技开发院张世明：数据是智能制造的核心

click / 2019-09-03

“通过数据5G的方式，我们把一个工厂的智能终端连接起来，通过传统的人物系统，以及新一代人、信息、物理系统，使数据和生产要素发挥更多的效率，满足新一代的信息应用。” 在23日举办的“创峰会·聊城站”论坛上，中国科技开发院大数据与人工智能研究院首席科学家张世明向大家分享了人工智能如何助力产业升级。他表示，当下，各国都在积极参与智能制造的产业升级，而随着互联网的发展，数据是我们经济发展的新动力，以数据为基础，把孤立不相连的企业信息孤岛连接起来，将产生一个全产业全社会共享的、可以流动起来的、有价值的资源，所以数据是未来新经济可持续发展的一个重要元素。那么所谓的数据从哪里来，该关注哪些方向呢？张世明指出了未来的4个核心趋势：共享合作。在共享的基础上，对每一件产品实行个性化的生产，发挥各行各业的优势，实现快捷、可持续的多方融合。 2.个性化定制和区域合作。张世明指出，我们应关注个性化的智能终端如何在智能工厂和各个环节中体现出重要的作用，比如智能物流、智能生产系统等在促进我们智能制造过程中，所产生的一些数据和相应的经济要素如何连接的问题。这也是《智能制造2025》所关注的一个重要方面。 3.人工智能。张世平表示，在大数据应用方面，现有的图像识别等工业检测已在我们工作中得到充分使用，未来人工智能在制造业方面将得到长足发展，是一个有着无限想象力的领域，在此基础上，我们的机械化、智能化可以达到一个表象的融合，从而产生智能制造。 4.算力平台。有了数据，有了人工智能，另外一个方式就是算力的问题，我们需要一个平台，如阿里云、百度云，以及以阿里为基础的工业大脑等。新一代的智能制造系统集成智能制造云，有智能产品，智能生产，智能服务，最后就是工业智联网。智能制造还有对智能工厂的要求，在产品的加工和采集过程中，如何应用用户的需求产出一个个性化的产品，就是相应的工业大脑。张世平还表示，以工业制造共享经济是智能制造的一个重要特点，生产共享过程中，我们现在大家都想象得很美好，但是这里面有很多问题，如何在智能制造方面发挥分享的作为，算法个性化的设计如何使生产更直观，包括生产要素的一体化等，这些重要的问题自身还存在一定的不满足，还需要在研究和体验上进行合作。未来智能制造会通过人工智能专家、产业专家和大数据专家合作的方式，来发挥智能制造的战略伙伴关系。

大數據

回顾 | Kafka x Flink Meetup 与世界人工智能大会大数据 AI 专场精彩回顾（附PPT下载）

click / 2019-09-03

8 月最后一天，由 Apache Kafka 与 Apache Flink 联合举办的 Meetup 深圳站圆满落幕，现场站无虚席，来自 Confluent 、中国农业银行、虎牙直播、数见科技以及阿里巴巴的五位技术专家带来了丰富精彩的分享，全场干货满满！ PPT下载链接：https://files.alicdn.com/tpsservice/baeb4c569c57f04a38e4e9cd616ec37d.zip 《Apache Kafka 在现代数据驱动架构中的角色》张子斌Confluent 大中华区资深系统工程师 Confluent

大數據

Flink 1.9 实战：使用 SQL 读取 Kafka 并写入 MySQL

click / 2019-09-03

上周六在深圳分享了《Flink SQL 1.9.0 技术内幕和最佳实践》，会后许多小伙伴对最后演示环节的 Demo 代码非常感兴趣，迫不及待地想尝试下，所以写了这篇文章分享下这份代码。希望对于 Flink SQL 的初学者能有所帮助。完整分享可以观看 Meetup 视频回顾：https://developer.aliyun.com/live/1416 演示代码已经开源到了 GitHub 上：https://github.com/wuchong/flink-sql-submit 这份代码主要由两部分组成：1) 能用来提交 SQL 文件的 SqlSubmit