大數據 – Page 174 – 小科科的春天

独家 | 手把手教你创建聊天机器人来协助网络运营（附代码）

click / 2019-08-25

作者：Melisha Dsouza 文章来源：微信公众号数据派THU 翻译：吴金笛校对：国相洁本文约3000字，建议阅读10+分钟。本文是创建聊天机器人实现网络运营的简单教程。在本教程中，我们将了解如何利用聊天机器人来协助网络运营。随着我们向智能化运营迈进，另一个需要关注的领域是移动性。用一个脚本来进行配置，修复甚至故障检修是很好的，但它仍然需要有人在场来监督，启动甚至执行这些程序或脚本。 Nokia’s MIKA 是一个很好的聊天机器人例子，操作人员可以用它来进行网络故障排除和修复。根据 Nokia’s blog，MIKA会根据此单个网络的实际情况给出一个警报优先级信息，并将当前的情况与该网络和其他网络过去事件的整个服务历史进行比较，以确定当前问题的最佳解决方案。 Nokia’s MIKA https://networks.nokia.com/services/digital-assistant-as-a-service Nokia’s blog https://www.nokia.com/blog/chatting-bots-home-work […]

大數據

独家 | 从全方位为你比较3种数据科学工具的比较：Python、R和SAS（附链接）

click / 2019-08-25

翻译：张玲校对：吴金笛本文约3000字，建议阅读5分钟。关于三种数据科学工具Python、R和SAS，本文从8个角度进行比较分析并在文末提供记分卡，以便你随时调整权重，快速做出选择。简介我们喜欢比较！从比较三星、苹果、HTC的智能手机，iOS、Android、Windows的移动操作系统到比较即将选举的选举候选人，或者选择世界杯队长，比较和讨论丰富了我们的生活。如果你喜欢讨论，你所要的就是在一个充满激情的群体中抛出一个相关问题，然后看着它爆炸式地发展！这个过程的美妙之处在于，社区里的每个人都是一个知识渊博的人。我在这里也引发类似的讨论，比较SAS、R和Python。SAS和R孰好孰坏可能是数据科学领域的最大争论，而Python是目前发展最快的语言之一，自其诞生以来，已经走过很长的路。我开始这个讨论的原因并不是想看它爆炸（不过那也很有趣），而是知道我们都会从讨论中受益。这也是我在这个博客上最常见的问题之一，所以我会和所有的读者、访客一起讨论这个问题。 SAS https://www.analyticsvidhya.com/learning-paths-data-science-business-analytics-business-intelligence-big-data/learning-path-business-analyst-sas/ R https://www.analyticsvidhya.com/learning-paths-data-science-business-analytics-business-intelligence-big-data/learning-path-r-data-science/ 数据科学领域 https://courses.analyticsvidhya.com/courses/introduction-to-data-science-2?utm_source=blog&utm_medium=PythonvRvSASarticle Python https://www.analyticsvidhya.com/learning-paths-data-science-business-analytics-business-intelligence-big-data/learning-path-data-science-Python/ 关于这个话题不是已经说了很多了吗？可能是的，但我仍然觉得有必要谈论，原因如下：数据科学行业是一个充满活力的行业，两年前进行的任何比较都有可能和数据科学不再相关。

大數據

独家 | 用于数据清理的顶级R包（附资源）

click / 2019-08-25

作者：Anna Kayfitz，CEO of StrategicDB Corp 文章来源：微信公众号数据派THU 翻译：顾宇华校对：杨光 —- 确保数据干净整洁应该始终是数据科学工作流程中首要也是最重要的部分。数据清理是数据科学家最重要和最耗时的任务之一。以下是用于数据清理的顶级R包。每天有数百万或数十亿的数据元素进入您的企业，其中不可避免的存在一些缺乏建立高效业务模型的必要质量的数据元素。然而，确保数据干净整洁应该始终是数据科学工作流程中首要也是最重要的部分。因为没有它，您将很难看到重要的内容，并可能由于数据重复，数据异常或缺少信息等原因做出错误的决策。 R，作为一种能够应用于统计计算和图形的开源语言，是最常用和最强大的数据编程工具之一。R提供了创建数据科学项目所需的所有工具，但是不管利用任何一种工具，它只能做到提供它接受到的数据相等同的信息。但是拥有了这些工具，R环境中有许多库可以在任何项目开始之前进行数据处理和操作。探索数据大多数您已经导入的用于探索数据系列的工具已存在于R平台中。摘要（数据）这个方便的命令只是概述了所有数据属性，显示了每个属性的最小值，最大值，中值，平均值和类别拆分。这是一种快速发现任何潜在数据异常的好方法。接下来，您可以使用直方图来更好地理解数据的分布。这将可视化显示数据集或您特别希望观察的任何数字列中的任何异常值。 plyr包

大數據

教程 | 一文读懂自学机器学习的误区和陷阱（附学习资料）

click / 2019-08-25

来源：机器学习与统计学文章来源：微信公众号数据派THU 本文为你指出一些自学的误区，推荐学习资料，提供客观可行的学习表并给出进阶学习的建议。 0. 背景写这篇教程的初衷是很多朋友都想了解如何入门/转行机器学习，搭上人工智能这列二十一世纪的快车。文章的宗旨是：1. 指出一些自学的误区 2. 不过多的推荐资料 3. 提供客观可行的学习表 4. 给出进阶学习的建议。这篇文章的目标读者是计划零基础自学的朋友，对数学/统计/编程基础要求不高，比如：在读学生非计算机行业的读者已经工作但想将机器学习/数据分析和自己的本职工作相结合的朋友因此，这篇文章对于已经身处机器学习领域的人士可能帮助不大。请大家有选择的性阅读，探索适合自己的学习方法。 1.

大數據

修改代码150万行！Apache Flink 1.9.0做了这些重大修改！

click / 2019-08-25

阿里妹导读：8月22日，Apache Flink 1.9.0 正式发布。早在今年1月，阿里便宣布将内部过去几年打磨的大数据处理引擎Blink进行开源并向 Apache Flink 贡献代码。此次版本在结构上有重大变更，修改代码达150万行，接下来，我们一起梳理 Flink 1.9.0 中非常值得关注的重要功能与特性。 Flink 1.9.0是阿里内部版本 Blink 合并入 Flink 后的首次发版，修改代码150万行，此次发版不仅在结构上有重大变更，在功能特性上也更加强大与完善。本文将为大家介绍 Flink 1.9.0 有哪些重大变更与新增功能特性。在此先简单回顾一下阿里巴巴Blink

大數據

为了让网速更快，阿里工程师与顶级数学家有一个大胆猜想 | 开发者必读（049期）

click / 2019-08-25

最炫的技术新知、最热门的大咖公开课、最有趣的开发者活动、最实用的工具干货，就在《开发者必读》！每日集成开发者社区精品内容，你身边的技术资讯管家。每日头条为了让网速更快，阿里工程师与顶级数学家有一个大胆猜想 2008年，当英国数学家Frank Kelly凭借原创性的网络理论拿下运筹优化学的“诺贝尔” — 冯·诺依曼理论奖，可能并不会想到，11年后，他还将亲自参与“重塑”这一心血之作的全过程。邀请他共建新理论的朋友是一群从读博期间就熟读Frank Kelly著作，受其影响的年轻人。同时，他们的另一个身份是阿里巴巴工程师。近日，他们提出了双方合作的研究成果HPCC，对高性能网络的拥塞控制这一世界级难题提出了一种全新的算法，同时在世界顶级的学术会议SIGCOMM 2019上发表，这也标志着阿里巴巴在基础研究上又一重大突破。最强干货修改代码150万行！Apache Flink 1.9.0做了这些重大修改！ 8月22日，Apache Flink 1.9.0 正式发布。早在今年1月，阿里便宣布将内部过去几年打磨的大数据处理引擎Blink进行开源并向 Apache

大數據

阿里巴巴如何打造“EB级计算平台存储引擎”？

click / 2019-08-22

阿里妹导读：MaxCompute是阿里EB级计算平台，经过十年磨砺，它成为阿里巴巴集团数据中台的计算核心和阿里云大数据的基础服务。MaxCompute的存储引擎基于开源的Apache ORC文件格式，打造了新一代列存文件格式AliORC。本文整理自阿里巴巴MaxCompute西雅图团队的高级技术专家吴刚的专访，将为大家介绍AliORC的核心技术，同时分享作为Apache ORC开源社区PMC的心得和一些个人成长经历。一、MaxCompute平台存储引擎背景阿里云大数据计算服务( MaxCompute，原名 ODPS )是阿里云提供的一种安全可靠、高效能、低成本、从GB到EB级别按需弹性伸缩的在线大数据计算服务。MaxCompute 不仅仅是一个计算平台，也承担着大数据的存储。阿里巴巴集团99%的数据存储都基于 MaxCompute，总数量达EB级。MaxCompute 存储引擎处于MaxCompute Tasks和底层盘古分布式文件系统之间，提供一个统一的逻辑数据模型给各种各样的计算任务。存储层最核心的部分就是文件格式。对于文件存储而言，有两种主流的方式，即按行存储以及按列存储。所谓按行存储就是把每一行数据依次存储在一起，即先存储第一行的数据再存储第二行的数据，以此类推。按列存储就是把表中的数据按照列存储在一起，先存储第一列的数据，再存储第二列的数据。而在大数据场景之下，往往只需要获取部分列的数据，那么使用列存就可以只读取少量数据，这样可以节省大量磁盘和网络I/O的消耗。此外，因为相同列的数据属性非常相似，冗余度非常高，列式存储可以增大数据压缩率，进而大大节省磁盘空间。MaxCompute 的存储格式演化，从最早的行存格式 CFile1，到第一个列存储格式 CFile2，再到新一代的列存格式AliORC，经历了从行存到列存的转换。二、什么是Apache ORC开源项目 AliORC是基于开源的Apache ORC打造的列存文件格式，那什么是Apache

大數據

接着！！Apache Flink 全领域干货合集

click / 2019-08-22

【重要资讯】《史上超强阵容！大数据及人工智能领域顶级盛会，Flink Forward Asia 2019 不容错过！》《首届！Apache Flink 极客挑战赛强势来袭，重磅奖项等你拿，快来组队报名啦》【入门教程】《Apache Flink 零基础入门（一）：基础概念解析》陈守元、戴资力《Apache Flink 零基础入门（二）：开发环境搭建和应用的配置、部署及运行》沙晟阳（成阳）《Apache Flink 零基础入门（三）：DataStream API 编程》崔星灿、高赟《Apache Flink 零基础入门（四）：客户端操作的

大數據

重庆大学大数据与软件学院阿里云大数据实训总结报告

click / 2019-08-21

重庆大学大数据与软件学院阿里云大数据实训总结报告阿里云大学&慧科集团1.实训背景1）符合重庆市8+3计划：“八项行动计划”着眼长远、突出三年，“三大攻坚战”锁定三年、志在必胜；2）符合国家教育部产教融合大背景；3）阿里云+慧科+重庆市政府战略合作在人才培养方面落地探索的第一步；4）重庆大学作为领头羊，在新专业建设上给兄弟学院的示范和引领效应。2.实训创新和特色在互联网技术不断普及、云计算技术高速发展的背景下，大数据（云计算）+移动互联网技术成为推动企业走向成功的重要因素，然而熟练掌握这两个技术领域的高端人才极为稀缺，因此移动互联网时代的大数据专业人才在未来相当长的时间内，将深受各行各业青睐。本实训项目致力于系统的融合大数据学科的前沿技术、阿里云最先进的云上计算实验资源、海量行业实战经验和权威的课程体系，与学校理论知识融合，采用以学生自主学习为核心教学方式，基于“三实”理念设计实训内容，通过短期集中强化训练，帮助学生深入理解所学专业知识的应用场景及应用技巧，同时有力地掌握相关行业的必备技能。（1）独创的三实教学模式，通过实际场景、实践项目、实战检验，将企业真实操作环境搬入课堂，通过真实实践项目来对知识点进行巩固和加强，将零碎的知识揉合在一起，让学生对知识有一个整体性的认识，最后在有足够技能储备的基础上进行实战检验，通过实战学生不仅对项目中用到技术理解进一步加深，在项目中获得的成长和自我探索的过程也是很宝贵的财富。（2）将知识点融进场景中，体现从易到难，循序渐进的方式推进课程的演进，帮助学习者从无意识无能力的学习状态，逐步提升到无意识有能力的无缝学习状态，培养学生发现问题，提出解决方案的假设，并验证可行性的创新思维模式，再通过交互式的教学指导学生的学习方向，通过线上线下相结合的方式将教学目标和思维提升到更高的层次，为教师提供创新路径，完成人才和教师的双重赋能。（3）依据慧科研究院独创的fast能力矩阵，融入工程教育认证标准毕业要求12条，基于iCome教学设计法以及prefect翻转课堂教学设计理念，并结合重庆大学的学生特点，实现实训效果最大化。3.实训群体重庆大学大数据与软件学院大三学生。 4.实训收益本次实训充分体现了教育部“产教融合，协同育人”的思想，为学校、企业、政府以及学生带来不同程度的收获。（1）通过实训，帮助学校推进协同实践育人新机制，推进科研人员和企业之间双向流动，释放创新活力，通过多措并举，加强师资队伍建设，最终达到强化多方联动，深化校地企合作实现资源共享的目的。（2）通过实训，可加快企业人才储备，将人才培养前置到课堂，让学生在校期间就能感受真实企业生产环境中，毕业入职后，可快速上手，缩短学生和企业间的磨合期，减少企业人力资源成本，达到双赢的局面。（3）通过实训，深化政府、企业、和科研院所合作，发挥人才赋能基地的桥梁和纽带作用，加强政产学研用的深度融合，助力政府战略性新兴产业引智引资。（4）通过实训，增强学生在大数据方向上的动手及分析能力，同时结合传统软件工程专业的知识体系，使学生在掌握传统信息技术的同时，又掌握大数据等相关技术针对不同场景的应用方法。具体包括但不限于：λ 掌握针对不同场景任务的分析方法与开发逻辑；λ 掌握不同场景下，大数据技术的应用方法及技巧；λ 熟悉掌握大数据开发与分析工具的使用方法，并有效地完成相应实训任务；λ 系统的锻炼学生针对不同项目的团队协作能力、沟通能力、逻辑思维、组织能力及实际动手能力等；λ 能够根据企业的业务需求，制定出基于阿里云的数据类产品设计方案及解决方案； λ 能够开通并使用数据类的产品，包括云数据库 RDS、QuickBI、云服务器ECS、大数据计算服务 MaxCompute、大数据开发套件 DataIDE 等。能力模型图5.实训内容实训内容设计采用全新的人才培养模式，致力于培养云计算大数据技术相关应用领域的“高层次、实用型、国际化”的跨界复合型人才。以互联网大产业背景为基础，采用校企联合的模式，部分应用阿里云全新实验室平台，依托雄厚师资，产学研相结合，力求打造适应新形势，具有最前沿思维和技能的云与大数据人才。实训内容课程名称项目概述授课时长使用Quick BI 制作企业数据分析报表内容本课程可以帮助学员掌握图形化报表设计、开发的方法，同时还将掌握搭建企业级报表门户。6学时目标本例中使用阿里云的Quick

大數據

超强攻略！看完拿 Apache Flink 极客挑战赛全场最佳「MVP」

click / 2019-08-21

首届 Apache Flink（以下简称 Flink）极客挑战赛自 7 月 24 日上线以来已有 1000+ 参赛队伍报名。针对极客挑战赛垃圾图片分类与 Flink TPC-DS 性能优化两大赛题涉及的重要知识点及相关工具使用已在每周直播课程中分享，本文将为大家奉上两大赛题超详细攻略，揭秘两大赛题的核心关键。赛题详细解析垃圾图片分类及 Flink TPC-DS 性能优化两大赛题所需用到的数据集、开发或性能优化过程的详细说明等已全部更新在官网，以下对赛题重点内容进行说明。垃圾图片分类赛题说明垃圾图片分类需要参赛选手使用