小科科的春天 – Page 10595 – 生活分享、資訊分享、程式教學與實做教學

独家 | 一文读懂机器学习中的贝叶斯统计学

click / 2019-08-25

作者：Matthew Stewart, PhD Researcher 文章来源：微信公众号数据派THU 翻译：吴金笛校对：丁楠雅 —- 本文主要是向新手介绍贝叶斯方法并将其与频率方法进行比较。你有没有问过自己，以前从未发生过的事件发生的概率是多少？在本文中，我们将深入探讨贝叶斯统计的神秘世界以及它的一些原则，Bernstein-von Mises定理和Cromwell规则，以及用它们分析现实世界的机器学习问题。 “贝叶斯统计之所以困难，是因为思考是困难的” Don Berry 如果你想深入了解贝叶斯统计背后的数学原理，那么这篇文章不是你要找的（尽管未来我将发表关于这个的文章）。本文主要是给刚刚接触这个概念的人介绍贝叶斯方法。想象一下，你正在设计一座核电站。你的任务是使用数据来确定工厂是否正常运转。这看起来似乎是一个相对简单的任务，直到你意识到你实际上没有任何关于核电站发生核泄露时的数据。你怎么能预测这样的事情呢？如果你是一个精明的机器学习专家，你可能会提出某种无监督的方法，如（受限制的）波耳兹曼机，它能够了解“正常”的发电厂是什么样的，从而知道什么时候发生了错误（事实上，这是正人们预测核电厂正常运行情况的一种方式）。然而，如果我们从更广泛的意义上考虑这个问题，当我们没有什么负面例子可以比较时，我们该怎么办？出现这种情况有几个原因： […]

人工智慧

独家 | 脑洞大开！机器学习与AI突破（附链接）

click / 2019-08-25

作者：Jerry Chi（SmartNews数据科学主管）文章来源：微信公众号数据派THU 翻译：和中华校对：丁楠雅 —- 本文介绍了近期在机器学习/人工智能领域一些非常有创意的突破，每一个都脑洞大开，不管是否是相关从业人员都值得一读。本文介绍了一些近期在机器学习和人工智能领域最受欢迎的突破，并附上一些论文、视频链接和简要总结。与其他领域相比，机器学习/人工智能现在发展的非常快，经常有一些有趣的突破。让你不由自主的发出“wow”甚至“人间值得”的感叹！（两分钟论文作者的口头禅）两分钟论文 https://www.youtube.com/channel/UCbfYPyITQ-7l4upoX8nvctg 免责声明：我并没有对“振奋人心”或“突破”进行严格的定义；这只是一个非正式的清单。我会用可能不那么严格的术语来让这篇文章更通俗易懂。从看似不可用的信息中得出惊人的准确估计透过墙对人体姿态做估计麻省理工学院研究人员的网站/视频，2018年 http://rfpose.csail.mit.edu/ 我们可以根据某人对WiFi信号的扰乱，准确地估计此人在墙壁另一侧是如何站着/坐着/走路的。从视频中测量材料的物理特性麻省理工学院研究人员的文章/视频，2015年

人工智慧

为了让网速更快，阿里工程师与顶级数学家有一个大胆猜想

click / 2019-08-25

2008年，当英国数学家Frank Kelly凭借原创性的网络理论拿下运筹优化学的“诺贝尔” — 冯·诺依曼理论奖，可能并不会想到，11年后，他还将亲自参与“重塑”这一心血之作的全过程。邀请他共建新理论的朋友是一群从读博期间就熟读Frank Kelly著作，受其影响的年轻人。同时，他们的另一个身份是阿里巴巴工程师。阿里代表正在SIGCOMM 2019做分享近日，他们提出了双方合作的研究成果HPCC，对高性能网络的拥塞控制这一世界级难题提出了一种全新的算法，同时在世界顶级的学术会议SIGCOMM 2019上发表，这也标志着阿里巴巴在基础研究上又一重大突破。这样的CP结缘于阿里云栖大会数学大赛。年近6旬的Frank Kelly是全球知名的数学家，曾因成功通过经济学理论建模和解释了互联网技术中最基础的传输协议TCP（Transportation Control Protocol）拥塞控制而声名大噪：他用经济学理论对TCP的收敛性和公平性做出分析，从理论上论证了TCP在互联网环境下的稳定性和有效性。而在当时，张铭（现为阿里云智能研究员）正在普林斯顿大学的攻读博士，Kelly教授的著作正是他常读的经典论文之一，其中不少观点对张铭日后的网络研究大有启发。 Frank Kelly与阿里HPCC相关论文作者合影随着云计算的迅猛发展，面向大规模数据中心的高性能网络架构正成为主流，FrankKelly教授当年所论证的TCP拥塞控制在新一代高性能网络中面临严峻挑战，这也正是当下数据中心网络里面临的核心难题之一。 2018年9月，Frank Kelly受邀到杭州参加阿里数学大赛开幕仪式，在与张铭所属的阿里基础设施网络团队交流中，了解到目前高速网络拥塞控制遇到的挑战。 Frank

人工智慧

《视觉SLAM十四讲：从理论到实践》| 每日读本书

click / 2019-08-25

编辑推荐适读人群：本书适合对SLAM感兴趣的读者阅读，也适合有志于从事计算机视觉、机器人研究等领域的广大学生阅读，可作为SLAM技术的入门教材。 SLAM技术是全自动无人驾驶、无人机、机器人等人工智能产品的核心技术之一。本书作者是SLAM领域非常杰出的青年专家。书中不仅有深入浅出的讲解，同时注重理论和实践结合，大大降低了国内学生和相关从业者的进入门槛。高翔张涛等著 / 2017年3月出版内容提要《视觉SLAM十四讲：从理论到实践》系统介绍了视觉SLAM（同时定位与地图构建）所需的基本知识与核心算法，既包括数学理论基础，如三维空间的刚体运动、非线性优化，又包括计算机视觉的算法实现，例如多视图几何、回环检测等。此外，还提供了大量的实例代码供读者学习研究，从而更深入地掌握这些内容。《视觉SLAM十四讲：从理论到实践》可以作为对SLAM 感兴趣的研究人员的入门自学材料，也可以作为SLAM 相关的高校本科生或研究生课程教材使用。作者简介高翔 2008年就读清华大学自动化系，2012年免试进入清华大学自动化系攻读博士学位。研究课题为视觉SLAM，兴趣包括计算机视觉与机器学习。曾撰写过与SLAM相关的论文和技术博客。张涛清华大学自动化系教授、党委书记、副系主任。1995年9月至1999年9月在清华大学自动化系检测技术与自动化装置专业学习，获博士学位。1999年10月至2002年9月在日本国立佐贺大学大学院工学系研究科系统控制专业学习，获博士学位。研究课题包括机器人、航空航天、计算机视觉等。

人工智慧

2019云栖大会支付宝硬核技术来了

click / 2019-08-25

9 月 25 日，一年一度的杭州云栖大会即将来临，蚂蚁金服将把珍藏多时的秘密技术武器首次向大众公开，在开设的数字金融技术和金融智能分论坛，以及其它技术论坛里，将首次完整介绍金融级云原生理念、共享智能、融合计算、安全计算、图计算等前沿技术，以及这些技术在金融领域的应用实践。下面介绍一些重点的议题，欢迎关注。金融级云原生:面向未来的金融技术架构最佳实践从去年开始，云原生、Kubernetes、容器这些关键字逐渐从社区走向金融科技圈，越来越多的金融机构开始学习了解，云原生技术是什么，能够给企业带来什么价值，对现有业务有什么影响？落地的路径可能会是哪些？云原生不但可以很好的支持互联网应用，也在深刻影响着新的计算架构、新的智能数据应用。以容器、服务网格、微服务、Serverless 为代表的云原生技术，带来一种全新的方式来构建应用。此外，云原生也在拓展云计算的边界，一方面是多云、混合云推动无边界云计算，一方面云边端的协同。云原生时代，也是云厂商更好发挥作用、为客户提供更多价值的时代。本次云栖大会上我们会首次分享金融级云原生的架构全景图，以及基于它的金融级混合云到底该如何做。安全计算:构建软硬件全链路的纵深防御蚂蚁赖以立足的互联网金融，本质上是对大量敏感数据的处理以及由此沉淀的作为蚂蚁核心资产的关键业务智能。近年来涌现出来的新业态更是将数据处理的范畴从单方数据扩展到了涉及蚂蚁和合作方的多方数据。另一方面，从 GDPR 到 HIPPA，数据隐私监管保护的范围愈加扩大，力度日益增强。可见，对蚂蚁金融数据和关键业务智能的安全保护，不仅是蚂蚁核心业务的基础，也是蚂蚁创新发展的依托，更是攸关公司合规存亡的关键因素。蚂蚁安全计算，以可信硬件和创新隔离技术为基础，构造从主机安全，到容器安全，再到关键业务保密安全的全链路、纵深式、集群化安全计算环境，为达成 102 年的小微金融服务使命保驾护航。共享智能首次公开:如何破解数据孤岛随着人工智能兴起，数据的质量和数量已成为影响机器学习模型效果最重要的因素之一，但在数据共享的过程中不可避免会涉及到两个问题：隐私泄露和数据滥用。蚂蚁共享智能技术，基于可信硬件执行环境及安全多方学习等技术，能够聚合多方信息进行学习，并保护参与方的数据隐私，已在蚂蚁多个业务场景中应用。更多技术细节可查看我们之前的介绍文章《共享智能：蚂蚁金服数据孤岛解决方案》。随着全球数据隐私保护关注度上升，数据孤岛将是所有利用大数据和 AI

人工智慧

使用SAP Cloud Platform Leonardo机器学习的测试控制台

click / 2019-08-25

选中一个需要进行测试的Leonardo机器学习服务，点击Configure Environments：因为我不想使用sandbox环境，所以我选择了eu10这个region：维护clientid和secret：在SAP Cloud Platform cockpit里创建了service key后，会得到这个client id和secret。要消费机器学习api，先要获得Access Token：把postman里得到的Access Token填到API测试控制台的Authorization字段里，执行，就能提取到图片的feature了。本文来自云栖社区合作伙伴“汪子熙”，了解相关信息可以关注微信公众号”汪子熙”。

大數據

独家 | 手把手教你创建聊天机器人来协助网络运营（附代码）

click / 2019-08-25

作者：Melisha Dsouza 文章来源：微信公众号数据派THU 翻译：吴金笛校对：国相洁本文约3000字，建议阅读10+分钟。本文是创建聊天机器人实现网络运营的简单教程。在本教程中，我们将了解如何利用聊天机器人来协助网络运营。随着我们向智能化运营迈进，另一个需要关注的领域是移动性。用一个脚本来进行配置，修复甚至故障检修是很好的，但它仍然需要有人在场来监督，启动甚至执行这些程序或脚本。 Nokia’s MIKA 是一个很好的聊天机器人例子，操作人员可以用它来进行网络故障排除和修复。根据 Nokia’s blog，MIKA会根据此单个网络的实际情况给出一个警报优先级信息，并将当前的情况与该网络和其他网络过去事件的整个服务历史进行比较，以确定当前问题的最佳解决方案。 Nokia’s MIKA https://networks.nokia.com/services/digital-assistant-as-a-service Nokia’s blog https://www.nokia.com/blog/chatting-bots-home-work

大數據

独家 | 从全方位为你比较3种数据科学工具的比较：Python、R和SAS（附链接）

click / 2019-08-25

翻译：张玲校对：吴金笛本文约3000字，建议阅读5分钟。关于三种数据科学工具Python、R和SAS，本文从8个角度进行比较分析并在文末提供记分卡，以便你随时调整权重，快速做出选择。简介我们喜欢比较！从比较三星、苹果、HTC的智能手机，iOS、Android、Windows的移动操作系统到比较即将选举的选举候选人，或者选择世界杯队长，比较和讨论丰富了我们的生活。如果你喜欢讨论，你所要的就是在一个充满激情的群体中抛出一个相关问题，然后看着它爆炸式地发展！这个过程的美妙之处在于，社区里的每个人都是一个知识渊博的人。我在这里也引发类似的讨论，比较SAS、R和Python。SAS和R孰好孰坏可能是数据科学领域的最大争论，而Python是目前发展最快的语言之一，自其诞生以来，已经走过很长的路。我开始这个讨论的原因并不是想看它爆炸（不过那也很有趣），而是知道我们都会从讨论中受益。这也是我在这个博客上最常见的问题之一，所以我会和所有的读者、访客一起讨论这个问题。 SAS https://www.analyticsvidhya.com/learning-paths-data-science-business-analytics-business-intelligence-big-data/learning-path-business-analyst-sas/ R https://www.analyticsvidhya.com/learning-paths-data-science-business-analytics-business-intelligence-big-data/learning-path-r-data-science/ 数据科学领域 https://courses.analyticsvidhya.com/courses/introduction-to-data-science-2?utm_source=blog&utm_medium=PythonvRvSASarticle Python https://www.analyticsvidhya.com/learning-paths-data-science-business-analytics-business-intelligence-big-data/learning-path-data-science-Python/ 关于这个话题不是已经说了很多了吗？可能是的，但我仍然觉得有必要谈论，原因如下：数据科学行业是一个充满活力的行业，两年前进行的任何比较都有可能和数据科学不再相关。

大數據

独家 | 用于数据清理的顶级R包（附资源）

click / 2019-08-25

作者：Anna Kayfitz，CEO of StrategicDB Corp 文章来源：微信公众号数据派THU 翻译：顾宇华校对：杨光 —- 确保数据干净整洁应该始终是数据科学工作流程中首要也是最重要的部分。数据清理是数据科学家最重要和最耗时的任务之一。以下是用于数据清理的顶级R包。每天有数百万或数十亿的数据元素进入您的企业，其中不可避免的存在一些缺乏建立高效业务模型的必要质量的数据元素。然而，确保数据干净整洁应该始终是数据科学工作流程中首要也是最重要的部分。因为没有它，您将很难看到重要的内容，并可能由于数据重复，数据异常或缺少信息等原因做出错误的决策。 R，作为一种能够应用于统计计算和图形的开源语言，是最常用和最强大的数据编程工具之一。R提供了创建数据科学项目所需的所有工具，但是不管利用任何一种工具，它只能做到提供它接受到的数据相等同的信息。但是拥有了这些工具，R环境中有许多库可以在任何项目开始之前进行数据处理和操作。探索数据大多数您已经导入的用于探索数据系列的工具已存在于R平台中。摘要（数据）这个方便的命令只是概述了所有数据属性，显示了每个属性的最小值，最大值，中值，平均值和类别拆分。这是一种快速发现任何潜在数据异常的好方法。接下来，您可以使用直方图来更好地理解数据的分布。这将可视化显示数据集或您特别希望观察的任何数字列中的任何异常值。 plyr包

大數據

教程 | 一文读懂自学机器学习的误区和陷阱（附学习资料）

click / 2019-08-25

来源：机器学习与统计学文章来源：微信公众号数据派THU 本文为你指出一些自学的误区，推荐学习资料，提供客观可行的学习表并给出进阶学习的建议。 0. 背景写这篇教程的初衷是很多朋友都想了解如何入门/转行机器学习，搭上人工智能这列二十一世纪的快车。文章的宗旨是：1. 指出一些自学的误区 2. 不过多的推荐资料 3. 提供客观可行的学习表 4. 给出进阶学习的建议。这篇文章的目标读者是计划零基础自学的朋友，对数学/统计/编程基础要求不高，比如：在读学生非计算机行业的读者已经工作但想将机器学习/数据分析和自己的本职工作相结合的朋友因此，这篇文章对于已经身处机器学习领域的人士可能帮助不大。请大家有选择的性阅读，探索适合自己的学习方法。 1.