大數據 – Page 161 – 小科科的春天

带你读《数据挖掘导论（原书第2版）》之三：分类：基本概念和技术

click / 2019-11-18

点击查看第一章点击查看第二章第3章分类：基本概念和技术人类具有分类事物的天赋，例如过滤垃圾邮件信息之类的日常任务，或者在望远镜图像中识别天体这类更为特殊的任务（参见图3.1）。虽然对于只有少数几个属性的小而简单的数据集，通常通过手动分类就足以解决，但对更大和更复杂的数据集，仍然需要自动化解决方案。本章介绍了分类的基本概念，并描述了其中的一些关键问题，如模型过拟合、模型选择和模型评估等。虽然使用到了称为决策树归纳的分类技术来说明这些主题，但本章中的大部分内容也适用于其他分类技术，第4章会进行介绍。 3.1　基本概念图3.2显示了分类的总体思路。分类任务的数据由一组实例（记录）组成。每个这样的实例都以元组（x，y）为特征，其中x是描述实例的属性值集合，y是实例的类别标签。属性集x可以包含任何类型的属性，而类别标签y必须是可分类的。分类模型（classification model）是属性集和类别标签之间关系的抽象表示。正如在接下来的两章中将会看到的那样，该模型可以用许多方式来表示，例如树、概率表，或简单地用一个实值参数的向量表示。形式上，我们可以在数学表达上把它作为一个目标函数f，它将输入属性集x并产生一个对应于预测类别标签的输出。说明如果f（x)=y，则该模型可正确地对实例（x，y）进行分类。表3.1显示了分类任务的属性集和类别标签的各种例子。垃圾邮件过滤和肿瘤鉴定是二分类问题的例子，其中每个数据实例可以分为两类之一。如果类的数量大于2，如在星系分类示例中那样，那么它被称为多分类问题。我们用以下两个例子来说明分类的基本概念。例3.1 脊椎动物分类　表3.2显示了将脊椎动物分为哺乳动物、爬行动物、鸟类、鱼类和两栖动物的样本数据集。属性集包括脊椎动物的特征，如体温、表皮覆盖和飞行能力。该数据集也可用于二分类任务，如哺乳动物分类，可将爬行动物、鸟类、鱼类和两栖类分为一类，称为非哺乳动物。例3.2 贷款借款人分类　预测贷款人是否可以偿还贷款或拖欠贷款的问题。表3.3展示了用于建立分类模型的数据集。属性集包括借款人的个人信息，如婚姻状况和年收入，而类别标签则表明借款人是否拖欠了贷款。分类模型在数据挖掘中担当两个重要角色。首先，它被用作预测模型（predictive model）来对先前未标记的实例进行分类。一个好的分类模型必须以快速的响应时间提供准确的预测。其次，它作为一个描述性模型（descriptive model）来识别区分不同类别实例的特征。这对于诸如医疗诊断的关键应用特别有用，因为如果无法证明如何做出这样的决定，就称不上是一个预测模型。例如，由表3.2所示的脊椎动物数据集显示的分类模型可用于预测以下脊椎动物的类别标签：此外，它可以用作描述性模型来帮助确定将脊椎动物定义为哺乳动物、爬行动物、鸟类、鱼类或两栖动物的特征。例如，该模型可能会将生育后代的哺乳动物确定为恒温脊椎动物。关于前面的例子有几点值得注意。首先，虽然表3.2中显示的所有属性都是定性的，但对于可用作预测变量的属性类型没有限制。另一方面，类别标签必须是标称类型。这将分类与其他预测建模任务（如回归）区分开来，其中预测值通常是定量的。有关回归的更多信息可以在附录D中找到。另一点值得注意的是，可能并非所有属性都与分类任务相关。例如，脊椎动物的平均长度或重量可能不适用于哺乳动物分类，116因为这些属性对于哺乳动物和非哺乳动物都可以体现相同的值。这种属性通常在预处理期间被丢弃。其余属性可能无法自行分类，因此必须与其他属性一起使用。例如，体温属性不足以区分哺乳动物和其他脊椎动物。当它与“胎生”一起使用时，哺乳动物的分类显著改善。但是，如果包含附加属性（例如表皮覆盖），则该模型变得过于具体，并且不再涵盖所有哺乳动物。寻找区分不同类别实例的最佳属性组合是构建最优分类模型的关键挑战。 3.2　一般的分类框架分类是将标签分配给未标记数据实例的任务，分类器用于执行此类任务。分类器（classifier）通常按照上一节所述的模型进行描述。该模型是使用给定的一组实例创建的，这组实例称为训练集（training set），其中包含每个实例的属性值以及类别标签。学习给定训练集分类模型的系统化方法称为学习算法（learning […]

大數據

Aliyun Serverless VSCode Extension v1.16.0 发布

click / 2019-11-17

Aliyun Serverless VSCode Extension 是阿里云 Serverless 产品函数计算 Function Compute 的 VSCode 插件，该插件结合了函数计算 Fun 工具以及函数计算 SDK ，是一款 VSCode 图形化开发调试函数计算以及操作函数计算资源的工具。通过该插件，用户可以：

大數據

带你读《SAFe 4.5参考指南：面向精益企业的规模化敏捷框架》之一：SAFe基础

click / 2019-11-15

敏捷开发技术丛书点击查看第二章点击查看第三章SAFe 4.5参考指南：面向精益企业的规模化敏捷框架 SAFe 4.5 Reference Guide: Scaled Agile Framework for Lean Enterprises，Second Edition ［美］迪恩·莱芬韦尔（Dean Leffingwell）等著李建昊　陆媛　译第1章 SAFe基础 1.1　精益 – 敏捷领导者

大數據

带你读《Python网络编程（原书第2版）》之三：API和意图驱动网络

click / 2019-11-15

点击查看第一章点击查看第二章第3章 API和意图驱动网络在第2章中，我们研究了使用Pexpect和Paramiko的网络设备进行交互的方式。这两个工具都使用持久会话模拟用户输入命令，就好像他们自己坐在终端前面一样。在某种程度上这起了很大的作用。因此，这使得在设备上执行发出的命令和捕获输出变得足够简单。然而，当输出超过数行字符时，使用计算机程序来解释输出就变得困难了。Pexpect和Paramiko的返回输出是一系列旨在被人类阅读的字符。输出的结构由行和空白组成，这些行和空白对人类是友好的但很难被计算机程序理解。为了使我们的计算机程序能够自动执行我们想要执行的许多任务，我们需要解释返回的结果并根据返回的结果进行后续操作。当我们无法准确且可预测地解释返回的结果时，我们无法自信地执行下一个命令。幸运的是，这个问题已经被互联网社区解决了。想象一下计算机和人类在他们同时阅读一个网页时的区别。人类看到的是浏览器解释的文字、图片和空白；计算机可以看到原始HTML代码、Unicode字符和二进制文件。当网站需要成为另一台计算机的Web服务时会发生什么？相同的Web资源需要适应人类客户和其他计算机程序。这个问题听起来不像我们之前介绍过的吗？答案就是应用程序接口（API）。值得注意的是，根据维基百科，API是一个概念，而不是特定的技术或框架。在计算机编程中，应用程序编程接口（API）是一组用于构建应用程序软件的子例程定义、协议和工具。一般而言，它是一组定义明确的用于不同软件组件间通信的方法。一个好的API可以通过提供所有构建块来更容易地开发计算机程序，然后由程序员将它们组合在一起。在我们的用例中，一组明确定义的通信方法将在我们的Python程序和目标设备之间。网络设备的API为计算机程序提供单独的接口。确切的API实现是特定于供应商的。一个供应商可能更喜欢基于JSON的XML，一些可能提供HTTPS作为底层传输协议，而另一些供应商可能提供Python库作为包装器。尽管存在差异，但API的概念仍然相同：它是针对其他计算机程序优化的独立通信方法。在本章中，我们将会看到下面几个主题：将基础设施视作代码、意图驱动网络和数据建模。 Cisco NX-API和以应用程序为中心的基础设施。 Juniper NETCONF和PyEZ。 Arista eAPI和PyEAPI。 3.1　基础设施作为代码在一个完美的世界中，设计和管理网络的网络工程师和架构师应该专注于他们希望网络实现的目标，而不是设备级别的交互。在我作为本地ISP实习生的第一份工作中，我的第一个任务是在客户的网站上安装路由器以打开他们的部分帧中继链路（还记得吗？）。我该怎么办？我问。接着我接到了一个标准的操作程序，用于打开帧中继链路。我去了客户现场，盲目地输入了命令，看着绿灯闪烁，然后高高兴兴地收拾好行李，拍了拍自己的背部，做得很好。和第一次任务一样令人兴奋的是，我并不完全理解我在做什么。我只是按照说明而不考虑我输入的命令的含义。如果灯是红色而不是绿色，我将如何排除故障呢？我想我会打电话给办公室求救。当然，网络工程不是要在设备中输入命令，而是建立一种方法，允许服务以尽可能少的摩擦从一个点传递到另一个点。我们必须使用的命令和我们必须解释的输出仅仅意味着结束。换句话说，我们应该关注我们对网络的意图。我们希望网络实现的目标远比用来使设备完成我们希望它做的事情的命令语法更重要。如果我们进一步提取将我们的意图描述为代码行的想法，我们可以将整个基础设施描述为特定状态。在使用必要的软件或框架来强制执行该状态的情况下，以代码来描述基础结构。 3.1.1　意图驱动网络自本书第1版出版以来，在主要网络供应商选用基于意图的网络这一术语来描述下一代设备之后，该术语的使用量有所增加。在我看来，意图驱动网络是定义一种状态的方法并且网络应该拥有软件代码来强制执行该状态。例如，如果我的目标是阻止外界访问80端口，那就是我应该如何将其声明为网络的意图。底层软件将负责了解在边界路由器上配置和应用必要的访问列表的语法，以实现该目标。当然，意图驱动网络是一个没有明确答案的想法。但是这个想法很简单明了，我认为应该把重点放在网络的意图上，并从设备级的交互中抽象出来。在使用API时，我认为它使我们更接近意图驱动网络的状态。简而言之，因为我们对在目标设备上执行的特定命令的层进行抽象，我们专注于我们的意图而不是特定的命令。例如，回到我们的block port 80访问列表示例，我们可能在Cisco上使用访问列表和访问组，在Juniper上使用过滤器列表。但是，在使用API时，我们的程序可以开始询问执行程序的意图，同时屏蔽它们正在与之交谈的物理设备类型。我们甚至可以使用更高级别的声明性框架，例如Ansible，我们将在第4章中介绍。但就目前而言，让我们专注于网络API。 3.1.2　屏幕抓取与API结构化输出假设有一个常见的场景，我们需要登录到网络设备，并确保设备上的所有接口都处于up/up状态（状态和协议都显示为up）。对于进入Cisco NX-OS设备的人工网络工程师来说，在终端上发出show IP

大數據

带你读《SAFe 4.5参考指南：面向精益企业的规模化敏捷框架》之三：SAFe原则

click / 2019-11-15

点击查看第一章点击查看第二章第3章 SAFe原则 3.1　原则＃ 1——采取经济视角你可能会忽略经济，但经济不会忽略你。—— Donald Reinertsen，《产品开发流的原则》摘要精益的目标是在最短的可持续前置时间内，为人类和社会提供最佳的质量和最优的价值。为了实现这个目标，需要对经济效益有基本的了解。如果没有这样的认识，即使是一个技术成熟的系统也可能需要很高的研发成本、很长的交付时间，或者由于生产和运营成本太高以至于无法在经济上支持有效的价值。为此，整个产业链中的领导者、管理层和知识工作者就必须完全了解他们所做出决策的经济影响。传统的观点是，只有那些了解业务、市场和客户经济情况的决策者和当局者，才有必要了解这些活动与经济之间的关系。然而，如果这些对经济相关的理解只是集中在领导者那里，就会造成基层员工在处理日常工作问题时要么缺乏相关信息，要么将问题升级到掌握信息的管理层。其中第一个选择会直接破坏经济成果，而第二个选择会导致延迟价值交付，这都会带来不好的影响。详述SAFe十分强调经济效益在成功的解决方案开发过程中所发挥的重要作用。因此，SAFe的第一个精益-敏捷原则就是采取经济视角。之所以是排名首位的原则，是因为如果不能满足客户或解决方案提供者的经济目标，那么解决方案能否长期存在就令人怀疑了。解决方案失败的原因有很多，其中不能满足经济要求是一个主要的原因。本章介绍了通过精益-敏捷方法达到优化经济成果所需的两个基本方面：尽早和经常交付理解每一个项目群和价值流的经济平衡参数这两个方面在下文中都有概述。此外，SAFe将这些原则在各种实践中进行了实例化，例如 7.5 节所阐述的主题。尽早和经常交付一般来说，企业决定拥抱精益-敏捷开发，是由于当前流程不能满足生产的需要，或者是他们认为当前流程将来会被取代。在选择精益-敏捷的道路上，通常选择基于增量式的模型，尽早和持续交付价值，如图3.1-1所示。这样的决策将会带来显著的，或许是最基础的经济效益，如图3.1-2所示。图3.1-2展示了精益-敏捷方法在这种流程中可以尽早地给客户交付价值。而且，这些价值随着时间不断累积，客户持有时间越久，得到的价值就越大。相比之下，在瀑布模型中，价值只能按照计划在开发周期结束时得到交付。这种差异也展示了使用SAFe的经济效益。此外，该图并没有考虑尽快得到解决方案相关反馈的好处；同时也忽略了瀑布交付模式最终可能无法按时交付，或是无法证明可用性。而且，还有第3个也是最后一个因素，如图3.1-3所示。图3.1-3展示了一个关键的差异化优势：只要质量满足要求，产品和服务越早投入市场，价值就越高。毕竟，如果能早于竞争对手提供相应产品，客户无法从其他厂商那里获得产品和服务，就愿意花更多的钱来购买。随着时间的推移，产品就会趋于同质化和陷入价格战，也就没有了价值差异化，这就是产品发展规律。这就意味着即使是在早期提供给客户最小可行产品（MVP），也比在后期提供全面的功能更有价值。所以产生的净效应是累积总利润会更高。这是精益-敏捷开发的基本前提——它固化在精益-敏捷理念中，更是在最短的可持续前置时间内完成解决方案开发的驱动力量。理解经济平衡的参数此前讨论的基本原理是采用更有效的经济模型来更快速交付的驱动力。然而，在执行项目群时仍然有很多工作要做。毕竟，解决方案生命周期中的经济决策也将最终决定交付的成果。因此，有必要更深入地讨论多种经济参数的平衡。Reinertsen（参考资料 [1]）描述了五种基本因素，可以用于站在经济角度评估特定的投资情况，如图3.1-4所示。对于五种参数的解释如下：开发费用：为了实现某种能力所需要的人力和物料成本。周期时间：为了实现某种能力的时间产品成本：（销售商品的）制造成本和/或部署及运营的成本

大數據

开放下载！ | 《智能时代的传媒变革与发展》

click / 2019-11-15

点击下载《智能时代的传媒变革与发展》摘要：中国的数字电视用户从345万到1.88亿的增长，共用了10年时间；而直播平台用户从0到1.5亿，只用了2年。移动互联网的发展红利还未褪去，大数据、AI、VR、AR等新技术又在传媒领域颠覆行业的基本认知。今天的传媒行业，颠覆传统模式的不是内部的竞争，而是外部的挑战。当所有人都在一步步进入数字化和精细解析的社会，基于数据的解构准确感知消费者的内容精神需求，大幅优化企业内容生产、供给、运营和消费流程，实现基于真实消费者心理需求的柔性内容生产和柔性供给，就成为了传媒行业数字智能化变革的核心。文章导读传媒行业在近10年内发生了过去50年都未曾有过的密集变化，不管是交互模式的变化、受众人群的变化还是商业模式的变化都对行业带来巨量冲击。中国的数字电视用户从345万到1.88亿的增长，共用了10年时间；而直播平台用户从0到1.5亿，只用了2年。互联网新媒体的野蛮生长给老派传媒行业留下的不仅仅是烙印，更是切肤之痛。从长视频到短视频，内容生产门槛迅速降低；从电视台广播到点播再到互联网用户直播，实时、互动带来全新体验和参与方式；从电视/PC 到PAD/手机，便捷性进一步提升，今天智能手机已经成为人体外器官如影随形。就在移动互联网的发展红利还未褪去，传媒行业刚刚适应的时候，大数据、AI、VR、AR等新技术又在传媒领域颠覆行业的基本认知。大浪淘沙沉者为金，在新媒体无序生长、传统媒体逐渐融合的时代背景下，对前沿科技和新兴网络力量的消化和吸收成为了传媒行业的共性选择。但我们总要回答时代的问题：传媒行业今天遭遇的挑战是什么？产业边界到底在哪里？解决之道是什么？这正是白皮书需要探索的答案。不可否认的是，现今包括广播电视台和有线网络在内的各传媒公司既面临行业高频变化的挑战，也同样面临数字化变革的机遇。在这个变化和不确定性成为常态的时代里，没有一种竞争力是永恒的，更没有一种商业模式可以长存。不确定环境下，“确定”唯一真实可靠的来源是消费者，消费者成为组织成员间唯一的价值聚合点。而技术作为一种“艺术”语言，能够高效集合产业链各个环节从而成为“大系统”。整个传媒内容行业的发展正在见证采、编、播、存、发这几大门槛的一步步降低，也正在经历新技术、新业态对组织的穿透和重构。在合作的要求下，相同领域甚至不同领域的组织将不再是竞争对手，而转变为荣辱与共的生态共同体。阿里云研究中心重磅报告让你先人一步看清行业数字化转型的新路径新增量数字经济时代，各个行业都面临着巨大的挑战和机遇，如何用新科技来发现和驱动新的商业场景和业务增量。阿里云研究中心，致力于“用科技探索‘新商业’边界”。研究领域既涵盖云计算、人工智能、区块链、大数据、物联网、量子计算等前沿科技的演变趋势及产业应用，更进一步积极探索在前沿科技的推动下，新零售、新制造、新能源、新金融等产业数字化转型的方法论和路径。经过大量的案例调研和深度研究，阿里云研究中心完成了零售、数字政务和城市治理、制造、金融、传媒、教育等多个行业数字化转型路径和方法论的思考和沉淀。在此基础上，通过扎实的workshop微咨询服务等产品形态，阿里云研究中心已经成为很多企业数字化转型的“战略顾问”。开发者社区整理

大數據

独家下载 |《大数据工程师必读手册》揭秘阿里如何玩转大数据

click / 2019-11-15

点击免费下载《大数据工程师必读手册》十年磨一剑，今天的飞天大数据平台是阿里巴巴10年大数据平台建设最佳实践的结晶，是阿里经济体大数据生产的基石。飞天大数据平台承载了阿里经济体 99% 的数据业务构建，同时广泛应用于城市大脑、数字政府、电力、金融、新零售、智能制造、智慧农业等各领域的大数据建设。阿里巴巴如何玩转大数据？十位阿里巴巴大数据专家深度分析，飞天大数据平台八款产品最新玩法，2019不容错过的大数据手册——《大数据工程师必读手册》现在可以免费下载阅读啦，赶紧先睹为快吧。从“阿里巴巴飞天大数据平台计算引擎 MaxCompute最新特性”到“阿里巴巴飞天大数据平台智能推荐AIRec最新特性”，来自阿里云智能计算平台事业部的研究员和产品专家们深度分析飞天大数据平台八款核心产品最新玩法。随着产品的迭代，其本身不断地在增加新的功能和特性。《大数据工程师必读手册》分享了8个产品版本中的最新特性，产品具备的特色功能和各个功能点所适应的场景等，帮助用户更好地解决所面临的问题。目录随着社会未来向智能化的逐渐发展，大数据相关技术在一些传统领域的应用将越来越广泛。当然，现阶段大数据产业发展也存在着各种各样的状况。但是，大数据代表了未来发展的方向，这是当今社会的共识，大数据发展已经进入了最好的时代。积跬步以至千里。每天读本书，《大数据工程师必读手册》会给您新的灵感。阿里云开发者社区整理

大數據

交互式分析云栖号开通了？！赶紧关注起来！

click / 2019-11-15

为了更好的服务于交互式分析的用户，今天，交互式分析团队正式申请开通了交互式分析专属云栖号，之后这个云栖号将会专注于分享产品的最新信息，包括但不限于产品咨询、产品技术、直播、使用教程、FAQ等，只要你想要的，我们就能提供，大家赶紧关注起来吧！公众号传送门：阿里云交互式分析交互式分析作为阿里云新一代的实时交互式开发平台，致力于提供低成本、高性能、高可用的大规模计算型存储和极致的查询能力，与大数据生态无缝打通，支持对PB级数据进行高并发、低延时的分析处理，让您轻松而经济地使用现有BI工具对数据进行多维分析透视和业务探索，实现海量实时数据的交互查询。交互式分析核心价值极致性能支持行式与列式两种存储模式，同时满足简单查询、复杂查询、ad-hoc查询等多样化的分析查询需求。使用大规模并行处理架构，分布式处理SQL，C++ Native执行，实现高资源利用率，实现海量数据亚秒级查询。云原生存储计算分离架构，流批统一存储架构。支持高并发实时写入与更新，数据写入即可查。无缝对接MaxCompute，无需移动数据，直接交互式分析，既可以单独查询MaxCompute，也可以与实时数据结合进行联合计算满足用户冷热数据联合分析诉求。简单易用兼容PostgreSQL生态，能直接对接常用开发工具（psql客户端、JDBC等）和BI分析工具（Tableau、Quick BI等），轻松实现数据的开发与可视化分析。与大数据计算引擎及大数据智能研发平台DataWorks无缝打通，支持对接数据调度、生成数据服务API等，同时满足不同的即席开发需求。系统架构典型应用场景交互式分析在阿里巴巴集团内经过3年时间的探索与沉淀，典型的应用场景可以概括为四大类：实时大屏，无论是离线数仓数据，还是实时写入交互式分析的数据，均可直接对接大屏实时输出。实时BI报表，交互式分析的简单查询、复杂查询能力，为多维分析探查提供了完美的支撑。用户画像，交互式分析广泛应用于标签系统、用户画像、实时推荐、实时用户运营等场景。监控预警，交互式分析的高性能查询能力，在监控预警领域也进行了典型的输出。往期博客传送门：产品介绍：开发大数据的正确姿势–交互式分析基于交互式分析搭建的典型应用场景产品学习：5分钟学会交互式分析？！什么？你还不会使用DataWorks调度？在吗？0代码加速查询MaxCompute请查收！

大數據

带你读《Greenplum：从大数据战略到实现》之三：数据处理平台的演进

click / 2019-11-14

点击查看第一章点击查看第二章第3章数据处理平台的演进在上一章中，我们回顾了云原生应用的数字化战略，进而提出大数据和机器学习是未来企业构筑竞争优势和壁垒的高地，最后从人才和技术角度介绍如何建立合适的数据平台。本章将着重介绍数据处理平台的发展历程，根据其演进的内在动力、外在环境和当前趋势，提出集成数据处理和分析平台是未来发展的方向。最后从技术层面介绍大数据平台选型时需要考虑的因素。 3.1　前数据处理时代 Data（数据）一词最早出现于17世纪40年代，而使用“数据”表示“可传输和可存储的计算机信息”始于1946年。Data Processing（数据处理）一词的使用则始于1954年前后，泛指收集和处理数据以生成有意义的信息。在“数据处理”一词出现之前，数据处理任务和行为一直存在，这可追溯到上古时期的结绳记事。之后常用的数据处理工具是算盘，基于算盘发展而来的珠心算至今仍深受国人喜爱。人工数据处理持续使用了数千年。19世纪末，人们开始使用称为单元记录设备（Unit Record Equipment）、电算机（Electric Accounting Machine）或制表机（Tabulating Machines）的机电设备进行自动数据处理。由于可以较快速地处理一些复杂的数据处理任务，因此这类设备在政府和企业中变得非常流行。但整个数据处理流程需要精心策划，以便各种单元记录设备可以正确处理表示各种信息的打孔卡片。这些机器每分钟可以处理100～2000个打孔卡。打孔卡是一块纸板，通过在固定的位置打孔或者不打孔来表示数据。在磁带出现之前，它是一种非常流行的存储器，现在很多学校使用的答题卡就是基于类似原理。人类曾经发明过很多存储数据的介质，包括上古用于计数的绳子、壁画、甲骨、碑刻、竹简、帛书及后来的纸。然而，这些数据或信息只有人类可以识别。工业革命时期，人们发明了可以控制机器的丝织机，同样的原理后来用于自动钢琴演奏。这些机器可以解读存储在介质上的指令。19世纪80年代，霍尔瑞斯发明了打孔卡，这是一种可以被机器解读的存储数据而非指令的介质。他还发明了键控穿孔机、分拣机和制表机等单元记录机器，这些发明奠定了自动数据处理行业的基础。霍尔瑞斯发明的方法被用于1890年的美国人口普查。1896年，他创建了制表机公司（TMC），后来该公司和其他三家公司合并组建了计算制表记录公司。1924年，计算制表记录公司改名为国际商业机器公司（IBM）。IBM是当时最大的单元记录设备供应商，因此这种打孔卡又称为IBM卡，因其发明者为霍尔瑞斯，也被称为霍尔瑞斯式卡。图3-1显示了80列、矩形孔的IBM打孔卡片。自动数据处理大大提高了效率，并节约了成本。1880年的美国人口普查数据的统计工作耗时7、8年之久，使用了自动数据处理设备之后，仅用时不到2年（统计制表工作用时不到2个月，后进行了大量的验证工作）就完成了1890年的人口普查数据的统计工作。尽管工作量是之前的2倍，但成本却节省了大约500万美元。同时期比较流行的其他设备还有打字机、加法机和收银机等。雷明顿（Remington）公司自1873年开始就是主要的打字机制造商，推出了第一台量产打字机和QWERTY键盘。1894年，国家收银公司（NCR）公司发明了电动收银机，1922年销售了200万台。1925年，底特律的伯劳斯公司推出一款便携加法机。到了20世纪20年代，大多数公司装备了雷明顿的打字机、伯劳斯的加法机、IBM的制表机、NCR的收银机。其主要客户包括政府、保险公司和铁路公司等。电子计算机出现之后，代替了多个独立的单元记录设备，数据处理进入电子数据处理（Electric Data Processing，EDP）时代。美国人口普查局于20世纪50年代首次使用电子计算机进行人口普查工作，当时使用的是UNIVAC I系统。若非特殊说明，之后内容中提到的“数据处理”指使用计算机的电子数据处理。 3.2　早期的电子数据处理 3.2.1　电子计算机的出现前面说过，在电子计算机出现之前，人类就发明了各种计算工具和机器，早期的人工计算工具有算筹和算盘。1642年，法国哲学家和数学家帕斯卡（Blaise Pascal）发明了世界上第一台加减法计算机。它利用齿轮转动原理进行机械式计算，通过手摇方式操作运算。1671年，德国数学家莱布尼兹（G.W.

大數據

带你读《终身机器学习（原书第2版）》之二：相关学习范式

click / 2019-11-14

点击查看第一章点击查看第三章第2章相关学习范式如上一章所述，终身学习（LL）有几个关键特征：持续的学习过程，明确的知识保留和积累，以及使用以前学习的知识来帮助学习新任务。此外，终身学习还应能够发现并逐步学习新任务，以及在实际应用中学习额外的知识并持续改进模型。有几种机器学习（ML）范式都具有相关的特征。本章重点讨论最相关的几种范式，例如迁移学习或领域适应、多任务学习（MTL）、在线学习、强化学习和元学习。前两种范式与LL关系更为密切，因为这两种范式都涉及跨领域或任务的知识迁移，但没有持续学习和明确保留或积累已学知识的过程。在线学习和强化学习有持续的学习过程，但它们只专注于一个时间维度内的单个学习任务。元学习也涉及多任务，但主要是关注一次或很少几次学习的过程。我们将介绍以上相关学习范式的代表性技术，这样可以更清晰地看到这些范式之间的区别。 2.1　迁移学习迁移学习（transfer learning）是ML和数据挖掘研究中的一个热门话题。它在自然语言处理中通常也称为领域自适应（domain adaptation）。迁移学习通常涉及两个领域：源域（source domain）和目标域（target domain）。虽然可以有多个源域，但是现有的研究几乎都只使用一个源域。源域通常包含大量的标记训练数据，而目标域没有或只有很少的标记训练数据。迁移学习的目标是使用源域中的标记数据来帮助目标域中的学习（该领域内三篇较好的综述文章是［Jiang,2008；Pan and Yang,2010；Taylor and Stone,2009］）。请注意，这些文献中的一些研究人员也使用术语“源任务（source task）”和“目标任务（target task）”，而不是“源域”和“目标域”，但到目前为止，后两个术语更常用，因为“源任务”和“目标任务”通常来自不同的领域或完全不同的分布［Pan and Yang,2010］。有许多类型的知识都可以从源域迁移到目标域，以帮助在目标域中进行学习。例如,Bickel 等人［2007］、Dai等人［2007b,c］、Jiang 和Zhai