大數據 – Page 160 – 小科科的春天

阿里云天池携手产学研心血管专家，共话心血管AI发展

click / 2019-11-19

为进一步推动人工智能在心血管领域的应用和落地，由合肥高新区管委会与阿里云计算有限公司主办，阿里云创新中心-合肥高新、合肥迪比空间技术服务有限公司、杭州师范大学承办，安徽华米信息科技有限公司、杭州师范大学附属医院参与协办的首届“合肥高新杯”心电人机智能大赛日前在合肥正式启动。同期，心血管人工智能产学研共创会于11月14日在合肥成功举办，本次共创会邀请了地方政府代表、学术界、医疗界、产业界等多位行业专家，深入探讨心血管人工智能领域的现状、痛点及未来发展。产业化能让人工智能技术惠及更多人（阿里巴巴达摩院迟颖）会上，阿里巴巴达摩院医疗AI技术总监迟颖博士首先发表讲话。她表示，心脏方面，达摩院团队深耕对冠状动脉分支的提取，在做分支命名的时候，达摩院采用了网络的方法，结果也比较精准。同时，达摩院在钙化和心肌方面也在不断突破创新。另一方面，从自然语言处理的角度，达摩院基于知识图谱，为中老年人提供心脏方面的知识问答、智能问答、智能导诊，使得患者可以第一时间得到智能知识的帮助。阿里巴巴达摩院在产业中也保持着开放的心态，目前正在进行“心血管AI千里马伙伴招募计划”，希望招募心血管AI合作伙伴，包含战略级和普通级，合作伙伴类型包含渠道型、产品型、科研型，等等，集智汇力共同打造心血管AI生态圈。什么是临床所需要的？医生们这样说来自首都医科大学附属北京安贞医院心外科的主任医师黄信生、宁夏回族自治区人民医院*大血管外科的主任医师牛涛，分别以“人工智能在心血管临床的应用”、“卵圆孔未闭与反常栓塞的是是非非”为主题，分享了精彩的临床观点。黄信生主任在“三维超声导航在室壁瘤手术中的应用”上已有着十一年的临床经验，未来，他希望通过人工智能等技术，可以将三维超声数据在室壁瘤手术之前进行梳理，看到病人术后的效果，了解预后可能的情况，从而使病人对手术有更好的认识，医生对手术有更好的把握。研究表明，不少于25%的成年人都有卵圆孔未闭的情况，这是目前成年人中最为常见的先天性异常。牛涛主任指出，针对结构异常，和它所引起的一系列临床表现，如能通过人工智能等技术的赋能，达到手术微创、安全性高、时间短，会使得患者更加接受。前沿解读，深度剖析心血管领域现状（华东师范大学王丽苹）来自华东师范大学的副教授王丽苹在心电图领域已经深耕了十几年，会上，她带来了《心电图智能诊断：模型与数据》主题报告分享。王丽苹教授表示，深度学习对于心电图领域起到了颠覆性的改变，但前提是要有大数据的支撑。在数据和模型的基础上，王教授还在KAAS平台上开发了数据管理的功能，此外还有神经网络模型、领域规则、数据领域等特性。数据经过实时加工，通过模型处理后，完成实时智能分析。会上，阿里云天池联合蛋壳研究院发布了《2019人工智能赋能心血管》主题报告，对心血管AI产业进行了全景深度扫描。 […]

大數據

带你读《计算机文化》之三：Networks

click / 2019-11-18

点击查看第一章点击查看第二章 3 Networks section A NETWORK BASICSSECTION COMMUNlCATlON SYSTEMS You use many networks for communication, research, and entertainment. Some networks

大數據

带你读《广告数据定量分析：如何成为一位厉害的广告优化师》之一：广告优化中的统计学

click / 2019-11-18

数据分析与决策技术丛书点击查看第二章点击查看第三章广告数据定量分析：如何成为一位厉害的广告优化师齐云涧　著第1章广告优化中的统计学正如书名所示，本书的目标是想帮助读者了解统计学知识，掌握科学的数据分析方法论，并在广告优化中践行，以实现数据驱动的广告分析和效果优化。本章会从统计学的基本定义出发，用通俗易懂的语言向读者说明统计学和广告优化之间的关系。读者阅读本书的目标应是学会运用统计学知识，了解统计学和广告数据定量分析的主要思想和理念。 1.1　统计学：用一句话解释它是什么统计学是通过1）收集数据、2）分析数据、3）由数据得出结论等手段，以达到推测所测对象的本质，甚至预测对象未来的一门综合性科学。以互联网广告优化为例：1）从媒体广告平台获取曝光、点击等数据，从广告主数据后台获取注册量、线索量、获客成本等数据，即为收集数据；2）从广告点击率、获客成本等多个维度对广告效果进行评估，即为分析数据；3）围绕“以更低的成本获取更多更优质的流量，提升广告投放的ROI”这一核心诉求，给出广告优化策略，指导下一步的优化操作，即为得出结论。 1.2　学会运用统计：读者的目标 1.2.1　理解统计学术语如果不能理解统计学术语，那么我们就无法从统计分析结果中获取更多有用信息。下面举几个例子：对于某个日均UV上万的页面做A/B测试，原始版本的转化率是5.6%，试验版本_1的转化率是6.4%，看似转化率提高了0.8个百分点，但这会不会是随机波动导致的呢？但A/B测试系统会告诉你，转化率是显著优化的，也就是说试验版本_1的转化率确实要更好一点。某App在小米应用商店的广告投放数据显示，该App的总激活量和首页精品广告（注：一类很重要的广告位）带来的下载量是高度相关的，是否建议提高精品广告的出价呢？本周360渠道的注册成本环比增长12%，同比下降8%，综合比较来看注册成本是优化了吗？以上涉及了几种最常见的统计学术语，对于知道它们的人来说，这些术语中包含了有用的信息；而不知道这些术语的人，根本不知道这些术语代表什么，甚至会得出错误的结论。 1.2.2　掌握科学的数据分析方法论在从事广告优化师的数年中，我一直在思考数据分析和广告优化之间的关系。不论是广告公司还是广告主，都表现出对数据分析的高度关注。在具体优化工作中，同样的数据结果，不同的广告优化师可能会有着不同的分析和洞察，随之而来的优化效果也会有一定的差异。可以这样说，大多数广告优化师没有受过专业的统计学思维训练，他们对数据分析的认知还停留在百分比、环比、同比等简单的概念上。举个例子，“昨天的注册量是2，今天的注册量是4，有广告优化师就在给广告主的日报中这样写道：优化有效果，注册量增长100%。”这种从2到4的随机波动难道真能反映出什么规律吗？也许有，但任何一个接受过专业统计学训练的人都会认为这很困难。广告优化这件事情，说简单点就是要不断地做正确的事情，在其他变量基本不变的条件下，只对少数变量做调整，积累数据，评估该调整是否能使效果显著优化，然后继续循环。科学的数据分析方法论能帮助我们更科学地设计优化试验，更高效地积累数据，更准确地评估优化效果，进而指导下一次的优化试验。 1.2.3　理解什么地方可能出差错瑞典数学家、作家安德烈斯曾说过一句话：“用数据说谎容易，但是用数据说出真相却很难。”下面用一个例子来说明，广告数据分析中什么地方可能出错。例：简单平均，还是加权平均？表1-1是某App在某应用商店共计两周的广告投放数据。下面我们分别用简单平均和加权平均两种计算方法，计算第一周和第二周的平均成本。简单平均成本：用每一天的注册成本加总，再除以7天，得到第二周的注册成本高达34.0元，环比第一周上涨26%。加权平均成本：回归到注册成本的公式本身，用7天的消费合计除以注册量合计，得到第二周的注册成本29.8元，环比第一周仅上涨10%。结论：简单平均看似没有问题，但计算结果却和加权平均的计算结果相差超过15个百分点。由此可见，广告优化中能够理解什么地方可能出错是多么重要。举一反三凡是有计算公式的数据指标，如点击率、平均排名、平均点击成本、转化率等，在求平均时需多加注意，这些数据指标大多数不能直接简单相加求平均。正确的做法是回到公式本身，先将原始数据求合计，再进行计算。 1.3　统计学的主要思想 1.3.1　随机性和规律性当我们不能准确预测一件事情的结果时，随机性就和这件事联系起来了。例如，当我们抛掷一枚硬币时，我们并不能确定硬币会出现正面向上还是反面向上的结果。类似地，当我们对某个关键词提高出价时，我们也不能确定该关键词带来的点击量一定会提高。不过，当我们把随机的事件放在一起时，它们将表现出令人惊奇的规律性。甚至当我们观察抛掷硬币这一看似完全随机的事情时，趋势和概率也变得很明显。例如，我们抛掷硬币100次，会发现差不多有50次正面向上，50次反面向上。类似地，当一个网民在百度搜索“英语培训”一词时，搜索引擎会展现包含SEM广告在内的搜索结果页，他可能点击我们排名第2的SEM广告，也可能不点击。但我们在广告后台可能会看到这个关键词近一周的点击率（点击量/展现量）是比较稳定的，这是因为一个网民是否点击我们的SEM广告，是有随机性的，但“英语培训”是一个热门词，网民的日均检索量能达到几千，得到的点击率数据反映的将不再是单个网民的意志，而是检索“英语培训”一词的整个网民群体的真实用户需求。引用：通过对看起来随机的现象进行统计分析，我们开始认识这个世界。统计思想的基础知识能够帮助我们把随机性归纳于可能的规律中。统计思想从我们如何观察事物和事物本身如何真正发生两方面，帮助我们理解随机性和规律性的重要性。因此，统计学可以看作是一项对随机性中的规律性的研究。—《统计学(基本概念和方法)》

大數據

带你读《广告数据定量分析：如何成为一位厉害的广告优化师》之二：广告数据分析中的统计学原理

click / 2019-11-18

点击查看第一章点击查看第三章第2章广告数据分析中的统计学原理这一章将会涉及不少统计学的概念和术语，包括抽样、概率和分布、假设检验、相关和回归等，我将在介绍相关内容时引用大量广告投放和优化的类比和案例，帮助读者朋友在广告数据分析和统计学二者之间建立思维上的关联，这是一个循序渐进的过程。从全书结构来看，本章是整个广告数据分析方法论的理论基础，后面的章节将直接进行数据分析方法论的运用，理论部分将不再赘述。 2.1　抽样：总体、样本和误差总体：是客观存在在某一相同性质基础上结合的若干个别事物的整体。样本：就是按照一定的概率从总体中抽取并作为总体代表的一部分的集合体。抽样：是指按照随机原则，以一定概率从总体中抽取一定容量的单位作为样本进行调查，根据样本的情况对总体作出具有一定可靠程度的估计与推断。抽样的一个重要价值，就是可以在没有拿到全部数据的条件下对总体做一定的预测。当然，这是有一定误差的。但现实生活中，由于拿到全部数据的成本太高，总体包括了未来还没有发生的数据等多种原因，我们只能退而求其次做抽样，通过研究样本来估算总体。为了进一步说明总体和样本的关系，下面举两个例子，不同情况下总体和样本的定义是有差异的。例1：先讨论简单的情况。在分析信息流广告创意的转化效果时，选取某天、某周、某月这类时间段的数据为分析对象，即为样本；如果把统计周期拉长，从该广告创意的首次投放到完全废弃，这样一个全生命周期内的数据作为分析对象，即为总体。这里的总体，就是前面提到的总体，包括了未来还没有发生的数据。广告投放是一个相对稳定的过程，尤其当预算和流量达到一定量级时，稳定性就会越好。怎么理解这个稳定性呢？假设我们研究近一周的数据，算出日均获取流量、获客成本等多个数据指标，可以预见的是，如果我们什么都不做，未来短时间（1～2周）内，这些数据指标都是相对稳定不变的，而从未来长时间来看，由于受到媒体广告后台的规则限制、流量大盘变化等多因素影响，广告效果会越来越差。相信只要从事过一线广告数据优化的朋友，对这段话都会深有体会，这也是广告效果优化的立足基础，也是广告数据定量分析的价值所在。例2：在例1的基础上，讨论较为复杂的情况，如图2-1所示。在分析我们的优化策略是否有效时，通常会选取一条广告创意，分析在优化前后的转化效果是否有显著优化。如例1中所说，该广告创意的全生命周期内的数据为总体，但由于优化策略的执行，原来的总体可能发生了质的变化，此时应以“优化操作”为分界线，将原来的总体一分为二，广告创意首次投放（或者是上一次优化）到本次优化操作前的全部数据为一个总体，优化操作后到广告创意完全废弃这段时间的数据为另一个总体。而在优化操作前后各选取的用来做对比分析的数据，即为样本。这里选取的样本，分别代表了优化操作前后的总体的广告效果。对比结果大致有三种可能，优化操作后广告效果没有显著变化、显著变好、显著变差。怎样才算达到“显著”的程度，将在2.5节具体介绍。无论结果如何，我们做广告数据分析的总体已经重新确定，即优化操作后到广告创意完全废弃这段时间的数据，而且我们观测的仍旧是样本数据。如果以后有新的优化操作，则总体又将被分割为两部分，如此循环。抽样误差：是指用样本统计值与被推断的总体参数出现的偏差。只要是样本数据，就会存在抽样误差。抽样误差的大小依赖于得到样本的方式和样本中包含的观测个数。样本越大，误差越小。如果样本等于整个总体，则样本比例就等于总体比例。所以，在公布任何一次基于样本数据得到的结论前，都应说明抽样误差的大小，无论是比例、均值还是其他形式。例如，某条信息流广告创意有36432的曝光量，1128的点击量，计算的点击率为3.1%（±0.18%），这里的±0.18%即为抽样误差，差不多是3.1%的1/20。抽样误差具体怎么计算的，在2.4的参数估计部分再作介绍。抽样最重要的问题是抽取的样本是否能够代表总体。如果样本没有代表性，那么以样本对总体进行估计就没有逻辑基础。试想，如果我们对比优化操作前后的广告效果时，优化操作前的样本数据不能代表历史的广告效果，或者优化操作后的样本数据不能代表未来的广告效果，那么数据分析的结论与真实情况将会有较大的偏差，对下一步的优化策略来说可能不是指导而是误导了。于是，我们在选取样本数据时，应注意下面几点：第一，应尽可能选取优化操作前后相邻的数据。这里，其实是有一个广告数据分析的前提假设，假设其他条件不变（或者说是相对稳定），优化操作则是唯一的变量，对比前后的数据即可判断优化是否有显著效果。取优化操作前后越近的数据，就越能保证假设的准确性。比如，优化操作前一周的数据和优化操作后一周的数据。第二，样本数据的积累不仅要看时间长短，更要看样本量的大小。比如，只对比优化操作前一天和后一天的数据，受偶然性的影响效果会比较大，以优化操作后第一天的数据作为样本，对总体的代表性也会差很多。另一方面，无论任何抽样方式，抽样误差都是难以避免的，只有当样本量足够大，抽样误差才相对稳定、相对较小，对于总体的代表性也较好。第三，如果样本数据中出现某些特别高或特别低的奇异值，应将其剔除。如表2-1所示，我们选取优化操作后一周的数据作为样本。从表中不难看出，第一天至第七天的展现量是相对稳定的，但第六天的点击率是明显偏高的，这个数很可能是奇异值，应从样本数据中剔除，剔除之后展现量累计不够的话，则可以顺延至第八天。一般来说，广告数据是相对稳定的，如果出现这种奇异值，多是受到大盘流量、竞争对手的广告投放等多因素影响。而这些因素恰恰是我们做广告数据定量分析前假设相对稳定不变的，一旦出现这样的情况，说明分析的前提是不存在，得到的样本数据自然也是没有代表性的，应作相应的数据处理。 2.2　概率如上一章提到的，概率简单来说就是一个数。更确切地说，它是一个0和1之间的数，用来描述一个事件发生的经常性。小概率（接近0）的事件很少发生，而大概率（接近1）的事件经常发生。为了说明统计的基本观念，如果我们对某事物进行多次观测，大多数情况下会得到不同的结果。例如：同一SEM账户，昨天账户整体CTR是一个2.8%，今天的CTR则是3.0%，明天可能又会是3.1%，这种小幅度的波动是因为这个变量（即CTR）具有随机性。概率的统计定义在相同的条件下①随机试验n次，某事件A出现m次（m≤n），则比值m/n称为事件A发生的频率。随着n的增大，该频率围绕某一常数p上下波动，且波动的幅度逐渐减小，趋于稳定，这个频率的稳定值即为该事件的概率，记为：P(A) = n/m = p在广告数据分析中，一些常见的数据指标，包括点击率、转化率、流失率等都是统计意义上的概率，都是通过对一定量的样本观测得到的。注意：①在相同的条件下。这一点在广告优化实践中是很难做到的。以手机百度这一媒体为例，MAU高达5亿多，DAU是1亿多，这意味着，除少部分重度用户每天都在使用外，大多数用户一个月内只有可能不到一半的时间能看到某个广告主的广告。所以我们的总体是不变的，但每天观测得到的样本都不一样了。所以，广告优化实践中我们只能尽力保证能控制的部分保持稳定，比如落地页、广告创意、定向等，以此来观测样本、统计概率，进行数据分析。 2.3　概率分布大部分用于统计分析的数据来自于连续变量，即在任意两个值间还有其他的值，故这里只讨论连续变量的概率分布。最重要的是标准正态分布（z变量），t分布（t变量），图2-2以标准正态分布为例，具体阐述一下。 2.3.1　正态分布正态分布，也称“常态分布”，又名高斯分布。是一个在数学、物理及工程等领域都非常重要的概率分布，在统计学的许多方面有着重大的影响力。请不要被公式吓到，简而言之，正态描述的是某一变量v的概率分布，又因为概率的统计定义，通常以分布占比替代概率分布。横坐标上的X就是变量v的取值，f(x)就是对应变量不同取值（即x）的占比。当随机变量X服从正态分布时，我们用X~N(, ^2)表示，其中为变量X的均值，为变量X的标准差。如图2-3所示，正态分布中大部分数据集中在平均值附近，小部分在两端。均值±3个标准差已经可以包括99.7%的情况了。对于我们做广告数据分析，最重要的是均值，不论是平均点击量、平均点击率，还是平均转化量、平均转化率。举个例子，图2-4是某SEM广告各关键词CPC分布占比，大致上符合正态分布，大多数关键词的CPC处于中间均值附近水平，不过集中度相对较低。

大數據

带你读《广告数据定量分析：如何成为一位厉害的广告优化师》之三：广告数据的描述：图表

click / 2019-11-18

点击查看第一章点击查看第二章第3章广告数据的描述：图表第3章的要点是对广告数据进行描述，图表是重要的工具之一。相较于文字和数据，图表有着得天独厚的优势—方便简洁、直观形象，对我们开展数据分析及讲好业务故事有着极大的帮助。目前，业内大部分做广告数据分析的朋友对图表的重视程度不足，除了在做客户提案或汇报外，几乎很少用到图表，究其原因还是对图表的价值理解不到位、没有掌握用图表帮助进行数据分析的方法论。在本章我将带大家一起领略基于图表做广告数据分析的魅力，希望对大家的工作有所帮助。 3.1　初阶：维度和指标首先来认识一下图表中的两个重要概念，即维度和指标。相信大家都耳熟能详了，但从未严谨地做过区分和识记，一直是混着用的。为了保证讲解的有效性，我们需要先对这两个概念做严格的定义。维度：说明数据，是指可指定不同值的对象的描述性属性或特征。例如，在广告定向中，“地域”维度的值可以包括“北京”“上海”“广州”，“投放渠道”维度的值可以包括“百度SEM”“今日头条信息流”“小米应用商店”。指标：衡量数据，是指可以按数值或比值衡量具体维度元素。例如，“投放渠道”这一维度，可以关联指标“广告消费”，其值为具体投放渠道的广告消费金额。虽然，维度和指标都是可以独立使用的，但我们在做数据分析时经常会将二者关联使用。正是维度和指标的值以及这些值之间的关系，才使得数据具有了现实意义。同时，为了挖掘尽可能多的信息，一个维度通常与一个或多个指标关联在一起。例如，“投放渠道”这一维度，可以与指标“广告消费”和“获客数”相关联，有了这些数据，我们就可以新建“获客成本”等比值指标，带来有关这些投放渠道的更深入的信息。在广告数据分析时，适当的数据可视化能帮助我们在短时间内对数据的整体分布情况有一个宏观把握，有利于洞察可能出现的问题，从而进行微观调整优化。下面，我将重点介绍几种具有代表性的图表。另外，需要说明的是，所有图表都是Excel直接生成的，不需要借助其他工具。 3.1.1　看分布 1. 直方图如图3-1所示，以某一SEM账户某天的关键词报告数据为例，关键词共805个，账面消费合计3005元。选取“消费”一列，可生成直方图，这里设置组距为10，即每10元为一个消费区间。数据显示，在805个关键词中，有746个（占92.6%）关键词的消费在0～10元；接下来继续观察，图表右方消费区间较大的关键词，150～160元有1个，300～310元有1个，320～330元有1个，这三个关键词的合计消费为788元（占26%），这个消费占比还不够高，我们再向左扩展一些，把消费大于30元的都包括进来，合计22个（占2.7%），账面消费合计1806元（占60%）。这其实就是帕累托法则（或称“二八原理”），不一定是严格的二八分，本质上是少数甚至极少数关键词占据了整个广告预算的较大部分，比如在这个例子中，有2.7%的关键词占了全部预算的60%。设想一下，如果TOP级关键词的成本上涨20%，如果预算不设严格限制，将导致整体成本上涨12%；如果预算设上限，势必影响中长尾词的投放，不论是控制出价还是控制时段，这部分词的流量稳定性较差，造成成本升高的可能性较大，综合估算整体成本上涨不止12%。换个角度看，TOP级关键词数量少、消费高，牵一发而动全身，但正因为数量少，更有利于做精细化优化，包括但不限于定制化创意、多创意A/B测试、时段分析等多种策略。同时，不得不提的是，直方图的一种特殊形式，叫作排列图（专业说法是帕累托图）。不同于直方图是组距（本例中即消费区间）的依次排列，排列图是频数（本例中即关键词个数）的降序排列，并加以累计占比的折线图。帮助优化师抓住广告优化的“主要矛盾”，犹如太极拳的四两拨千斤。图3-2的初步结论为：消费在10元以内的关键词的比重非常高，接近95%。2. 比重图比重分析主要是用来了解不同部分占总体的比例，帮助我们对整体的数据分布情况有一个更清楚的认知。先讨论横向比较的情况，饼图、环形图可以满足这类需求。如图3-3的饼图所示，我们将某App在小米应用商店各广告位的下载量数据可视化，可以直接得到一些结论：免费的自然量对渠道的贡献较高，占到37%；付费流量中，精品广告和装机必备是主力，贡献了38.6%流量；其余几类广告均起到补充的作用。图3-4的环型图对应了图3-3中各广告位的广告消费分布，我们可以看到：精品广告花了76%的广告费，其次是装机必备的10.7%。两张图放在一起，即将“下载量”和“广告消费”这两个数据做关联，可以看到精品广告是重中之重，在广告优化中应为最高优先级，如果能稍微降低一点精品广告的成本，则可以腾挪出可观的广告预算给其他广告位，实现下载量的增长。请不要觉得这些结论稀松平常，业内常说如何精细化优化，但如果对数据的分布情况都做不到精确的认知，缺乏对宏观上的把控，精细化优化往往会陷入微观细节的“泥潭”中，难以达到预期效果。接下来讨论纵向比较，常用的是百分比堆积面积图、百分比堆积柱状图。这些图可以反映不同部分所占比例的趋势变化。如图3-5是百分比堆积柱状图，图3-6是百分比堆积面积图，后者本质上就是在前者基础上把各柱连接在一起，更能体现连续性。读者可以根据自己的需求选择使用，不过当横坐标日期太多时，百分比堆积面积图将更适用。百分比堆积图动态展示了不同广告位所带来的流量比例的变化趋势，再结合获客量趋势、获客成本趋势，渠道运营人员就可以做数据分析，通过各类广告资源的配比调整，实现广告效果的优化。 3.1.2　看趋势趋势分析是最基础的图表分析，它反映某一指标在一段时间内的变化情况。对于不同的广告数据指标，优化工作的目标是不一样的。对于成本类来说，优化目标是持续下降并保持稳定的；对于流量类来说则是稳步上升并保持稳定的。一旦趋势发生异常（异常高和异常低），就需要及时介入，排查原因，调整优化。趋势图包括折线图、柱状图、堆积图等多种形式，下面将一一介绍。1. 折线图折线图是最常用的图表之一，这里不再赘述。以某一SEM账户在一个月内的转化数据为例，如图3-7所示。平均注册成本一开始居高不下，自8月5日开始持续下降，并保持了较稳定的趋势，8月16日略有反弹，随后回落，最终在月底稳定在35元左右。 2. 柱状图本质上来说，柱状图和折线图是一样的，只不过展现形式不一样。图3-8是总注册数的柱状图呈现。以某一SEM账户在一个月内的转化数据为例，总注册数自8月5日开始迅速增长，并保持了较稳定的趋势，8月15日略有下滑，随后立即回升，最终在月底稳定在每日220个左右。折线图和柱状图的优势是可以快速了解某一指标的变化情况。数据分析的重点：拐点，即何时上涨和下跌；极值点，特别高的点和特别低的低，具体界定标准可以参考平均值±10%或±20%。 3. 堆积柱状图如图3-9所示是堆积柱状图，延续前文小米应用商店的例子。区别于百分比堆积图显示的是各广告位的下载量占比，堆积柱状图直接显示的是各广告位的实际下载量。从图中可以看到，9月2日和3日，总下载量显著下降并保持相对稳定，分析各广告位的组成，可知主要是受到精品广告和自然量下降的影响。

大數據

Spark Codegen浅析

click / 2019-11-18

背景介绍 SparkSQL的优越性能背后有两大技术支柱：Optimizer和Runtime。前者致力于寻找最优的执行计划，后者则致力于把既定的执行计划尽可能快地执行出来。Runtime的多种优化可概括为两个层面：1. 全局优化。从提升全局资源利用率、消除数据倾斜、降低IO等角度做优化，包括自适应执行(Adaptive Execution), Shuffle Removal等。2. 局部优化。优化具体的Task的执行效率，主要依赖Codegen技术，具体包括Expression级别和WholeStage级别的Codegen。本文介绍Spark Codegen的技术原理。 Case Study 本节通过两个具体case介绍Codegen的做法。 Expression级别考虑下面的表达式计算：x + (1 + 2)，用scala代码表达如下: Add(Attribute(x), Add(Literal(1), Literal(2)))

大數據

快！5分钟快速完成监控系统搭建之实践篇

click / 2019-11-18

阿里云InfluxDB 提供了一整套快速搭建监控系统的组件和功能，可以帮助企业快速搭建监控系统。2019年8月商业化以来，依靠稳定可靠的服务能力和免运维等特性，在监控领域受到很多用户关注，近期更是进行了重磅升级，集成了Grafana可视化服务。本文将以Linux系统指标监控为例，展示如何基于阿里云InfluxDB®服务快速搭建一个监控系统。这里假设用户已经购买了阿里云InfluxDB®实例，并且创建了名为telegraf的数据库以及管理员账号admin(也可以使用对该库有读写权限的非管理员账号）。如果您还没有开启阿里云InfluxDB®服务，可以戳这里购买，数据库和账号如何创建请参考阿里云文档。基于阿里云InfluxDB搭建监控系统可以分为二个简单的步骤即可完成。1 配置数据源2 配置Grafana 仪表盘接下来，我们就开始基于这两个步骤快速实践一下。出于展示目的，本文使用的操作系统为CentOS 7，yum作为包管理工具，Ubuntu/Debian用户可以用dpkg等工具完成类似操作。接下来我们实际操作一下。配置数据采集主机的系统监控需要安装telegraf作为agent进行指标采集。telegraf是开源的指标采集工具，内用占用小，安装部署简便，下面几部就可以完成。如果有多台主机需要监控，在每台主机上执行下面的步骤即可，在最后的监控仪表盘总可以使用下来列表来选择主机信息。 Step 1: 安装telegraf 这里使用的是当前的最新稳定版本telegraf 1.12.4： yum install -y

大數據

带你读《OpenCV 4计算机视觉项目实战（原书第2版）》之二：OpenCV基础知识导论

click / 2019-11-18

点击查看第一章点击查看第三章第2章 OpenCV基础知识导论在第1章介绍了在不同操作系统上安装OpenCV之后，我们将在本章介绍OpenCV开发的基础知识。首先介绍如何使用CMake创建项目。我们将介绍基本的图像数据结构和矩阵，以及在项目中工作所需的其他结构。我们还会介绍如何通过OpenCV的XML/YAML存储函数将变量和数据保存到文件中。本章介绍以下主题：使用CMake配置项目从/向磁盘读取/写入图像读取视频和访问相机设备主要图像结构（例如，矩阵）其他重要和基本的结构（例如，向量和标量）基本矩阵运算简介使用XML/YAML存储OpenCV API进行文件存储操作 2.1　技术要求本章需要读者熟悉基本的C++编程语言，所使用的所有代码都可以从以下GitHub链接下载：https://github.com/PacktPublishing/Learn-OpenCV-4-By-Building-Projects-Second-Edition/tree/master/Chapter_02 。代码可以在任何操作系统上执行，尽管只在Ubuntu上测试过。 2.2　基本CMake配置文件为配置和检查项目的所有必要依赖项，我们会用到CMake，但这不是唯一可以完成此操作的方法。我们可以在任何其他工具或IDE中配置我们的项目，例如Makefiles或Visual Studio，但CMake是一种用于配置多平台C++项目的更便携的方式。CMake使用名为CMakeLists.txt的配置文件，可以在其中定义编译和依赖关系过程。对于从单个源代码文件构建可执行文件的基本项目，只需要一个包含三行代码的CMakeLists.txt文件。该文件的内容类似于：第一行定义所需的CMake最低版本，该行在CMakeLists.txt文件中是必需的，它使我们能够使用在特定版本中定义的CMake功能。在我们的例子中，要求最低版本为CMake 3.0。第二行定义项目的名称。这个名称保存在名为PROJECT_NAME的变量中。最后一行从main.cpp文件创建一个可执行命令（add_executable()），并将其命名为与项目（${PROJECT_NAME}）相同的名称，然后将源代码编译成一个名为CMakeTest的可执行文件，这是我们设置的项目名称。${}表达式能够访问环境中定义的任何变量。之后，我们就可以用${PROJECT_NAME}变量作为输出的可执行文件的名称。

大數據

带你读《数据挖掘导论（原书第2版）》之一：绪论

click / 2019-11-18

计算机科学丛书点击查看第二章点击查看第三章数据挖掘导论（原书第2版）Introduction to Data Mining，Second Edition ［美］　陈封能（Pang-Ning Tan）迈克尔·斯坦巴赫（Michael Steinbach）阿努吉·长帕坦（Anuj Karpatne）维平·库玛尔（Vipin Kumar）　著段　磊　张天庆　等译第1章绪　　论数据采集和存储技术的迅速发展，加之数据生成与传播的便捷性，致使数据爆炸性增长，最终形成了当前的大数据时代。围绕这些数据集进行可行的深入分析，对几乎所有社会领域的决策都变得越来越重要：商业和工业、科学和工程、医药和生物技术以及政府和个人。然而，数据的数量（体积）、复杂性（多样性）以及收集和处理的速率（速度）对于人类来说都太大了，无法进行独立分析。因此，尽管大数据的规模性和多样性给数据分析带来了挑战，但仍然需要自动化工具从大数据中提取有用的信息。数据挖掘将传统的数据分析方法与用于处理大量数据的复杂算法相结合。在本章中，我们将介绍数据挖掘的概况，并概述本书所涵盖的关键主题。首先介绍一些需要高级数据分析技术的应用。商业和工业　借助POS（销售点）数据收集技术（条码扫描器、射频识别（RFID）和智能卡技术），零售商可以在商店的收银台收集顾客购物的最新数据。零售商可以利用这些信息，加上电子商务网站的日志、客服中心的顾客服务记录等其他的重要商务数据，能够更好地理解顾客的需求，做出更明智的商业决策。数据挖掘技术可以用来支持广泛的商务智能应用，如顾客分析、1定向营销、工作流管理、商店分布、欺诈检测以及自动化购买和销售。最近一个应用是快速股票交易，在这个交易中，需要使用相关的金融交易数据在不到一秒的时间内做出买卖决定。数据挖掘还能帮助零售商回答一些重要的商业问题，如：“谁是最有价值的顾客？”“什么产品可以交叉销售或提升销售？”“公司明年的营收前景如何？”这些问题促使着数据挖掘技术的发展，比如关联分析（见第5章和第6章）。随着互联网不断改变我们日常生活中互动和做决定的方式，能够生成大量的在线体验数据，例如网页浏览、信息传递，以及在社交网站上发布信息，这为使用Web数据的商务应用提供了机会。例如，在电子商务领域，用户的在线浏览或购物偏好数据可以用来推荐个性化的产品。数据挖掘技术也在支持其他基于互联网的服务方面扮演着重要的角色，如过滤垃圾信息、回答搜索查询，以及建议社交圈的更新和联系。互联网上大量的文本、图像和视频使得数据挖掘方法有了许多进展，如深度学习（这将在第4章进行讨论）。这些进展推动了诸多应用领域的进步，如目标识别、自然语言翻译与自动驾驶。另一个经历大数据快速转型的应用领域是移动传感器和移动设备的使用，如智能手机和可穿戴计算设备。借助更好的传感器技术，可以利用嵌入在相互连接的日常设备上的低成本传感器（称为物联网（IOT））来收集物理世界的各种信息。在数字系统中，物理传感器的深度集成正开始产生大量与环境相关的多样化和分布式的数据，可用于设计方便、安全、节能的家庭系统，以及规划智能城市。医学、科学与工程　医学、科学与工程界的研究者正在快速收集大量数据，这些数据对获得有价值的新发现至关重要。例如，为了更深入地理解地球的气候系统，NASA已经部署了一系列的地球轨道卫星，不停地收集地表、海洋和大气的全球观测数据。然而，2由于这些数据的规模和时空特性，传统的方法常常不适合分析这些数据集。数据挖掘所开发的技术可以帮助地球科学家回答如下问题：“干旱和飓风等生态系统扰动的频度和强度与全球变暖之间有何联系？”“海洋表面温度对地表降水量和温度有何影响？”“如何准确地预测一个地区的生长季节的开始和结束？”再举一个例子，分子生物学研究者希望利用当前收集的大量基因组数据，更好地理解基因的结构和功能。过去，传统方法只允许科学家在一个实验中每次研究少量基因，微阵列技术的最新突破已经能让科学家在多种情况下比较数以千计的基因特性。这种比较有助于确定每个基因的作用，或许可以查出导致特定疾病的基因。然而，由于数据的噪声和高维性，需要新的数据分析方法。除了分析基因序列数据外，数据挖掘还能用来处理生物学的其他难题，如蛋白质结构预测、多序列校准、生物化学路径建模和系统发育学。另一个例子是利用数据挖掘技术来分析越来越多的电子健康记录（EHR）数据。不久之前，对患者的研究需要手动检查每一个患者的身体记录，并提取与所研究的特定问题相关的、具体的信息。EHR允许更快和更广泛地探索这些数据。然而，只有患者在看医生或住院期间才能对他们进行观察，并且在任何特定访问期间只能测量关于患者健康的少量细节，因此存在重大挑战。目前，EHR分析侧重于简单类型的数据，如患者的血压或某项疾病的诊断代码。然而，很多类型更复杂的医学数据也被收集起来，例如心电图（ECG）和磁共振成像（MRI）或功能性磁共振成像（fMRI）的神经元图像。尽管分析这些数据十分具有挑战性，但其中包含了患者的重要信息。将这些数据与传统的EHR和基因组数据集成分析是实现精准医学所需的功能之一，旨在提供更加个性化的患者护理。3 1.1　什么是数据挖掘数据挖掘是在大型数据库中自动地发现有用信息的过程。数据挖掘技术用来探查大型数据库，发现先前未知的有用模式。数据挖掘还可以预测未来的观测结果，比如顾客在网上或实体店的消费金额。并非所有的信息发现任务都被视为数据挖掘。例如查询任务：在数据库中查找个别记录，或查找含特定关键字的网页。这是因为这些任务可以通过与数据库管理系统或信息检索系统的简单交互来完成。而这些系统主要依赖传统的计算机科学技术，包括先进高效的索引结构和查询处理算法，有效地组织和检索大型数据存储库的信息。尽管如此，数据挖掘技术可以基于搜索结果与输入查询的相关性来提高搜索结果的质量，因此被用于提高这些系统的性能。数据库中的数据挖掘与知识发现数据挖掘是数据库中知识发现（Knowledge Discovery in Database，KDD）不可缺少的一部分，而KDD是将未加工的数据转换为有用信息的整个过程，如图1.1所示。该过程包括一系列转换步骤，从数据预处理到数据挖掘结果的后处理。

大數據

带你读《数据挖掘导论（原书第2版）》之二：数据

click / 2019-11-18

点击查看第一章点击查看第三章第2章数　　据本章讨论一些与数据相关的问题，它们对于数据挖掘的成败至关重要。数据类型　数据集的不同表现在多方面。例如，用来描述数据对象的属性可以具有不同的类型——定量的或定性的，并且数据集通常具有特定的性质，例如，某些数据集包含时间序列或彼此之间具有明显联系的对象。毫不奇怪，数据的类型决定我们应使用何种工具和技术来分析数据。此外，数据挖掘研究常常是为了适应新的应用领域和新的数据类型的需要而展开的。数据的质量　数据通常远非完美。尽管大部分数据挖掘技术可以忍受某种程度的数据不完美，但是注重理解和提高数据质量将改进分析结果的质量。通常必须解决的数据质量问题包括存在噪声和离群点，数据遗漏、不一致或重复，数据有偏差或者不能代表它应该描述的现象或总体情况。使数据适合挖掘的预处理步骤　通常，原始数据必须加以处理才能适合分析。处理一方面是要提高数据的质量，另一方面要让数据更好地适应特定的数据挖掘技术或工具。例如，有时需要将连续值属性（如长度）转换成离散的分类值的属性（如短、中、长），23以便应用特定的技术。又如，数据集属性的数目常常需要减少，因为属性较少时许多技术用起来更加有效。根据数据联系分析数据　数据分析的一种方法是找出数据对象之间的联系，之后使用这些联系而不是数据对象本身来进行其余的分析。例如，我们可以计算对象之间的相似度或距离，然后根据这种相似度或距离进行分析——聚类、分类或异常检测。诸如此类的相似性或距离度量很多，要根据数据的类型和特定的应用做出正确的选择。例2.1 与数据相关的问题　为了进一步解释这些问题的重要性，考虑下面的假想情况。你收到某个医学研究者发来的电子邮件，是关于你想要研究的一个项目的。邮件的内容如下：尽管有些疑虑，你还是开始着手分析这些数据。文件的前几行如下：粗略观察这些数据并未发现什么不对。你抛开疑虑，并开始分析。数据文件只有1000行，比你希望的小，24两天之后你认为你已经取得一些进展。你去参加会议，在等待其他人时，你开始与一位参与该项目工作的统计人员交谈。当听说你正在分析该项目的数据时，她请你向她简略介绍你的结果。尽管这一场景代表一种极端情况，但它强调了“了解数据”的重要性。为此，本章将讨论上面提到的4个问题，列举一些基本难点和标准解决方法。 2.1　数据类型通常，数据集可以看作数据对象的集合。数据对象有时也叫作记录、点、向量、模式、事件、案例、样本、实例、观测或实体。数据对象用一组刻画对象的特性（如物体质量或事件发生时间）的属性描述。属性有时也叫作变量、特性、字段、特征或维。例2.2 学生信息　通常，数据集是一个文件，其中对象是文件的记录（或行），而每个字段（或列）对应于一个属性。例如，表2.1显示了包含学生信息的数据集。每行对应一个学生，而每列是一个属性，描述学生的某一方面，如平均绩点（GPA）或标识号（ID）。基于记录的数据集在平展文件或关系数据库系统中是最常见的，但是还有其他类型的数据集和存储数据的系统。在2.1.2节，我们将讨论数据挖掘中经常遇到的其他类型的数据集。然而，我们先考虑属性。 2.1.1　属性与度量本小节考虑使用何种类型的属性描述数据对象。首先定义属性，然后考虑属性类型的含义，最后介绍经常遇到的属性类型。 1.什么是属性我们先更详细地定义属性。定义2.1 属性（attribute）　对象的性质或特性，它因对象而异，或随时间而变化。例如，眼球颜色因人而异，而物体的温度随时间而变。注意：眼球颜色是一种符号属性，具有少量可能的值{棕色，黑色，蓝色，绿色，淡褐色，…}；而温度是数值属性，可以取无穷多个值。追根溯源，属性并非数字或符号。然而，为了讨论和精细地分析对象的特性，我们为它们赋予了数字或符号。为了用一种明确定义的方式做到这一点，我们需要测量标度。定义2.2测量标度（measurement scale）　将数值或符号值与对象的属性相关联的规则（函数）。形式上，测量过程是使用测量标度将一个值与一个特定对象的特定属性相关联。这看上去有点抽象，但是任何时候，我们总在进行这样的测量过程。例如，踏上体重秤称体重；将人分为男女；清点会议室的椅子数量，确定是否能够为所有与会者提供足够的座位。在所有这些情况下，对象属性的“物理值”都被映射到数值或符号值。有了这些背景，我们就可以讨论属性类型，这对于确定特定的数据分析技术是否适用于某种具体的属性是非常重要的。 2.属性类型我们通常将属性的类型称为测量标度的类型。从前面的讨论显而易见，属性可以用不同的测量标度来描述，并且属性的性质不必与用来度量它的值的性质相同。换句话说，用来代表属性的值可能具有不同于属性本身的性质，反之亦然。我们用两个例子来解释。例2.3