大數據 – Page 168 – 小科科的春天

带你读《HBase原理与实践》之三：HBase依赖服务

click / 2019-11-01

点击查看第一章点击查看第二章第3章 HBase依赖服务 HBase并不是一个独立的无依赖的项目。在正常的线上集群上，它至少依赖于ZooKeeper、HDFS两个Apache顶级项目。对于某些特殊场景，例如Copy Snapshot和验证集群间数据一致性等，还需要借助Yarn集群的分布式计算能力才能实现。正是借助了Apache的这些成熟稳定的顶级系统，HBase研发团队才能够集中精力来解决高性能、高可用的KV存储系统所面临的诸多问题。本章将简要介绍ZooKeeper和HDFS，以便读者更深入地理解HBase内部原理。 3.1　ZooKeeper简介 ZooKeeper在HBase系统中扮演着非常重要的角色。事实上，无论在HBase中，还是在Hadoop其他的分布式项目中，抑或是非Hadoop生态圈的很多开源项目中，甚至是全球大大小小的公司内，ZooKeeper都是一项非常重要的基础设施。ZooKeeper之所以占据如此重要的地位，是因为它解决了分布式系统中一些最基础的问题：提供极低延迟、超高可用的内存KV数据库服务。提供中心化的服务故障发现服务。提供分布式场景下的锁、Counter、Queue等协调服务。 ZooKeeper集群本身是一个服务高可用的集群，通常由奇数个（比如3个、5个等）节点组成，集群的服务不会因小于一半的节点宕机而受影响。ZooKeeper集群中多个节点都存储同一份数据，为保证多节点之间数据的一致性，ZooKeeper使用ZAB（ZooKeeper Atomic Broadcast）协议作为数据一致性的算法。ZAB是由Paxos算法改进而来，有兴趣的读者可以进一步阅读论文《Zab: High-performance broadcast for primary-backup systems》。ZooKeeper节点内数据组织为树状结构，如图3-1所示，数据存储在每一个树节点（称为znode）上，用户可以根据数据路径获取对应的数据。1. ZooKeeper核心特性ZooKeeper在使用ZAB协议保证多节点数据一致性的基础上实现了很多其他工程特性，以下这些特性对于实现分布式集群管理的诸多功能至关重要。图3-1 ZooKeeper节点内数据组织结构 1）多类型节点。ZooKeeper数据树节点可以设置多种节点类型，每种节点类型具有不同节点特性。 […]

大數據

带你读《Flink原理、实战与性能优化》之一：Apache Flink介绍

click / 2019-11-01

大数据技术丛书点击查看第二章点击查看第三章Flink原理、实战与性能优化张利兵　著第1章 Apache Flink介绍本章对Apache Flink从多个方面进行介绍，让读者对Flink这项分布式处理技术能够有初步的了解。1.1节主要介绍了Flink的由来及其发展历史，帮助读者从历史的角度了解Flink这项技术发展的过程。1.2节重点介绍了Flink能够支持的各种实际业务场景、Flink所具备的主要特性、Flink组成部分及其基本概念等内容，最后在1.4节中介绍了Flink的基本架构以及主要组成部分。 1.1　Apache Flink是什么在当前数据量激增的时代，各种业务场景都有大量的业务数据产生，对于这些不断产生的数据应该如何进行有效的处理，成为当下大多数公司所面临的问题。随着雅虎对Hadoop的开源，越来越多的大数据处理技术开始涌入人们的视线，例如目前比较流行的大数据处理引擎Apache Spark，基本上已经取代了MapReduce成为当前大数据处理的标准。但随着数据的不断增长，新技术的不断发展，人们逐渐意识到对实时数据处理的重要性。相对于传统的数据处理模式，流式数据处理有着更高的处理效率和成本控制能力。Apache Flink就是近年来在开源社区不断发展的技术中的能够同时支持高吞吐、低延迟、高性能的分布式处理框架。在2010年至2014年间，由柏林工业大学、柏林洪堡大学和哈索普拉特纳研究所联合发起名为“Stratosphere: Information Management on the Cloud”研究项目，该项目在当时的社区逐渐具有了一定的社区知名度。2014年4月，Stratosphere代码被贡献给Apache 软件基金会，成为Apache基金会孵化器项目。初期参与该项目的核心成员均是Stratosphere曾经的核心成员，之后团队的大部分创始成员离开学校，共同创办了一家名叫Data Artisans的公司，其主要业务便是将Stratosphere，也就是之后的Flink实现商业化。在项目孵化期间，项目Stratosphere改名为Flink。Flink在德语中是快速和灵敏的意思，用来体现流式数据处理器速度快和灵活性强等特点，同时使用棕红色松鼠图案作为Flink项目的Logo，也是为了突出松鼠灵活快速的特点，由此，Flink正式进入社区开发者的视线。2014年12月，该项目成为Apache 软件基金会顶级项目，从2015年9月发布第一个稳定版本0.9，到目前撰写本书期间已经发布到1.7的版本，更多的社区开发成员逐步加入，现在Flink在全球范围内拥有350多位开发人员，不断有新的特性发布。同时在全球范围内，越来越多的公司开始使用Flink，在国内比较出名的互联网公司如阿里巴巴、美团、滴滴等，都在大规模使用Flink作为企业的分布式大数据处理引擎。Flink近年来逐步被人们所熟知，不仅是因为Flink提供同时支持高吞吐、低延迟和exactly-once语义的实时计算能力，同时Flink还提供了基于流式计算引擎处理批量数据的计算能力，真正意义上实现了批流统一，同时随着阿里对Blink的开源，极大地增强了Flink对批计算领域的支持。众多优秀的特性，使得Flink成为开源大数据数据处理框架中的一颗新星，随着国内社区不断推动，越来越多的国内公司开始选择使用Flink作为实时数据处理技术。在不久的将来，Flink也将会成为企业内部主流的数据处理框架，最终成为下一代大数据处理的标准。 1.2　数据架构的演变

大數據

MVP一周精选 20191101

click / 2019-11-01

精彩继续，精选来袭！阿里云 MVP（阿里云最有价值专家），是专注于帮助他人充分了解和使用阿里云技术的意见领袖。在这里，您可以跟随各行各业技术达人快速Get到行业热点和前沿技术。点击，了解更多。【MVP说】朱祺：机器学习算法—KMEANS算法原理及阿里云PAI平台算法模块参数说明阿里云PAI平台提供了大量已经封装完成可以直接使用的机器学习算法模块，本文说明KMEANS算法的原理并在原理的基础上说明PAI平台KMEANS模块中参数设置的意义，根据原理介绍算法的优点和缺点。安欣：看云栖说云栖——数据上云、灾备上云、老艺术家们参加盛大的杭州云栖大会，整理了存储资源相关《下一代存储技术与最佳实践专场》和《数据上云与数据智能专场》的分享内容，还见到了阿里云 MVP张广彬（狒哥），这位存储行业的老前辈。刘洪峰：【阿里云IoT+YF3300】7.物联网设备表达式运算在前几期【阿里云IoT+YF3300】系列文章中分别介绍了Alink协议、Alink物模型，物联网设备报警配置等模块。本文继续物联网领域的分享：很多时候从设备采集的数据并不能直接使用，还需要进行处理一下。如果采用脚本处理，有点太复杂了，而采用表达式运算，则很方便地解决了此类问题。【MVP时间】闫安：大数据发展对云上解决方案的影响曾任阿里巴巴核心大数据部门第一任总监，有丰富的平台和行业解决方案经验。在云栖大会上分享大数据未来的发展与机遇：产业互联网、5G与物联网、云平台为基础的应用等。缪政辉：超级开发者解读云栖大会精彩黑科技致力于以场景化和更加通俗易懂的方式让更多人体验云计算，让云端的计算更质朴的落地。现身杭州云栖大会，分享在运维方面关注容器、云原生技术对企业未来软件的部署会有非常大的改变。章斌：数字化转型项目实践案例解析十年以上IT行业从业经验，专注于云计算与大数据方向。章斌带来杭州云栖大会参会不一样的感受，阿里云联合厂商做了产品及解决方案的发布，在新技术、新工具的基础上，有了更多的联合解决方案向客户输出，让客户更能感受到服务的价值。想随时学习MVP最新实践与技术经验，即刻关注“阿里云MVP技术圈”，我们在阿里云开发者社区等您！第11期阿里云 MVP 全球招募进行中，期待您的加入，点击申请。上期精彩内容：MVP精选20191025 如果您还希望阿里云

大數據

云栖全程回顾|搜索推荐工程技术专场（附视频与文档）

click / 2019-10-31

2019年9月26日在云栖大会《搜索推荐工程技术专场》上，介绍了阿里巴巴搜索推荐与广告，淘系推荐算法云上赋能的分享。基于阿里巴巴十几年搜索与推荐引擎的技术沉淀，承载了包括淘宝、天猫、菜鸟、盒马、钉钉、优酷乃至海外电商在内的整个阿里集团业务，同时由搜索推荐体系支撑起的云产品矩阵已服务于全球的开发者。本次分享邀请到了阿里巴巴搜索和推荐最核心的资深技术专家，为大家带来搜索和推荐领域最前沿、专业、深度的技术内容盛宴。点击订阅<搜索推荐工程技术专场嘉宾演讲文件> 我们将以邮件形式发送一、当搜索推荐遇到广告 – 三位一体的AI·OS技术新体系曲琳–阿里巴巴资深高技术专家，负责阿里巴巴搜索工程引擎平台，本次主题主要为大家分享这一年里，阿里巴巴搜索工程体系在阿里巴巴内网、云上以及开源方面的最新进展。点击查看视频：当搜索推荐遇到广告 – 三位一体的AI·OS技术新体系二、搜索服务在云上的演进– OpenSearch 2.0行业智能搜索实践唐辉天–阿里巴巴高级技术专家从开放搜索的产品简介、开放搜索用户的开发者痛点和需求分析、基于痛点提出的解决方案即开放搜索算法产品化。三个方面进行了分享。点击查看视频：搜索服务在云上的演进– OpenSearch 2.0行业智能搜索实践三、Cloud Native时代下搜索云产品的可持续交付实践杨林–阿里巴巴技术专家分享了过去一段时间在搜索复杂业务场景下，团队在部署、交付的生产工作中的一些落地实践的经验分享，主要围绕1、开放搜索为大家提供低门槛的服务体验，背后是复杂的业务/服务组件来支撑，那么如何保障这些业务/服务组件的迭代效率。2、在搜索复杂度增加的前提下，如何降低整个系统的运维门槛。3、在云计算时代，如何在快速部署阿里云多区域的情况下，减少成本、并快速部署提升交付效率。

大數據

Java Rest请求工具

click / 2019-10-31

一、添加依赖 <dependency> <groupId>cn.gjing</groupId> <artifactId>tools-httpclient</artifactId> <version>1.2.1</version> </dependency> 二、使用说明返回值类型最好与目标方法一致，否则可能会出现转换异常，在不确认返回类型时最好使用String去接收。在请求结束后，可以通过get()方法获取返回的内容，也可以通过listener()方法指定监听者去监听结果返回后的处理逻辑 1、无参数请求 public class Test{ public static void main(String[] args) { String result

大數據

基于 Spark 和 TensorFlow 的机器学习实践

click / 2019-10-31

本场视频链接：https://developer.aliyun.com/live/1547?spm=a2c6h.12873581.0.0.71671566iIzpz5&groupCode=apachespark 本场PPT资料：https://www.slidestalk.com/AliSpark/201960935 EMR E-Learning平台 EMR E-Learning平台基于的是大数据和AI技术，通过算法基于历史数据来构建机器学习模型，从而进行训练与预测。目前机器学习被广泛应用到很多领域，如人脸识别、自然语言处理、推荐系统、计算机视觉等。近年来，大数据以及计算能力的提升，使得AI技术有了突飞猛进的发展。机器学习中重要的三要素是算法、数据和算力。而EMR本身是一个大数据平台，平台之上拥有多种数据，比如传统的数据仓库数据、图像数据；EMR有很强的调度能力，可以很好地吊调度GPU和CPU资源；其结合机器学习算法，就可以成为一个比较好的AI平台。典型的AI开发流程如下图所示：首先是数据收集，手机、路由器或者日志数据进入大数据框架Data Lake；然后是数据处理，收集到的数据需要通过传统的大数据ETL或特征工程进行处理；其次是模型训练，经过特征工程或ETL处理后的数据会进行模型的训练；最后对训练模型进行评估和部署；模型预测的结果会再输入到大数据平台进行处理分析，整个过程循环往复。下图展示了AI开发的流程，左侧是单机或者集群，主要进行AI训练和评估，包含数据存储；右侧是大数据存储，主要进行大数据处理，如特征工程等，同时可以利用左侧传输的机器学习模型进行预测。AI开发的现状主要有以下两点：• 两套集群运维复杂：从图中可以看出，AI开发涉及的两套集群是分离的，需要单独维护，运维成本复杂，容易出错。• 训练效率较低：左右两侧集群需要大量数据传输和模型传输，带来较高的端到端训练的延迟。EMR作为统一的大数据平台，包含了很多特性。最底层基础设施层，其支持GPU和CPU机器；数据存储层包括HDFS和阿里云OSS；数据接入层包括Kafka和Flume；资源调度层计算引擎包括 YARN、K8S和Zookeeper；计算引擎最核心的是E-learning平台，基于目前比较火的开源系统Spark，这里的Spark用的是jindo Spark，是EMR团队基于Spark改造和优化而推出的适用于AI场景下的版本，除此之外，还有PAI TensorFlow on Spark；最后是计算分析层，提供了数据分析、特征工程、AI训练以及Notebook的功能，方便用户来使用。EMR平台的特性主要有以下几点：• 统一的资源管理与调度：支持CPU、Mem和GPU的细粒度的资源调度和分配，支持YARN和K8S的资源调度框架；• 多种框架支持：包括TensorFlow、MXNet和Caffe等；• Spark通用的数据处理框架：提供Data Source API来方便各类数据源的读取，MLlib pipeline广泛用于特征工程；•

大數據

带你读《增长密码：大型网站百万流量运营之道》之一：引言

click / 2019-10-31

增长密码：大型网站百万流量运营之道点击查看第二章|第1章| 引言 2019年1月10日召开的“第二届中国域名发展大会”上，工信部信息通信管理局副巡视员游建青透露：“我国域名注册总数超过4千万，其中中国国家域名注册量超过了2000万，在世界域名市场名列前茅。”随着互联网时代的来临，诞生了许许多多的网站。根据CNNIC数据显示，截至2018年6月，中国网站数量为544万个，半年增长率为2.0%。而其中有多少是大型网站呢？目前仍然没有一个权威数据机构能够准确地回答。在了解这个数据之前，我们需要先知道什么叫大型网站。网上没有相关的权威解释。笔者的理解是这样的：所谓的大型网站，指的是网站每天访问量达到一定规模（如日均IP10万以上）的网站。由于行业对于大型网站没有一个标准，根据笔者多年的经验，暂且把日均10万IP作为一个大型网站的临界点。超过10万IP就是大型网站；否则就不属于大型网站。例如，500wan彩票网、网易彩票及一呼百应网站每天的日均IP都超过了10万，因此这3个网站都属于大型网站。根据虎勇网内部数据资料显示，全国预计有2000～3000家大型网站。而这么多大型网站，其大部分流量究竟来自哪里呢？其实大型网站的大部分流量主要来自搜索引擎。而来自搜索引擎的流量主要为SEO，也就是自然搜索。在这样一个流量“昂贵”的年代，能够从搜索引擎每天免费获得10万IP以上的流量，这是一件多么令人向往的事情。尤其是创业者和企业家们更是绞劲脑汁、想尽一切办法想把搜索引擎的免费流量给引流过来。搜索引擎的流量究竟有多贵？用过搜索引擎关键字竞价广告系统的人都知道。不同的行业和不同的关键字价格差距非常大。例如，有的行业，每次的IP点击价格为0.2元，而有的行业，每次IP点击价格为50元。这里我们姑且按照每个IP点击价格0.5元（暂且作为一个平均值）计算吧。如果每天有10万IP，则每天的花费为5万元，一年的花费为5×365=1825万元。如果每天有100万IP，则一年花费的广告费为1.825亿元。因此，光从节省广告费用这一核心诉求来讲，也足以引起广大互联网从业者的重视了。但是即便这样一个非常大的有商业价值的事情，目前在移动互联网时代，特别是人工智能时代，大家似乎已经遗忘了PC时代非常有效且几乎免费的SE0推广方法。基于此，笔者决定给大家普及一下大型网站SEO方面的知识，让人人都能成为自己网站的首席流量官。什么叫SEO？百度百科的解释是这样的：SEO（Search Engine Optimization，搜索引擎优化）是一种方式，利用搜索引擎的规则，提高网站在有关搜索引擎内的自然排名。笔者的理解是这样的：SEO就是通过某些方法或手段，达到在搜索引擎排名靠前的目的。什么叫大型网站的SEO，又或者说大站SEO？所谓大型网站SEO，指通过某些方法或手段，达到让大型网站在搜索引排名靠前的目的。要做好大型网站的SEO，就得做好与用户搜索相关的内容运营、产品运营、渠道运营和活动运营。相比市面上的SEO书籍，本书更侧重于SEO的思维和方法，因为本书讲的大部分成功案例都是笔者亲自参与的，是笔者对SEO思维和方法的总结，因此更能让你快速地学习并掌握。 1.1大型网站未来的流量增长方式谈到大型网站的流量增长方式，大家首先想到的就是广告投放和事件炒作这些付费的推广方式，很少有人会想到免费的推广方式。而目前大型网站的流量增长方式，主要还是依赖于免费的推广方式—SEO。除非后期SEO流量遇到瓶颈，不得不依赖于其他推广方式。那么未来大型网站的流量增长方式会是什么呢？自从进入了移动互联网时代，人们慢慢习惯了App、微信公众号及微信小程序这样的交互方式。而对于网站，除了在上班时间内，平时几乎很少光顾。当然，也有一些人习惯用手机在移动搜索引擎上搜索信息并访问手机网站。根据CNNIC数据显示，截至2012年6月，手机上网人数超过了电脑，来自移动端的搜索流量超过了PC（个人计算机）端的搜索流量。因此，从2012年开始，大型网站的流量最终依赖于移动搜索引擎带来的流量，也就是移动SEO显得特别重要了。什么叫移动SEO呢？笔者认为移动SEO应该从狭义和广义两个方面来定义。狭义的移动SEO指的是基于网页的移动搜索引擎的优化。也就是基本上仍然在“老一辈的PC搜索引擎大佬”的基础上进行优化。因为这些“大佬”进军移动搜索引擎只需要做一个移动适配就好了，本身仍然是基于网页。而广义的移动SEO指的是基于各种可以交互的载体（可以交互的介质）的移动搜索引擎的优化，如App、小程序等。大型网站未来流量的增长方式主要还是移动搜索引擎优化，也就是移动SEO。本书重点探讨的是基于页面的移动搜索引擎的优化，也就是狭义的移动SEO。当然后面也会提到广义的移动SEO。 1.2SEO—免费流量的秘密免费的网站推广方式有哪些呢？笔者总结了以下两类供大家参考。 1.2.1线下免费推广常见的线下推广方式有以下几种：1．发传单对于同城的营销推广，发传单是一种非常传统但又非常有效的推广方式。很多房地产销售公司就喜欢用发传单这种方式做推广。我们经常会在地铁口、步行街和商场等人流量密集的地方看到发传单的人员。为什么会在这些地方看到发传单的人呢？因为发传单最核心的要点就是要选对地方。如何选对地方？笔者认为需要考虑以下几方面：（1）分析你的目标受众群体，他们经常会在哪里出现？（2）他们经常出现的地方中，哪些地方人流量比较大？（3）预计需要安排多少人发传单？考虑到以上几点后，基本就能找到不错的地方发传单了。但是，发传单其实也是一件最容易被人反感的事，发传单的人容易受打击。说到这里，笔者不得不讲一下自己发传单的经历。我大学刚毕业的时候，在一家网络公司工作，这个网络公司是做传奇私服这块的。传奇私服当时属于灰色行业，因为当年盛大游戏都在严厉打击这类私服游戏公司。这个公司突发奇想，想做一个教别人如何搭建传奇私服、如何运营传奇私服并赚钱的课程。我跟几个新来的员工负责地推（地面推广）。主要的地推方式就是进入本地的各大高校内发传单。我和几个新来的员工一起“乔装打扮”进入了一所高校，然后看到学生就发传单。最后还进入了学生的寝室，一个房间一个房间、一层一层、一栋一栋地发传单。最终我们还是被学校的保安发现了。保安怀疑我们是小偷，扣下了我们，并搜了我们的包，结果发现包里除了宣传单，没有任何东西。最终因为我们都是刚出校的大学生，保安还是放了我们，并警告我们，不要再来学校发传单。经历了这件事情之后，笔者心里受到了一定的打击，觉得发传单是件让人恐惧的事情。于是决定以后再也不做发传单的事情了。之后，笔者离开了这家公司，去了一家做B2B的互联网企业，开启了笔者的SEO之旅。2．扫楼所谓扫楼，就是一栋一栋、一层一层地上门推广。扫楼的推广方式非常适合小众群体的推广，例如信用卡、400电话、团体旅游和住宿等。这种推广方式主要靠的就是“人海”战术。人越多，推广的力度和强度就越大。比如，笔者的信用卡大部分都是在那些通过“扫楼”方式推广信用卡的人员那里办理的。作为一名职场人士，周一到周五都在上班，对于办理信用卡这样的事情，可能很少接触，也很难了解其中的好处（也许有些人知道信用卡的方便，但是由于自己主动去申请时获得的额度不高，因而就会放弃向银行申请办理信用卡）。有一天有一个通过“扫楼”过来的信用卡推销人员对我说，“你好，请问需要办理XX银行的信用卡吗？我有特殊通道，如果你的资质好，申请一张白金信用卡应该是没有问题的。”一听到白金信用卡，笔者立刻来了兴趣，要是自己去银行申请，需要提供非常多的资料才能有资格申请白金卡，而且就算提供了相关资料，也不一定会批准。于是笔者跟推销人员说想办理一张。就这样，在不耽误工作的前提下，笔者花了十几分钟的时间，填了几张表格，拍了照片，不到一周的时间白金信用卡就申请下来了。有了这样的体验后，以后每次有人到公司推销信用卡，笔者都会第一时间报名、了解，并尽量去申请。扫楼推销的好处是为客户节省了自己跑腿的时间，并且为客户开辟了一个特殊的优惠购买渠道。扫楼推销的坏处是，推销人员会因为受不了用户的拒绝，以及保安和物业管理人员的驱赶而放弃这项工作,推销人员流失率非常高，需要企业不断地招聘新人、培训新人。这样的推广成本是非常高的。3．线下资源互换线下资源互换就是用自己的资源置换别人的同等资源。这样做的方式可以节省大量的推广预算。举例1：假如自己的公司有会议场地，与其闲置着不如与一些经常举办会议的公司进行资源互换。比如，可以置换别人的一些广告赞助商的名额，这样就可以免费在别人的会议上进行广告宣传、品牌曝光了。举例2：假如自己的公司是做软件开发的，由于近期业务不景气，项目比较少，导致现有的开发团队一直工作处于不饱和甚至空闲状态。而你作为公司的负责人，又不能辞掉这些人，因为未来一旦有项目进来，并不能马上招聘到这样的技术人员。先不说招聘员工有多么不容易，就算你能很快就招聘到一批人，但是，招聘的新员工对你公司目前的项目开发方式需要一个适应的过程。这里面就存在极大的风险性和不确定性。究竟有哪些风险呢？笔者作为一名创业公司的负责人，以“过来人”的身份告诉你，有以下几种风险：你招聘来的人，可能因为跟你性格不合而离职。你招聘来的人，干了一段时间，发现外面还有更好的机会（如薪资更高、职位更高），于是辞职了。你招聘来的人，可能因为觉得你的企业氛围不够好，工作起来感觉很压抑等原因而离职。你招聘来的人，可能因为看不到你公司未来的发展方向而离职。既然有这么多的风险，作为软件开发公司的负责人，你会怎么办？当然是继续“养着”他们呀，但是不能让他们闲着，得给他们安排其他的事情做。在这个时候，资源互换就是一个非常不错的选择。例如，X公司是一家广告公司，这家公司有大量的广告资源。他们此时刚好需要做一个App，怕自己没有技术团队，老板也没有给多少预算来完成这个事情。这个时候你可以去找他们合作，用你的软件开发技术去置换对方的广告资源，让他们帮你免费打广告，对你的公司进行广告曝光和品牌宣传。而你可以用现有的技术团队，帮他们进行App开发。这样做的结果就是，你的公司名气大增，对方同时也拥有了自己的App。这是一个双赢的局面。线下的资源互换对从业人员要求很高，具体如下：首先，需要对所处行业的产品、营销方式有所了解。其次，要对企业各部门的成本有所熟悉，甚至要做到非常精通，包括产品的研发成本、人工成本及营销成本。最后，需要懂得如何谈判，既要照顾到双方的利益，又要尽量地让自己公司的利益最大化。因此，这样的人非常难找，一般都是从销售负责人、商务负责人、公关负责人里寻找，大部分需要公司老板亲自出马解决。 1.2.2线上免费推广下面介绍几种常见的线上推广方式。1．论坛推广所谓的论坛推广，就是去各大论坛“扮演”真实用户，从用户的角度出发去宣传自己的网站或产品。这里要注意，如果你不扮演成真实的用户，很容易被论坛封禁。笔者分享几点之前做论坛推广的经验。先要了解自身产品的用户群体，他们一般都会去哪些论坛。确定好论坛之后，前期先在论坛注册3个以上的用户账号，并尽快地熟悉论坛和板块的规则。扮演真实用户，为论坛贡献一些高质量的内容。跟论坛其他用户多打招呼，多交流，多分享。当在论坛的等级稍高一点的时候，可以再考虑植入一些软文。看到这里，很多人会问，有必要这么做吗？其实，如果你不这么做，你会发现，你注册多少个用户账号，就会被封多少个。因为你对论坛没有贡献，没有价值,论坛凭什么让你在这里发广告呢？要利己，先要利他。就算是发广告，也要“软性”一点，并适可而止，这样，你的论坛推广才能持久，才能越来越有效。2．QQ群推广所谓的QQ群推广，就是去相关的QQ群里，一对多或一对一地推广自己的网站或产品。3．微信群推广微信群推广，就是去相关的微信群里，一对多或一对一地推广自己的公众号或产品。4．朋友圈推广朋友圈推广，就是在自己的微信朋友圈里，模拟一个真实用户的日常发文，有技巧和策略地曝光自己的公众号或产品。5．新媒体推广新媒体推广，指的是利用新媒体平台进行推广的方式。新媒体的推广渠道一般有微博、微信、SNS、博客、播客、BBS、百科、音频分享平台、网络直播和短视频平台等。当然，我们目前所指的新媒体推广，主要还是以移动互联网为主体的平台，例如微信、微博、网络直播、短视频和音频分享平台等。6．SEOSEO推广是本书的重点，这里就不必多解释了。7．微博推广其实微博推广算是新媒体推广里面的一个细分领域，主要是利用微博进行推广。由于微博推广这个概念比新媒体的概念诞生得更早，因此，这里还是单独拿出来介绍。微博推广是一种在PC时代非常有效的推广方式之一。只是适合在这个平台推广的行业有限，因此没有成为主流的推广方式。特别是对于从事微博推广的人员来说，需要一定的专业功底，甚至需要一定的“天赋”。微博推广又分为付费推广和免费推广。这里主要讲免费推广。我们都知道，微博推广中做得非常不错的算是杜蕾斯官方微博了。基本上每出现一个热点，其都能很好地结合自身的产品，产生一些创意口号和海报，如图1-1所示。这条微博的内容为：“#妇女节# 做对事，爱对人。”意思是发起一个妇女节的话题，口号为“做对事，爱对人。”笔者对图片的内容大致理解如下：

大數據

从宇宙到生命：为什么我们需要不断提高基因测序通量？

click / 2019-10-31

探索宇宙：天文学六百年发展脉络在牛顿所处在的启蒙时代，人类通过新工具新方法观察到新现象，建立新理论，带来新的生产生活方式方式和新的生态环境。如今，工具的进步速度让人惊叹，人类在探索时空和探索生命的道路上，已经进入了大数据的阶段。这意味着，捡到几个石子和贝壳是远远不够的，要精确地观测新现象，必须依赖大数据来探索、观察、记录“整个沙滩和海洋”，才能找到“阳光下的新鲜事”。我是谁，我从哪里来，要到哪里去？——人类的好奇心永无止尽。新工具和新方法让人类观察到新现象，带来新概念和新理论，帮助我们指导新实践、开创新世界。新的现象，既来自于无穷大和无穷小的宇宙时空和物质世界，也来源于我们自身——千变万化的生命世界。对于“无穷大”和”无穷小“代表的未知物质时空，天文学六百多年的发展脉络清晰可见：公元前到16世纪，人类通过浑天仪和望远镜等仪器对天空持续定点观测。我国的“甘德-石申星表”记载了121颗恒星，喜恰帕斯星表记载了1022颗恒星。人类对恒星的精确观测是从发明天文望远镜的伽利略开始的，由此开启了日心说的思潮。第谷的《鲁道夫天文表》以分的弧度精度记载了1005颗恒星和五大行星位置，启发“天空立法者”开普勒发现行星运动三大定律，进而使牛顿得以发现万有引力定律。 1609到1619年，随着万有引力定律这枚“美丽的贝壳”的发现，天文学进入通过理论计算指导观测的时代。利用大型反射式望远镜，配合行星摄动理论的指导，人类先后发现了哈雷彗星、天王星、海王星和冥王星，太阳系有了“全家福”。随着地理大发现、全球时区的应用和全球市场的建立，人类观测的星空也快速扩大，到了1785年，赫歇尔用望远镜所作的1083次观测，通过117600颗恒星的数据，加上若干假设，得出了天文学史上第一个银河系模型。赫歇尔应用的天文望远镜和银河系模型 10-20世纪，偏振光度仪、光谱仪、照相术的应用，让人类得以开展大规模巡天照相和恒星、星云的光度、光谱分析。这期间星表规模不断扩大，丹麦天文学家赫茨普龙和美国天文学家H.N.罗素通过恒星光度和光谱的全面观察让提出“主星序”的概念，指出我们的太阳也如其他恒星一样，会成长、衰老和死亡；对星云的观测让哈勃提出宇宙大爆炸的概念，让人类得以追溯宇宙的起源；爱因斯坦、爱丁顿、史瓦西、霍金等一批大家提出相对论、宇宙背景辐射、引力波、黑洞等理论把“无穷大”的未知变成可验证的物理模型，而国际标准时间、GPS等已从概念变成生活中习以为常的应用。哈勃观测星云使用的望远镜，是当时最大的天文望远镜。通过星系的红移-距离关系发现的哈勃常数，促使现代宇宙学的诞生。 20世纪后期-至今则是以哈勃太空望远镜、旅行者探测器、引力波探测器等大科学装置为代表的时代。通过大数据获取、对比、分析、挖掘获得包括深空星体、地外行星、类星体、暗能量、暗物质等天体的信息已经是常规操作。人类开始掌握多尺度、实时、全景的宇宙图像。 “无穷大”的物质世界已经是一片大数据的汪洋大海。我们能够观测到的宇宙：银河系含有(1~4)×1011颗恒星，直径8.8×1026 米，合93×109光年，目前对宇宙中星系数量估计为2×1011（2000亿） – 2×1012（20000亿个) ，大多数星云的大小是 3×103 – 3×105 光年，之间的距离为数百万光年……

大數據

【最全合集】一文看尽 2019杭州云栖大会 MaxCompute 技术分享

click / 2019-10-30

摘要：本文汇集2019杭州云栖大会上MaxCompute的主题分享，内容涵盖MaxCompute技术关键进展及展望，超大规模企业级计算引擎，分布式智能调度执行框架，列式存储引擎，MaxCompute生态，大数据平台的安全风控以及混合云模式下 MaxCompute + Hadoop 混搭大数据架构实践等内容，从底层技术到最佳实践，内容广泛而深入，希望能让读者有所收获。 ————————————————-以下为主题分享视频及文章整理——————————– 阿里巴巴大数据技术关键进展及展望关涛阿里云智能计算平台事业部研究员观看现场视频 >>>阅读文字版 >>> 简介：2019杭州云栖大会大数据技术专场，由阿里云通用计算平台负责人关涛带来以 “阿里巴巴大数据技术关键进展及展望” 为主题的演讲。本文首先讲解了从阿里巴巴的角度看待大数据领域的客户价值迁移，概览了核心技术的发展点，最后针对如何构建智能化大数据平台的相关工作进行了介绍，从引擎优化到 “自动驾驶”，并列举典型案例。一条SQL在 MaxCompute 分布式系统中的旅程侯震宇

大數據

滴滴经验分享：SQLFlow如何让运营专家用上AI？

click / 2019-10-30

蚂蚁金服过去十五年，重塑支付改变生活，为全球超过十二亿人提供服务，这些背后离不开技术的支撑。在2019杭州云栖大会上，蚂蚁金服将十五年来的技术沉淀，以及面向未来的金融技术创新和参会者分享。我们将其中的优秀演讲整理成文并将陆续发布在“蚂蚁金服科技”公众号上，本文为其中一篇。自从今年4月份开源以来，SQLFlow受到了业界和社区的广泛关注。SQLFlow项目以社区主导，与外部开发者进行合作与共建的形式运营。滴滴出行作为蚂蚁金服当前共建回馈开源社区的重要合作伙伴之一，从自己的场景实际应用出发将SQLFlow进行了落地应用。 9月27日，滴滴数据科学部首席数据科学家谢梁和蚂蚁金服研究员王益在云栖大会上就SQLFlow的产品形态、产品使命愿景、在滴滴的落地应用、未来前景展望等几个部分给大家进行了详细的介绍。从SQLFlow的愿景说起如果你还对SQLFlow还不了解，可以阅读我们之前的介绍文章，或者查看项目官网：https://sqlflow.org 简单理解的话，SQLFlow = SQL + AI，你可以把SQLFlow看做一个编译器，它可以把经过扩展的SQL语句翻译成AI引擎能够运行的代码。 SQLFlow的愿景是：推进人工智能大众化、普及化，也就是只要懂商业逻辑就能用上人工智能, 让最懂业务的人也能够自由地使用人工智能。传统建模流程中，通常由业务专家（分析师、运营专家、产品专家等）提出具体需求，通过产品、数据科学、算法、开发、测试等多个角色配合完成具体建模任务。很多情况下，由于大家的专业背景不同，如业务专家不懂AI的原理细节、算法工程师也很难理解业务逻辑的巧妙之处，就会导致沟通成本过高。而即使是基于上述条件完成的模型，往往也不能抽象成应用更广泛的通用模型。如果要让SQLFlow解决前面的问题，就涉及到三个核心要素，第一是数据描述商业逻辑，这个在SQLFlow语句上已经得到了比较好的实现；第二，用AI来赋能深度的数据分析。当前数据分析师的大量工作是获取原始数据，然后把它们整理加工成为可以对业务现状进行描述和评估的指标，但是数据分析师的核心工作绝不仅仅只是数据的简单汇总和加工，他们需要花更多的时间或者发展更好的能力去建立预测模型，进而解读数据并研究数据的内在关系，SQLFlow赋予了他们极强的能力，帮助他们对这些数据进行深度的挖掘，从而正确地解读数据背后用户的行为以及更好抽象出合理的行为规律或商业逻辑；最后，它必须是一个非常易用的工具，让使用者的学习成本或者学习门槛降到最低。 SQLFlow的潜在用户包括了运营专家、商业分析师和数据分析师，他们非常了解业务，只需要直接去调用对应的AI解决方案，一句话、一段SQL的代码就完成一次建模任务，这样的流程只需要业务专家通过SQL同SQLFlow打交道，降低了沟通成本、沟通损耗。建模成本降低，业务专家也可以进行更加激进的探索和更富想象力的尝试；同时高价值的代码和抽象出的智慧会以模型的具象形式沉淀在SQLFlow模型池里面。例如，一个西宁的运营专家看到北京的分析师频繁地调用这个模型，他也可以去调用这个模型进行迁移学习解决本地区的类似问题，因此他的建模成本和经验成本都会进一步降低，知识的传播在SQLFlow的帮助下很容易就能打破地域和行业的限制。 SQLFlow都用在了哪里？ SQLFlow已经在蚂蚁金服和滴滴得到了大规模的落地并得到了较好的反馈。在滴滴，它被用在商业智能业务场景，在蚂蚁金服，SQLFlow则被用在精准营销场景，这些场景都符合业务专家需求灵活多变的情况。SQLFlow也会探索更丰富的使用场景。滴滴是如何用SQLFlow的在应用SQLFlow的时候，滴滴首先需要解决的问题就是与数据的整合。滴滴的大数据平台基于Hive进行打造，SQLFlow主要与Hive集群进行对接。图上蓝色的部分就是SQLFlow服务器，围绕服务器有三个部分，第一部分在上面是滴滴的Notebook，所有的数据分析师和运营专家都在Notebook上操作和编写SQL代码，然后通过SQLFlow服务器连接数据服务器。