大數據 – Page 142 – 小科科的春天

F1 Query: Declarative Querying at Scale

click / 2020-01-13

作者：陶克路，花名敌珐，阿里巴巴技术专家。Apache Pulsar 等开源软件 Contributor。技术领域包括大数据和云原生技术栈，目前致力于构建大数据领域业界领先的 APM 产品。原文链接距离 Google 的上一篇 F1 论文，也就是 F1: A Distributed SQL Database That Scales 已经 […]

大數據

让机器读懂视频：亿级淘宝视频背后的多模态AI算法揭秘

click / 2020-01-10

作者|阮彤枭（晓何）、燕保明（元年）、王琳（有邻）出品|阿里巴巴新零售淘系技术部背景随着4G的普及和5G的推出，内容消费的诉求越来越受到人们的重视。2019年互联网趋势报告指出在移动互联网行业整体增速放缓的大背景下，短视频行业异军突起，成为“行业黑洞”抢夺用户时间，尽管移动互联网人口红利见顶，新的增长点难以寻觅，但中国短视频人均使用时长及头部短视频平台日均活跃用户均持续增常(如图1所示)。图一在淘宝，短视频业务一直以来都是非常重要的业务，是淘宝app从单一的商品导购app走向商品导购+内容消费的多元化app的关键所在。相较于单一的商品导购，商品导购+内容消费的模式有效增加用户粘性，提高用户的停留时长，最终获得GMV的持续增长。不仅如此，2019年视频营销发展趋势白皮书指出目前视频内容的转发量已达到图文的12倍，视频营销已经成为品牌最爱的营销方式，使用视频营销比不使用视频营销收入增长速度快49%，且从搜索获得的网站流量多41%。现如今淘宝每年新增内容数达数十亿，其中视频数占比持续提升，预计到2022年视频的占比会超过50%。如何对规模如此庞大的视频进行内容化理解，高效赋能视频运营和个性化分发变得极为关键。视频类目体系视频内容化理解的首要问题是构建一个完备的、层次化的类目体系，相比于传统的淘宝商品类目体系，视频类目体系需要解决两大问题。一是提高运营的精细化能力，提供内容的盘货和定向生产、以及快速搭建会场的能力；二是针对新生产的视频提供冷启动能力，提升分发的效率。虽然淘宝的商品类目体系可以部分代替视频类目体系的功能，但会导致短视频业务的用户心智和商品导购业务同质化，因此构建一套属于短视频业务自己的视频类目体系已经迫在眉睫。有了构建完成的视频类目体系，另外一个更重要的问题是产出高效的视频分类算法，用于对海量的视频进行标签生成。为了获得好的点击效果，视频生产者往往会采用吸引眼球的封面图或者标题，但是和视频本身的内容关联性很弱。此外，淘宝的视频天然和商品有强关联性，如何利用好商品的信息也非常关键。不同于抖音美拍等其他视频的内容体系从新闻、科技、金融等领域做分类划分，淘宝的视频类目体系从商品导购、产品功能展示、商品知识获取等角度出发，由行业经验丰富的运营进行设计，包含了30+一级类目和150+二级类目，其中一级类目是对视频的领域的划分，例如服饰/家居日用/美食/萌宠等，二级类目是在一级类目的基础之上对视频的子领域的划分，例如一级类目服饰下的熟女穿搭/少女穿搭/儿童服饰/中老年穿搭等，图2是视频类目体系的几个案例。在这个体系之上多媒体算法团队投入近半年的时间提出了基于模态注意力机制的多模态分层视频分类算法。图二多模态分层视频分类算法 ▐ 视频分类的难点多模态：淘宝短视频的信息是非常丰富的，有视频/封面图/文本/音频/商品等模态，分别刻画了短视频不同维度的信息，这些信息的展示形式都是非结构化的，如何将非结构化的信息转化成结构化的特征是一大难点。不同模态的信息在不同的视频中对类别的贡献度也是不一样的，小部分视频通过标题就可以简单地推测出类别，但大部分视频的标题有效信息过少，需要兼顾其他模态信息才能推测出类别，因此在算法的训练中如何协同不同模态的特征，达到不同模态特征互补的效果又是另一个难点。层次化label：单独使用二级类目的label虽然也可以进行算法的训练，但是无法使算法达到最优的效果，因为不同一级类目下面的二级类目之间的差距是远大于同一个一级类目下面的二级类目之间的差距的，单独使用二级类目的label无法学习到这个信息。因此如何在算法的训练中充分利用一级类目+二级类目的层次化label同样是一个难点。模态信息缺失：淘宝视频包含多种不同的模态信息，然而这些视频不一定包含全部的模态信息，有些视频没有外挂商品，有些视频没有对应的视频标题或者摘要，还有的视频没有封面图。如何让算法能够自适应模态缺失的情况也是一个难点。 ▐

大數據

DataWorks数据分析模块全新发布，快速的数据智能洞察平台

click / 2020-01-10

DataWorks数据分析概述数据分析主要提供表格模式的MaxCompute表操作、电子表格协同编辑和统计分析、可视化报表搭建和分享等核心功能。凭借简单易用的操作界面，使数据变化所见即所得，可视化完成数据的修改和分析、报表的搭建和分享，支持电子表格、可视化报表、维表三种分析形式。 DataWorks数据分析产品入口通过DataWork功能入口-全部产品-数据分析即可进入数据分析模块首页 DataWorks数据分析核心功能 1. 电子表格编辑明细数据，支持加减乘除基础运算、函数套用、分类汇总等多类型数据加工方式。在线协同编辑可邀请小伙伴们共同完成表格内容的编辑透视分析可选择不同的列进行分类汇总；可按条件展示不同格式 2.可视化报表自助完成可视化探索和报表制作，无需写SQL代码，所有过程均可通过鼠标拖拽、点选完成。 18+种控件丰富的控件选择，可以满足多种分析场景按权限分享分析结果可进行权限设置，分享给特定的人 3.维表表格式建MaxCompute表、编辑数据，无需SQL即可一键生成、多人协作修改，为您的数据工作添砖加瓦表格式建表无需编写 DDL/Insert 语句，MaxCompute表行列数据所见即所得转存表电子表格的编辑数据可一键转存为MaxCompute表 DataWorks数据分析功能示例 1. DataStudio搜索结果直接透视在DataStudio/数据分析工作台等DataWorks的研发模块执行select语句获取一个或多个表的查询结果，直接对结果数据开始透视分析。

大數據

如何快速上手 AB Testing ？淘系技术专家秘方公开

click / 2020-01-10

作者|乔福出品|阿里巴巴新零售淘系技术部本文内容大纲： 1、什么是 A/B Testing？ 2、A/B 仅仅是分流吗？ 3、怎么样才是科学的 A/B 实验。什么是 A/B Testing？关于A/B 有很多层的定义，通俗来说，A/B 是一种工具，通过分隔 A 和 B

大數據

小米流式平台架构演进与实践

click / 2020-01-10

作者：夏军@小米小米业务线众多，从信息流，电商，广告到金融等覆盖了众多领域，小米流式平台为小米集团各业务提供一体化的流式数据解决方案，主要包括数据采集，数据集成和流式计算三个模块。目前每天数据量达到 1.2 万亿条，实时同步任务 1.5 万，实时计算的数据 1 万亿条。伴随着小米业务的发展，流式平台也经历三次大升级改造，满足了众多业务的各种需求。最新的一次迭代基于 Apache Flink，对于流式平台内部模块进行了彻底的重构，同时小米各业务也在由 Spark Streaming 逐步切换到 Flink。背景介绍小米流式平台的愿景是为小米所有的业务线提供流式数据的一体化、平台化解决方案。具体来讲包括以下三个方面：流式数据存储：流式数据存储指的是消息队列，小米开发了一套自己的消息队列，其类似于 Apache kafka，但它有自己的特点，小米流式平台提供消息队列的存储功能；

大數據

产品内测招募：物联网平台数据分析v2.0

click / 2020-01-10

数据分析v2.0核心迭代如下 1.新增数据资产，可以统一查看数据服务API和物标签。官方提供大量实用API和物标签，方便用户在应用和IoTStudio中直接使用。2.新增可视化分析能力，本期上线：时序透视、可视化物分析两大能力，不会代码一样分析了解物联网数据。内测申请入口 https://survey.taobao.com/apps/zhiliao/kFqgtuQz 用户交流群（钉钉）

大數據

DataWorksV3.0全新发布，新特性快速一览

click / 2020-01-10

DataWorks V3.0发布 • 发布版本：DataWorks V3.0• 发布时间：2019年12月18日• 发布范围：全球所有已开通DataWorks的地域• 发布内容：DataWorks V2.0仅支持MaxCompute计算引擎，DataWorks V3.0全新升级了多引擎架构，在MaxCompute的基础之上，全新支持了开源大数据引擎E-MapReduce、实时计算（Flink）、交互式分析、图计算服务（Graph Compute）。同一个工作空间支持多个引擎实例，方便对业务、任务和表进行统筹管理。同时支持跨地域任务依赖调度，任务调度更加灵活，方便跨地域业务之间协同工作。 DataWorks V3.0 核心特性 1. 支持多种计算引擎DataWorks V3.0全新升级了多引擎插件化架构，在V2.0版本仅支持MaxCompute计算引擎的基础之上，在MaxCompute的基础之上，全新支持了开源大数据引擎E-MapReduce、实时计算（Realtime Compute）、交互式分析、图计算服务（Graph Compute）。• MaxCompute：大数据计算服务MaxCompute（原名ODPS）是一种快速、完全托管的EB级大数据计算引擎，是大规模离线数据仓库的核心引擎。DataWorks支持的最早的也是支持的最成熟完备的计算引擎，目前几乎已经覆盖了MaxCompute的所有能力。•

大數據

DataWorksV3.0 批量上云功能增强

click / 2020-01-10

批量上云对于用户来说一个非常快捷的支持现有数据库迁入阿里云的工具，此次改进增强了易用性，覆盖更多的迁移场景，操作也更加具备灵活性。批量上云增强点 1.可以指定目标MaxCompute数据源，以前固定只能为odps_first。 2.可以指定目标工作流程，以前只能每次都自动生成一个新的。 3.可以针对同步任务进行带参数的自定义命名，以前只能是系统固定命名。 4.可以对生成的目标表具备带参数的自定义命名，以前只能是系统固定命名。 5.可以在没有发布前，一次性撤销所有建立的任务和表，以前无法撤销。 6.可以查看每次批量生成的具体任务，以前无法查看此次批量都生成了哪些任务。更多批量上云功能介绍请查看文档：https://help.aliyun.com/document_detail/146671.html

大數據

【内含分享PPT/视频/文章】阿里云MVP学院MaxCompute技术闭门会线上首播 | 2019大数据技术公开课第二季

click / 2020-01-10

构建企业级大数据平台的经验和对未来的思考分享人：关涛阿里云智能通用计算平台负责人、研究员直播回看基于阿里云MaxCompute构建企业云数据仓库CDW的最佳实践建议分享人：云郎阿里云智能资深产品专家直播回看阅读文字版分享资料下载优酷背后的大数据秘密分享人：门德亮新零售技术事业群数据技术专家直播回看阅读文字版分享资料下载当各行各业遇到大数据分享人：郑林贵天弘基金大数据技术总监程异丁衣二三 CTO吴水永人人车大数据平台负责人有咖互动

大數據

阿里巴巴大规模应用Flink的踩坑经验：如何大幅降低 HDFS 压力？

click / 2020-01-10

作者：邱从贤（山智）众所周知 Flink 是当前广泛使用的计算引擎，Flink 使用 checkpoint 机制进行容错处理[1]，Flink 的 checkpoint 会将状态快照备份到分布式存储系统，供后续恢复使用。在 Alibaba 内部我们使用的存储主要是 HDFS，当同一个集群的 Job 到达一定数量后，会对 HDFS 造成非常大的压力，本文将介绍一种大幅度降低 HDFS 压力的方法 —