大數據 – Page 146 – 小科科的春天

前传感知的协作传输和接收之下行链路 | 带你读《5G系统关键技术详解》之十三

click / 2019-12-31

第 3 章云无线接入网络的前向回传感知设计 3.2 前传感知的协作传输和接收 3.2.1 上行链路 3.2.2 下行链路在下行链路 C-RAN 中，每个用户的观测信号是从所有 RRH 发送的信号的叠加。具在当前的 3G/4G 蜂窝网络中，每个被调度的用户由一个基站服务并且接收到来自所有相邻基站的干扰。C-RAN 架构的优点来自多个 RRH […]

大數據

首次曝光 | 阿里数万名开发者都在使用的数据库开发工具到底长什么样？

click / 2019-12-31

除了基础的数据查询开发功能，DMS还内置SQL审核、性能诊断优化、测试数据自动生成、多环境数据对比同步、数据库日志追踪回滚、不锁表变更、访问控制、敏感数据脱敏、安全审计等高端功能。 1、丰富的数据源 ?丰富的数据库类型支持（当前已超过25种，还在不断扩展中） MySQL、SQL Server、PostgreSQL、POLARDB等关系型数据库 DRDS等OLTP数据库 AnalyticDB for MySQL、DLA等OLAP数据库 MongoDB、Redis等NoSQL的数据库管理同时还支持Linux服务器管理 ?丰富的环境来源支持阿里云数据库阿里云ECS自建数据库本地IDC自建数据库第三方云服务数据库第三方云服务器自建数据库在web端的基础上，本次发布客户端软件版，支持下载到本地即开即用；相对于web端，本次也提供了量大更新更贴近本地客户端的使用方式，降低大家的使用门槛。 1）左侧展现所有已录入DMS使用的数据库资源列表（可与web端控制台数据库列表同步）2）支持公网方式访问云数据库、云服务器自建数据库3）支持同时登录多个不同数据库切换使用 2、DMS客户端的大杀器

大數據

敬请期待！《阿里巴巴大数据及AI实战》即将上线

click / 2019-12-31

深度剖析淘宝、高德、友盟+、1688、优酷、阿里妈妈、阿里影业大数据实战场景，2020不容错过的企业大数据实战手册。阿里经济体大数据及AI典型场景最佳实践全揭秘。2019不容错过的大数据实战手册——《阿里巴巴大数据及AI实战》现在即将可以免费下载阅读啦，敬请期待。

大數據

从感知到认知：浅谈知识赋能自然语言处理

click / 2019-12-31

引言例子1：我用小号试探男友，他上当了。例子2 奥巴马是美国__ 机器真的能理解小号是什么意思吗，机器真的能预测出奥巴马是美国前总统吗？事实上，自然语言具有创新性、递归性、多义性、主观性、社会性等特点，数据驱动的模型由于缺乏结构化的知识，在很多场景会闹出大笑话。从感知到认知是机器具备认知智能，进而实现推理、规划乃至联想和创作，在一定程度上需要一个充满知识的大脑，这个大脑可以使[知识图谱]()或[认知概念图谱]()，也可以是常识库等。本位旨在梳理知识赋能自然语言处理的相关工作，并分析以下几个问题：知识能帮助文本表示学习吗？为什么知识能提升某些下游任务？如何自动获取知识？知识赋能文本表示学习在NLP进入预训练时代后，如何引入知识增强预训练效果成为了一个热门方向，事实上知识的引入对文本表示学习是正向增益的，下面介绍几个典型的知识赋能文本表示学习的工作。 ERNIE-baidu (ACL2019,AAAI2020)[1] [2] 百度提出的通过多种维度mask和持续学习的预训练框架，此模型实测对学习率较为敏感，需要大学习率才能取得较好结果，且训练难度比BERT大。 ERNIE-tsinghua(ACL2019)[3] 清华提出的引入知识图谱的预训练模型，此模型过于复杂，虽然效果较好，然不太实用。 K-BERT(AAAI2020)[4] 清华大学和腾讯的学者提出的K-BERT模型。学者们针对知识和文本的异构性和知识可能带来的噪音，巧妙的将结构化知识图谱数据以树形结构引入文本中，并通过soft position和Visible

大數據

Rethinking Information Extraction ：信息抽取的现状与未来

click / 2019-12-31

引言从计算到感知再到认知是业内学者都认同的人工智能技术发展路径。机器具备认知智能，进而实现推理、规划乃至联想和创作，在一定程度上需要一个充满知识的大脑，而信息抽取是获取知识的重要途径之一。在具体的业务场景如搜索推荐，结构化的领域知识有利于实现细粒度文本理解，有利于实现精准的复杂问答，有利于召回更相关的文档。在医疗、法律、金融等垂直领域，构建高质量的垂直知识图谱，是实现知识赋能搜索、问答、推荐等业务场景的基石，而信息抽取则是构建图谱最为重要的环节之一。然而什么是信息抽取？它有哪些挑战？发展状况如何？未来趋势又是怎么样？本文旨在回答以上几个问题。什么是信息抽取？信息抽取（information extraction），即从自然语言文本中，抽取出特定的事件或事实信息，帮助我们将海量内容自动分类、提取和重构。这些信息通常包括实体（entity）、关系（relation）、事件（event）如下所示。通常而言，信息抽取技术主要包含命名实体识别、关系/属性抽取、事件抽取等任务。命名实体识别（NER）一般是一个序列标注任务，如对于文本”娃娃(PEO)进娃娃机抓娃娃”，在上下文语境下，实体识别任务需要对第一个娃娃标注为PEO。关系/属性抽取一般为分类任务，如给定实体对和文本，判断在上下文语境下实体之间是什么关系。比如，给定实体“特朗普”、实体“纽约”和文本“特朗普出生于纽约”，关系抽取需要抽取“出生于”这个关系。事件抽取最为复杂，一般分为事件识别(Trigger Identification/ Classification)、元素分类(Argument Identication)、元素角色分类(Argument Role Classification)等几个子任务。例如，对于文本“贾乃亮离婚后现身综艺!谈及家人满脸心酸,前妻李小璐” 事件抽取需要首先识别触发词”离婚”并分类为”离婚事件”，再识别元素”贾乃亮”和”李小璐”并分类为”丈夫”和”妻子”。信息抽取的挑战命名实体识别任务是信息抽取中发展最为成熟的任务，从古老的HMM、CRF到BiLSTM-CRF，再到Lattice LSTM ，TENNER[1]，实体识别任务在标准数据集上取得了很大的进步，在BERT等预训练模型出现后，实体识别更获得了进一步的提升。而关系抽取任务，由于标准数据获取的困难，效果相对较差。关系抽取任务一般采用有监督或远监督分类模型，在深度学习出现之前主要通过人工特征和基于核函数的模型；在深度学习时代，主流模型有CNN、PCNN等。事件抽取最为困难，方法发展和关系抽取类似，代表研究有中科院陈玉博研究员提出的DMCNN[2]等。除此之外，信息抽取还包含通用领域信息抽取，代表工作有TextRunner，Open

大數據

阿里工程师做了什么？90%的噪声标签原形毕露

click / 2019-12-29

作者 | 胡佳洁（佳婕）、黄锦池（尘漠）、曲烈（汤问）背景训练数据的规模及其标注质量对有监督学习算法的性能影响重大。互联网上虽然有海量的可爬取的数据，但这些按照标签语义收集来的数据往往带有大量噪声。因此，要在这些弱标签数据上训练出高性能的深度神经网络模型，研究人员往往面临着从噪声中提取足够多有用信息的挑战。本文将介绍一种简单高效的噪声标签自动识别算法，只需设置学习率的变更策略就能识别出 90% 的噪声样本，进一步提高训练模型的精度和收敛速度。通常基于 human-supervision 的标签净化方法中，为保障训练数据的质量往往需要投入高昂的成本。著名的图像数据集 ImageNet 有 120 万带标数据，标注过程中李飞飞实施多轮多人带验证题的复杂标注策略，才确保了数据集的质量。但在实际业务中我们不可能投入如此巨大的成本，外包标注的数据往往是单次打标，许多因素会导致我们拿到的训练集存在不同程度的噪声，例如下图是外包对性感图任务打标结果的截图，对类似的图片标注结果完全相反，用这批带噪数据进行训练得到的模型精度无法达到上线要求。因此，对高质量数据的需求与低效率的人工标注，构成了广大算法攻城狮们在模型开发的初级阶段所要解决的主要矛盾。外包标注结果中仍有噪声针对噪声问题，一味地调整模型和算法治标不治本。我们在淘宝内容库类目分类识别的业务问题中发现，如果训练数据的精度不到 80% ，那么训练出来的模型精度是

大數據

淘宝如何拥抱短视频时代？视频推荐算法实战

click / 2019-12-29

1.前言 1.1 迅猛发展的短视频业务短视频一般指长度在5分钟以内的视频内容。由于用户时间碎片化、移动互联网和智能手机的快速普及、制作门槛低等原因，短视频最近几年引起广泛关注。从2011年的萌芽，到2015年快手、美拍等异军突起，到2016年抖音、火山小视频等迅猛发展，短视频正在抢占越来越多的用户注意力和流量，重塑着用户的信息获取习惯。截止目前，短视频月活用户已经达到了4亿左右，人均日观看时长超过了60min，覆盖用户类型广泛，粘性强，明显挤占了用户在社交、影音、游戏、新闻等应用上的花费的时间。1.2 淘宝短视频现状目前淘宝内的视频量已达2.6亿+。大量淘宝/天猫的商品头图展示从静态图片换成了短视频，全方位展示商品的使用方式和细节；大量买家秀采用了视频形式，给予用户更可靠更直观的购买参考；直播视频里的大主播，吸粉和带货能力惊人；达人视频制作精美、形式多样，给用户更愉悦的浏览体验。视频量和用户需求都急剧增大的现状，对视频推荐算法提出了更高的挑战。本文主要简述近半年来，在哇哦视频和首页猜你喜欢视频这两个场景上，对视频推荐算法做的一些实践。哇哦视频是针对时尚年轻、购买力中上的用户群的视频产品，涵盖了穿搭、美妆、美食、萌娃、萌宠、数码、健身等领域。投放内容池由数十万达人视频和数十万商品视频组成，全部经过质量筛选和人审，风格多样，制作精美，期望用户多逛多停留，进而引导下单。猜你喜欢视频是云主题的重要组成部分，在猜你喜欢瀑布流中会根据用户偏好以一定频次投放视频。投放内容池主要是数百万商品视频，同样经过质量规则筛选，主要承担引导用户下单的功能。在以上两个场景的瀑布流里，点击视频都会跳转到全屏承接页，在该页面可以完成浏览相关商品、进入达人页面、点赞、评论、转发、下滑继续浏览等动作。 1.3 视频推荐算法框架视频推荐算法的大框架与商品推荐基本相似，都是由以下几部分组成：召回，即根据用户近期行为，获取几千个左右的候选集。排序，一般分初排和精排。初排即较粗略的排序模型，会对候选集进行初步打分，之后截断成为几百个。精排即复杂度较高的排序模型，可能是多个不同目标模型的融合，会对候选集进行较精细的打分，之后截断成为一百个左右。业务策略，即基于用户体验的一些去重与打散策略。本文将先介绍视频特征体系，然后按这个框架来分块介绍视频推荐，重点陈述视频推荐不同于商品推荐的部分。 2. 视频特征体系我们构建的视频特征体系主要由id类特征、商品泛化特征、视频统计类特征、视频内容特征、标签特征等。

大數據

机器具备认知能力的“神”操作！

click / 2019-12-29

1. 背景概念是人类认知从具体进入抽象的第一步，也是人类认知世界的基石。有学者认为，概念是人脑对客观事物的本质反映，是思维活动的结果和产物，是思维活动借以开展的基本单元。例如“昆虫”概念让人们理解形形色色的昆虫，把握其共性本质，而不用纠缠不同昆虫的微小差异。建立概念的分类体系，为数以亿计的事物构建认知概念图谱，是人类在让机器具备认知能力的征程中所迈出的非常重要的一步。具体地说，在搜索业务中，对搜索query和文档进行概念化，是理解用户需求和意图的基石。当用户在搜索框中输入查询词后，将查询词中的关键成分进行解析并打上概念标签，可以有效指导搜索引擎进行有效的意图识别和召回。举个例子，在一个搜索场景，我们在搜索框中输入：肠胃感冒可以吃榴莲吗？一般可以使用文本匹配技术对query与文档进行相似度计算，基于海量的文档数据库进行召回。通常的检索步骤是先对query进行分词，也就是：肠胃感冒/可以/吃榴莲/吗？去除停用词，并根据词性等特征信息调整term相应的权重。而对于数据库里的文章等内容，需要先做倒排索引，再根据 BM25等相关性算法对分词的词做文档的召回，并基于各种LTR算法进行排序。大多数检索系统都是基于关键词或文本特征做的，也就是说文章的内容中一定要出现“肠胃感冒” 、“吃榴莲”等词。同时，query的语义也会随着停用词的去除而缺失，“肠胃感冒”和“吃榴莲”变成统计独立的概念。然而我们通常是这样理解上述query的：肠胃感冒–> 患肠胃疾病吃榴莲–>吃热带的水果整句话理解起来的意思就是“患肠胃疾病的人可以吃热带水果榴莲吗”，而且我们可以很自然地进行相应的推理，这个query比较合适的结果是召回 “患肠胃疾病的饮食禁忌” 等相关文章。在自然语言处理领域，基于海量语料学习的技术可以从大量文本进行建模，工程实现也相对容易，且在头部场景中取得较好的效果，但是也存在出诸多问题，比如学习出的模型缺乏足够的长尾场景泛化能力；缺乏体系化的组织；缺乏可解释性等；为了应对这些挑战，并更好的理解文本，我们引入了结构化的知识。不同于纯文本，概念知识易于组织和结构化，对文本理解非常有帮助。 1.1 什么是认知概念

大數據

IJCAI 2019 | 为了有效整合多类信息，阿里文娱提出多视图多标记算法SIMM

click / 2019-12-29

一、研究动机在真实世界中，存在许多对象兼具多样性的描述与丰富的语义信息。例如，对图 1(a) 的风景图片，可以通过 HSV 色彩直方图、全局特征 Gist、尺度不变特征 SIFT 等方式进行表征，同时可以被打上 {雪景，亭子，湖} 等标记。又例如，对图 1(b) 中的剧集《长安十二时辰》进行标注时，通常可以通过多种信息源进行表征，如标题、音频、封面图、视频帧等，同时该视频可以被打上 {长安，易烊千玺，雷佳音，古装剧} 等标记。在此场景下，若使用传统的多标记学习算法，在特征空间需对多样的表征信息进行合并。方式一是将多个特征向量进行对应位相加，然而各特征向量的维度可能不完全相同，无法直接操作；方式二是将不同种表征信息进行拼接，但是这样会导致特征维度过高，当样本数量不足时，容易带来过拟合的问题，影响最终的训练效果。因此，在此场景下进行学习的关键，是如何对种类多样的信息（多样表征信息与多个标注信息）进行有效整合，多视图多标记学习（Multi-view multi-label learning）是一种常用的解决此类问题的框架。现有方法均试图挖掘所有视图间的共享信息，然而当他们试图挖掘所有视图的共享信息来消除噪声和冗余时，通常的做法是将各个视图不同维度的特征向量映射到一个共享子空间，但是各视图特征向量的映射矩阵是互不相同的，也就是说各视图的映射过程是完全独立的，在此情况下，视图之间缺少交流，很难保证挖掘到的是真正的共享信息。同时，现有方法在进行多标记预测时，各个视图的私有贡献被直接忽略。举例来讲，一张画着粉色玫瑰的图片被打上了

大數據

商品评价里藏了一座“宝藏”，阿里工程师如何挖掘？

click / 2019-12-29

概要最近天猫客户端上线了一个新功能“大家最关心”，当用户搜索某些商品类别（比如“冰箱”）时，搜索结果中会出现一个模块，列出该类别下用户经常问到的一些问题（比如“声音大吗”）。如果用户对这些问题感兴趣，可以继续点击进去看到更详细的信息。这里面包含了所有常问到的问题。当用户选择某具体问题时，模块还会从所有用户写的商品评论里选出针对该问题的评论，并参考商品销量及评论情感等对商品进行排序，帮用户选出他关心的问题下较合适的商品（比如“无异味的冰箱”）。目前该模块已经覆盖了沙发、床、电视柜、餐桌、餐椅、茶几、床垫、吊灯、吸顶灯、冰箱、洗衣机、扫地机器人、空气净化器、净水器、手机、耳机、笔记本电脑、投影机、蓝牙音箱等这几个大类。要解决的问题要实现上面的模块需要解决如下的问题：问题选取用户提交的问题里有些是针对某一商品的，比如“有多重？”，“什么面料的?”，有些是没有明确答案的，比如“好用吗？”，“哪个颜色好看？”，这些问题都应该去掉，只保留对某类商品通用的问题，比如“好安装吗？”，“掉色吗？”。重复问题合并用户提交的问题里很多意思都是重复的，比如“声音大吗？”，“声音大不大？”，“冰箱声音大吗？”，这类问题在模块中不能重复显示，而是显示最有代表性的一个。问题和商品评论的关联和“问大家”里的回答不同，当用户提交商品评论时，并不是针对具体问题去写的。比如这个评论“加湿器雾气很大，也没有多大的噪音，颜色比白色好看”里提到了商品的多个特性，而不是针对“噪音大吗？”这样的问题作了回答。所以，评论数据需要和问题数据进行关联。一个评论可以回答多个问题，也可能回答不了任何问题。只有正确生成了评论-问题间的映射，才能在每个模块里显示最相关的商品评论。数据该模块用到的数据主要来自下面几张表：淘宝-社区-内容库（tbods.s_macross_feed）：该表包含了淘宝网上“问大家”模块里用户提交的关于商品的所有问题和答案。 ha3的全量评价表（search_kg.s_kg_all_comment_for_ha3）：该表包含了淘宝网上用户提交的所有商品评论。此外，还用到了淘系商品全量表（tbcdm.dim_tb_itm），卖家评分表（search_ats.ali_seller_matrix_open_d）和商品品类词表。预处理由于原始数据中存在噪声，数据需要被预处理后才能做为后续算法的输入。