达摩院机器智能多媒体AI产品介绍

本文内容根据演讲视频以及PPT整理而成。

演讲嘉宾介绍：宋瑛娟，达摩院机器智能实验室资深算法专家。

背景介绍

大家都知道，视频AI技术是近年来计算机视觉中比较热门的方向。而在阿里达摩院，多媒体AI产品就是视频AI产品的一些能力，目前正在ai.aliyun.com官网上进行公测，公测的能力包括了标签能力、内容智能生成能力等。未来，在两到三个月内，达摩院机器智能实验室也会逐步上线更多多媒体AI标签的能力，包括短视频分类、更多动作识别、陌生人脸和负向标签（用于鉴黄等场景）等。预计在2020年3到5月份的时候，还将会上线视频指纹功能，帮助快速检索视频，以及多媒体AI自学习平台，借此来支撑更多深度定制的应用场景。

视频技术-改变传播能力

众所周知，视频技术能够改变传播方式。在互联网上，最早的传播方式是依靠文字，后来出现了图片传播以及图片和文字相结合的传播方式，之后又出现了音频，最后出现了视频的传播形式。对于视频而言，首先其天生就是多模态的。其次，视频在应用场景中，从创作、生产、分发、营销到消费是存在供给和消费闭环的。而对于阿里达摩院而言，所想要做的其实是一些最基础的能力。因此，达摩院对于视频AI的能力分为了三个部分，即智能理解、智能生产和智能分发。智能理解包括对于人、物以及自然和行为的识别和自动分类；智能生产包括智能拆条、智能缩略图、以及智能配乐等；而智能分发则包括了智能检索、版权溯源等。

视频技术-多模态视频理解助力精确检索和高效运营

前面提到，视频天生就是多模态的，而对于多模态数据的理解过程中就天然地会用到一些底层技术，比如对于视频的语音识别，通过OCR支持字幕识别，以及UGC识别等来综合地识别视频中的结构化信息。目前，达摩院的视频标签是比较通用化的，并且还在不断增加，如果有一些比较大的场景还可以和合作伙伴一起构建更多的视频标签。

达摩院机器智能多媒体AI产品2.0版本能够实现3到6倍速的视频处理速度，一个小时的视频最快能够在10分钟之内处理完成，并且能够将视频中的人物、建筑物、文字全部识别出来。在达摩院机器智能多媒体AI产品的后续优化中，会对于人脸的识别做一次大的提升，对于人脸识别的精度以及敏感人物的范围和库进行提升。

视频技术-视频指纹

所谓视频指纹，所想要做的就是基于对于一段视频的结构化理解来决定如何使用，比如在版权保护中判断两段视频是否相同，或者视频如果被分发到线下的广告中是否能够追踪到。实现视频指纹之后，即使视频的质量、空域发生变化，或者视频发生了拼接或者修改，仍然能够对于这段视频进行溯源。

视频技术-视频生成，封面、GIF、摘要、拆条、集锦

基于对于视频的结构化理解，达摩院机器智能多媒体AI产品就能够实现更多的视频应用，比如视频生成，封面、GIF、摘要、拆条、集锦等。目前，达摩院机器智能多媒体AI产品在线上比较重要的能力就是封面和GIF的生成技术，目前有很多厂商已经应用了。未来，达摩院机器智能多媒体AI产品将会在线上推出场景拆条和体育类集锦功能。并且继续优化封面和GIF能力，做到基于场景级别的静态、动态封面的生成。同时根据视频内容质量的抽取以及前端分发的质量度量，结合智能决策，对生成内容进行最优化前端触发。阿里在优酷的场景里面做了一些实验，帮助优酷将CTR提升了15%。

应用案例

目前，达摩院机器智能多媒体AI产品现在正在和央视进行合作，在央视的媒资库里面会做一些视频结构化的应用。简单而言，第一点就是素材结构化生成，第二点就是在媒资库中进行检索，第三点就是根据一些片段找到与国家领导人相关的片段并展示出来。