大數據

大數據

看云栖说云栖——大数据企业服务

年兽带领动物们攻入幸福能量管理公司! ——《年兽大作战》 本文内容取自2019杭州云栖大会《大数据企业服务专场》。 分会场开场演讲的题目叫做《阿里云大数据企业服务架构》,阿里云专家研究了国内外企业大数据的需求现状得出了以下结论: 单一引擎或单一存储很难满足客户需要:数据/存储千差万别,计算引擎各种各样,开发生态各不相同,需求百花齐放。 纯线下建数据中心不符合潮流趋势:成本、异地多活、容灾、弹性扩缩容、可触达性、实时、生态。 一次性上云实施很难接受:业务中断,切换风险,总体成本,信息安全。 需要的变化:从单引擎到多引擎、单一数据源到多数据源、统一的数据管理和开发、生态。 当前最佳方式:跨引擎统一编程平台+跨数据源综合治理。 下一步就引出本次分论坛的主题了:一站式跨引擎大数据智能研发平台。 现阶段,企业用户需要的不是同统一的大数据计算引擎,而是统一的大数据智能研发平台,阿里云管这个平台叫做DataWorks。 DataWorks的官网介绍如下: DataWorks(数据工场,原大数据开发套件)是阿里云重要的PaaS平台产品,为您提供数据集成、数据开发、数据地图、数据质量和数据服务等全方位的产品服务,一站式开发管理的界面,帮助企业专注于数据价值的挖掘和探索。 DataWorks支持多种计算和存储引擎服务,包括离线计算MaxCompute、开源大数据引擎E-MapReduce、实时计算(基于Flink)、机器学习PAI、图计算服务Graph Compute和交互式分析服务等,并且支持用户自定义接入计算和存储服务。DataWorks为您提供全链路智能大数据及AI开发和治理服务。 从下图可以看到DataWorks在阿里云大数据和AI平台中的位置: (图片来自云栖社区) DataWorks起到的作用包括: 最底层的统一元数据管理。 中间层的统一调度、统一编排 […]

大數據

机器学习在高德用户反馈信息处理中的实践

背景 作为国内领先的出行大数据公司,高德地图拥有众多的用户和合作厂商,这为高德带来了海量的出行数据,同时通过各个渠道,这些用户也在主动地为我们提供大量的反馈信息,这些信息是需要我们深入挖掘并作用于产品的,是高德地图不断进步和持续提升服务质量的重要手段。 本文将主要介绍针对用户反馈的文本情报,如何利用机器学习的方法来提高大量用户数据的处理效率、尽可能实现自动化的解题思路。 先来解释一下重点名词。 情报:是一种文本、图片或视频等信息,用来解决高德地图生产或者导航中的具体问题,本质上是指与道路或交通相关的知识或事实,通过一定空间和时间通知给特定用户。 用户反馈:是指用户借助一定的媒介,对所使用的软件等提供一些反馈信息,包括情报、建议和投诉等。 典型的用户反馈类型和选项如下图所示: 问题及解法 用户反馈的方式可以通过手机的 Amap 端、PC 端等进行上报,上报时选择一些选择项以及文本描述来报告问题,以下是一个用户反馈的示例,其中问题来源、大类型、子类型和道路名称是选择项,用户描述是填写项,一般为比较短的文本。这些也是我们可以使用的主要特征。 每个用户在上报了问题之后,均希望在第一时间内问题能够得到解决并及时收到反馈。但是高德每天的用户反馈量级在几十万,要想达到及时反馈这个目标非常的不容易。 针对这些用户反馈信息,当前的整体流程是先采用规则进行分类,其中与道路相关的每条反馈都要经过人工核实,找到用户上报的问题类型和问题发生的地点,及时更新道路数据,作用于导航。 针对一条反馈的操作需要经过情报识别、情报定位、情报验证等环节: 情报识别主要是判断问题类型即给情报打标签:①分析用户上报的信息包括问题来源、大类型、子类型和用户描述等,②查看上传的图片资料,包括手机自动截图和用户拍照; 情报定位主要是找到问题发生的位置信息即定位坐标: 分析用户反馈问题时戳的位置点即戳点的有效性, 查看用户上报问题时车辆行驶的位置即自车位置, 分析用户使用高德软件过程中的规划和实走轨迹等日志信息;

大數據

让机器读懂视频:亿级淘宝视频背后的多模态AI算法揭秘

背景 随着 4G 的普及和 5G 的推出,内容消费的诉求越来越受到人们的重视。2019 年互联网趋势报告指出在移动互联网行业整体增速放缓的大背景下,短视频行业异军突起,成为“行业黑洞”抢夺用户时间,尽管移动互联网人口红利见顶,新的增长点难以寻觅,但中国短视频人均使用时长及头部短视频平台日均活跃用户均持续增常(如图 1 所示)。 图一 在淘宝,短视频业务一直以来都是非常重要的业务,是淘宝 app 从单一的商品导购 app 走向商品导购+内容消费的多元化app的关键所在。相较于单一的商品导购,商品导购+内容消费的模式有效增加用户粘性,提高用户的停留时长,最终获得 GMV 的持续增长。不仅如此,2019 年视频营销发展趋势白皮书指出目前视频内容的转发量已达到图文的 12 倍,视频营销已经成为品牌最爱的营销方式,使用视频营销比不使用视频营销收入增长速度快

大數據

喜报!阿里巴巴达摩院获得全国人工智能大赛 AI+4K HDR 赛项冠军

1 月 18 日,首届全国人工智能大赛决赛颁奖典礼在深圳鹏城实验室举行。本届大赛由深圳市人民政府主办,以“AI赋能视界”为主题,设置了“AI+4K HDR”和“Person ReID”两大赛项。 经过近 3 个月的鏖战,由阿里巴巴达摩院 AIC 团队的研究型实习生、香港理工大学的博士生曾辉、杨熹、梁杰从一千一百多支参赛队伍中脱颖而出,获得 AI+4K HDR 赛项的冠军。 经过激烈的初赛和复赛,共有 10 支团队进入了 AI+4K HDR 决赛。决赛题目和数据与复赛不同,全面考察

大數據

2019年美国对华风投不到40亿美元,为六年最年水平|全球快讯

研究公司Rhodium Group(总部位于纽约)和美中关系全国委员会周一联合发布的一份报告显示,随着中美科技纠纷加深,2019年美国对华风险投资预计跌至六年来的最低点。 在2018年,美国对华风投创下174亿美元新纪录,2019年则预计不到40亿美元。 导致这种大幅下跌的因素包括:中国科技行业的降温、政策逆风、中美之间长期存在的贸易战造成的政治不确定性。 该报告回顾了过去20年(截至2019年)中-美风投趋势,并警告说美国目前正在讨论或实施的一些防御性政策“可能会削弱美国对创业者的吸引力,可能会有损美国在全球科技发展中的领导地位。” 根据该报告,在过去20年中美之间发生了近5,000笔投资,总计660亿美元。 报告的作者们说,由于风投的私密性和跨境投资复杂的法律结构,汇编相关数据是一件很困难的事情,他们对中-美风投笔数和总额进行了保守估计,实际数据很可能更高。 Pitchbook数据显示,2019年中国风投局面发生急剧变化,上半年中国创业公司一共融资170亿美元,远不及2018年同期的610亿美元。 目前,风投领域是美国政府政策争论的核心,因为风投主要集中在新兴科技领域,而这些技术是决定谁能够在科技领域赢得全球领先地位的关键。 随着中国在下一代5G移动技术等几个关键领域取得领先地位,美国的战略原则从假设中国最终将完全遵守自由市场规则变为预计中美之间将长期存在体制竞争。在这种转变下,美国政府开始收紧对外国直接投资的规定,出于国家安全考虑扩大了对外国投资的审查范围,这些导致中美两国之间的资本流动大幅减少。 Rhodium数据显示,中国对美国资产的收购已经从2016年的600亿美元峰值降至2019年的180亿美元。 在过去20年,中国创业公司一共融资3,000亿美元,其中470亿美元或16%来自美国风投基金和公司。在过去10年,美国对华风投迅速增长,而这主要归功于蚂蚁金服、拼多多、抖音等中国科技公司的融资增加。 活跃在中国市场的美国风投公司大多是一些大型机构,它们进入中国的时间也较早,其中前十名风投公司贡献了50%以上的交易。 自2000年以来,美国投资者一直活跃在中国多个科技领域,主要包括移动、软件即服务和电子商务,最近三年他们对中国人工智能、大数据和生命科学的投资增长最快。 在过去十年,来自美国的投资让许多中国科技公司受益,如今的科技巨头,如阿里巴巴、百度和腾讯,最初都曾获得美国风投家的投资。 与中国政府鼓励外国投资形成对比的是,最近美国扩大了外国投资审查范围,实施了更严格的出口管制,这些阻碍了中国对美国创业公司的投资。 数据显示,在过去20年,美国创业公司大约融资1万亿美元,其中来自中国的资金估计为150亿美元,不到2%。 2018年上半年中国对美国风投创下25亿美元最高纪录,在2019年上半年骤降至11亿美元。 转自创头条,原文链接:http://www.ctoutiao.com/2589332.html

大數據

2019年美国对华风投不到40亿美元,为六年最年水平|全球快讯

研究公司Rhodium Group(总部位于纽约)和美中关系全国委员会周一联合发布的一份报告显示,随着中美科技纠纷加深,2019年美国对华风险投资预计跌至六年来的最低点。 在2018年,美国对华风投创下174亿美元新纪录,2019年则预计不到40亿美元。 导致这种大幅下跌的因素包括:中国科技行业的降温、政策逆风、中美之间长期存在的贸易战造成的政治不确定性。 该报告回顾了过去20年(截至2019年)中-美风投趋势,并警告说美国目前正在讨论或实施的一些防御性政策“可能会削弱美国对创业者的吸引力,可能会有损美国在全球科技发展中的领导地位。” 根据该报告,在过去20年中美之间发生了近5,000笔投资,总计660亿美元。 报告的作者们说,由于风投的私密性和跨境投资复杂的法律结构,汇编相关数据是一件很困难的事情,他们对中-美风投笔数和总额进行了保守估计,实际数据很可能更高。 Pitchbook数据显示,2019年中国风投局面发生急剧变化,上半年中国创业公司一共融资170亿美元,远不及2018年同期的610亿美元。 目前,风投领域是美国政府政策争论的核心,因为风投主要集中在新兴科技领域,而这些技术是决定谁能够在科技领域赢得全球领先地位的关键。 随着中国在下一代5G移动技术等几个关键领域取得领先地位,美国的战略原则从假设中国最终将完全遵守自由市场规则变为预计中美之间将长期存在体制竞争。在这种转变下,美国政府开始收紧对外国直接投资的规定,出于国家安全考虑扩大了对外国投资的审查范围,这些导致中美两国之间的资本流动大幅减少。 Rhodium数据显示,中国对美国资产的收购已经从2016年的600亿美元峰值降至2019年的180亿美元。 在过去20年,中国创业公司一共融资3,000亿美元,其中470亿美元或16%来自美国风投基金和公司。在过去10年,美国对华风投迅速增长,而这主要归功于蚂蚁金服、拼多多、抖音等中国科技公司的融资增加。 活跃在中国市场的美国风投公司大多是一些大型机构,它们进入中国的时间也较早,其中前十名风投公司贡献了50%以上的交易。 自2000年以来,美国投资者一直活跃在中国多个科技领域,主要包括移动、软件即服务和电子商务,最近三年他们对中国人工智能、大数据和生命科学的投资增长最快。 在过去十年,来自美国的投资让许多中国科技公司受益,如今的科技巨头,如阿里巴巴、百度和腾讯,最初都曾获得美国风投家的投资。 与中国政府鼓励外国投资形成对比的是,最近美国扩大了外国投资审查范围,实施了更严格的出口管制,这些阻碍了中国对美国创业公司的投资。 数据显示,在过去20年,美国创业公司大约融资1万亿美元,其中来自中国的资金估计为150亿美元,不到2%。 2018年上半年中国对美国风投创下25亿美元最高纪录,在2019年上半年骤降至11亿美元。 转自创头条,原文链接:http://www.ctoutiao.com/2589332.html

大數據

看云栖说云栖 —— 大数据生态

人不能两次踏进同一条河流—— 赫拉克利特 本文内容取自2019杭州云栖大会《大数据生态专场》。 大数据生态专场的主角其实是开源的流计算引擎Flink,Flink是一个用于实时流式大数据计算的开源项目,为什么大数据处理要做成实时的流式处理?我觉得这个想法可以追溯到云原生12要素的第11条: XI日志:把日志当作事件流。 过去,日志都是被当作文件来看待和处理,为了处理这些“文件”自然诞生出了一众面向文件的批处理大数据项目,当越来越多的开发人员都将日志看作事件“流”之后,像Flink这样面向实时“流”处理的大数据引擎自然就变得更加重要了。 第一个分享来自pulsar,pulsar是Apache软件基金会的一个孵化器项目,功能上和kafka高度相似,简言之就是用来传递消息的,pulsar设计上采用服务和数据分离的架构,支持多租户,有着资产和命名空间的概念。 Pulsar 提供了对 Schema 的原生支持,在与Flink集成后即可提供对数据的结构化访问,使用Flink SQL 在 Pulsar 中查询数据。借助于Pulsar提供了元数据服务,租户和命名空间被影射为数据库、Topic影射为表,Topic Schema影射为Table Schema,实时的流数据变成了一张实时变化的表。 通过整合Pulsar和Flink可以得到一个实时流数仓: 顶层是Flink结构化流处理引擎 中层是Pulsar来提供流数据的结构化转换

大數據

机器具备认知能力的“神”操作!

背景 概念是人类认知从具体进入抽象的第一步,也是人类认知世界的基石。有学者认为,概念是人脑对客观事物的本质反映,是思维活动的结果和产物,是思维活动借以开展的基本单元。例如“昆虫”概念让人们理解形形色色的昆虫,把握其共性本质,而不用纠缠不同昆虫的微小差异。建立概念的分类体系,为数以亿计的事物构建认知概念图谱,是人类在让机器具备认知能力的征程中所迈出的非常重要的一步。 具体地说,在搜索业务中,对搜索query和文档进行概念化,是理解用户需求和意图的基石。当用户在搜索框中输入查询词后,将查询词中的关键成分进行解析并打上概念标签,可以有效指导搜索引擎进行有效的意图识别和召回。举个例子,在一个搜索场景,我们在搜索框中输入: 肠胃感冒可以吃榴莲吗? 一般可以使用文本匹配技术对query与文档进行相似度计算,基于海量的文档数据库进行召回。通常的检索步骤是先对query进行分词 ,也就是: 肠胃感冒/可以/吃榴莲/吗? 去除停用词,并根据词性等特征信息调整term相应的权重。而对于数据库里的文章等内容,需要先做倒排索引,再根据 BM25等相关性算法对分词的词做文档的召回 ,并基于各种LTR算法进行排序。大多数检索系统都是基于关键词或文本特征做的,也就是说文章的内容中一定要出现“肠胃感冒” 、“吃榴莲”等词。同时,query的语义也会随着停用词的去除而缺失,“肠胃感冒”和“吃榴莲”变成统计独立的概念。然而我们通常是这样理解上述query的: 肠胃感冒–> 患肠胃疾病 吃榴莲–>吃热带的水果 整句话理解起来的意思就是“患肠胃疾病的人可以吃热带水果榴莲吗”,而且我们可以很自然地进行相应的推理,这个query比较合适的结果是召回 “患肠胃疾病的饮食禁忌” 等相关文章。在自然语言处理领域,基于海量语料学习的技术可以从大量文本进行建模,工程实现也相对容易,且在头部场景中取得较好的效果,但是也存在出诸多问题,比如学习出的模型缺乏足够的长尾场景泛化能力;缺乏体系化的组织;缺乏可解释性等;为了应对这些挑战,并更好的理解文本,我们引入了结构化的知识。不同于纯文本,概念知识易于组织和结构化,对文本理解非常有帮助。 什么是认知概念 从亚里士多德时代开始,人类就通过分类结构(Taxonomy)来组织和表示概念。随后的几千年来,人类一直在不断完善概念的分类体系,并出现了诸如Cyc,WordNet,Hownet等专家手工构建的知识库。这些概知识库质量虽然相对较高,但是构建代价非常高昂,且规模有限。在搜索场景中,认知概念指的是用户提及的短语或实体所代表的抽象描述。 面临的挑战

大數據

互联网+大数据创新

10月28日到31日,全国移动互联创新大赛大数据专项赛暨滨州2019大数据和人工智能研讨交流大会在滨州举行。本次大赛暨大会由全国移动互联创新大赛组委会、滨州市人民政府共同主办,滨州市大数据局、滨州职业学院、滨州市大数据产业协会、北京青苔数据科技有限公司承办。大会以“数聚赋能·智享未来”为主题,旨在配合国家大数据战略,加快产业人才培养,促进创新思维、实践能力和协作能力的提升,建立起专业研讨和融合创新体系,逐步推动大数据在滨州市各行业的创新应用,为产业发展提供大数据支撑,促进数字经济发展。全国移动互联创新大赛战略合作伙伴青苔数据承办了本次大赛。会议期间,青苔数据CEO程永作了 “互联网+大数据创新” 主题演讲,主要分享了以下观点: 1、大数据和人工智能成为国家战略,2019年全球大数据市场将超过1250亿美金,中国在全球市场占比将超过8%,超过100亿美金(IDC报告)。 根据Gartner最新发布的预测报告,2018年全球人工智能市场规模将高达1.2万亿美元,较2017年增长70%之多。2022年人工智能驱动的商业价值将高达3.9万亿美元,其中决策支持/增强(例如DNN深度神经网络)2018年占据市场总规模的39%,2022年占据44%,虚拟助理(2018年46%,2022年26%),智能产品(2018年18%,2022年14%),决策自动化系统(2018年2%,2022年16%)。 2、大数据和人工智能工程师市场人才缺口在持续扩大。 中国未来3-5年内需要有180万人从事大数据相关的岗位,目前大约有150万人才缺口(麦肯锡全球研究院2016年预测);2017年,大数据及人工智能人才需求迅猛增长,招聘人数猛增6倍。大数据开发类职能增长幅度最为惊人,达795%。(Linkedin领英数据)。 3、截至2017年第一季度全球人工智能领域专业技术人才数量超过190万,其中美国人工智能领域专业技术人才总数超过85万,高居榜首。中国人工智能领域专业技术人才总数超过5万人,排在全球第7位。印度、英国、加拿大、澳大利亚和法国分列2-6位。(来自linkedin数字) 4、大数据核心领域关键词 5、人工智能核心领域及关键词

大數據

年度盘点 | “三年磨一剑” 阿里云Elasticsearch干货手册

—>搜索钉钉群号:21737292 ,加入阿里云Elasticsearch官方社群<— 本文为大家梳理阿里云Elasticsearch自发布以来,近三年时间里所有的干货文章、线下活动、现场视频以及行业/大咖的分享,让您从阿里云Elasticsearch发展的“时间线”上,能够更直观、全面的了解阿里云 Elasticsearch。 【内容持续更新中>>>】 发展历程 全链路云上Elastic Stack,100兼容开源、独有9大能力,更好的满足用户一站式云托管服务需求。 产品解读 1、【产品解读】专访 Elasticsearch 创始人 Shay Banon:让数据自己说话2、【产品解读】从Elasticsearch到ElasticStack的技术演进之路 |(附视频)3、【产品解读】阿里云Elasticsearch 从0到1的云产品演进之路4、【产品解读】Kibana:数据分析的可视化利器5、【产品解读】阿里云Elasticsearch的X-Pack:机器学习、安全保障和可视化6、【产品解读】从业务需求到能力扩展 | 阿里云Elasticsearch向量检索能力的创变7、【产品解读】阿里云Elasticsearch X-Pack Graph组件功能详解8、【产品解读】阿里云Elasticsearch

Scroll to Top