大數據

大數據

2 车型识别的探索和实践

2.1 研究意义(1)解决视频资源无法产生价值、浪费存储资源的问题在园区安防、仓储监管、智慧交通领域,有大量的摄像头对某一场景进行监控,并将获得的视频存储到本地服务器,占用大量的存储资源,存储一定周期后便进行删除。所获得视频资源除了备份之外,并未发挥更多的价值。而通过视频结构化分析,一方面可以通过提取关键帧、关键元素来减少视频存储的资源消耗,另一方面,便于检索,在需要时可以更快速地找到目标。(2)解决无法融入大数据体系的问题监控录像作为非结构化数据,它不能直接被计算机读取和识别,因此一直无法较好地与大数据体系进行兼容,无法利用计算机来进行视频数据的分析和挖掘。而视频图像能否通过智能分析技术经济而又高效地进行结构化处理,是视频大数据在智慧城市、数字社区领域落地的关键。(3)沉淀产品 —— 视频结构化分析视频结构化不仅仅可以服务于雷数大数据平台,也可以作为单独的产品提供给客户,结合人体行为识别,可以针对用户的某一特定场景产生价值,如工人进入工地是否带安全帽、作业行为是否符合规范等。(4)技术积累 —— 计算机视觉当前人工智能在工业场景的应用中,计算机视觉技术的需求场景占据较多比例,同时在工业、物流业、智慧城市行业的项目中有多种应用,但公司目前在该领域的技术积累仍然较少,因此实践和积累相关的计算机视觉技术经验对于公司未来发展具有重要意义。2.2 公开数据集MIO-TCD数据集是由在一天中的不同时间和一年中不同时段获得的137,743个图像组成,这些图像来自在加拿大和美国各地部署的数千个交通摄像机。选择这些图像是为了应对广泛的目标识别挑战,并且代表了当今城市交通情景中捕获的典型视觉数据。每个移动物体已被近200人仔细识别,以便于实现各种算法的定量比较和排序。该数据集旨在提供严格的基准测试,用于训练和测试现有的或新的算法,对交通场景中移动车辆进行分类和定位。包含的数据标签有11类:o Articulated truck(铰链式挂车)o Bicycle(自行车)o Bus(公交车)o Car(轿车)o Motorcycle(摩托车)o Motorized vehicle (i.e. Vehicles that are too […]

大數據

TOP100直击|如何在一周内上线50个用户增长策略

作者:闲鱼技术-兰昊 在闲鱼用户增长业务上的实验 我们最先落地的业务是在用户增长上,闲鱼的用户增长业务有如下描述: 闲鱼的卖家都是普通小卖家,而非专业的B类商家。因此无法统一组织起来参加营销活动带来买家活跃。 我们目前DAU已经突破到2000W,如何承接好这么大体量的用户,对运营同学是个很大的考验。 在年初时,我们在用户增长下做了多个实验,其中两个实验如下: 之所以会做以上实验,主要还是希望用户能在APP上多停留一会。当用户浏览时间越长,就越有可能发现闲鱼上还有很多有趣的内容,无论是商品宝贝还是鱼塘内的帖子。从而达到吸引用户下一次还能再回来的目的,最终带来用户增长。我们做的实验上线后大部分都取得了不错的业务效果,但是在过程中也暴露了两个问题: 研发周期长。一开始,我们先用最快的实现方案来做,主要是为了快速验证规则策略的有效性,并没有做大而全的设计,每个需求都是case by case地写代码来实现。那么从开始开发真正能到上线,很可能就是三周,主要因为客户端发版是有窗口的。 运营效率慢。因为上线慢,导致获取业务数据后再分析效果就很晚了,然后还要根据数据再去做调整那就更晚了。这样算下来,一年也上不了几个规则策略。 工程化解法——基于事件流的规则引擎 针对上述问题,我们先做了一层业务抽象。运营先通过对用户的各种行为进行一个分析和归类,得出一个共同的具体的规则,再将这个规则实时地作用到用户身上进行干预。 针对这层业务抽象,我们再做了工程化,目的就是为了提升研发效率和运营效率。这样就有了第一个方案——基于事件流的规则引擎,我们认为用户的行为是一串顺序的行为事件流,使用一段简单的事件描述DSL,再结合输入和输出的定义,就可以完整地定义一个规则。 以上述用户增长的第二个实验为例,如下图所示的DSL即可简单表达出来: 规则引擎的局限性 该规则引擎可以很好地解决之前用户增长业务下的几个策略,随后我们进行了内部推广,准备在闲鱼C2C安全业务下也落地。在C2C安全业务上有如下描述: 在C2C安全业务上,也有一个看似是一个针对一系列行为作出的规则抽象,如下图所示: 但是将上述规则套上规则引擎后,就会发现无法将安全的规则套上规则引擎。假设我们的详细规则是1分钟内被拉黑2次,就对该用户打上高危标记。那么我们想一想,当来了第一个拉黑事件后,匹配上了。然后紧接着来了第二个拉黑事件,也匹配上了。此时按照规则引擎的视角,条件已经满足了,可以进行下一步操作了。但是再仔细看一看规则,我们的规则是要被不同的用户拉黑,因为有可能是同一个用户操作了多次拉黑(同时多开设备)。而规则引擎上只知道匹配到了2次拉黑事件,对规则引擎来说已经满足了。却无法知道是否是不同人操作的。起根本原因是因为在规则引擎里,事件都是无状态的,无法回溯去做聚合计算。 新的解决方案

大數據

传统企业业务升级的一些思路和方法

大数据平台的概述 大数据平台统一管理、集中存储大数据资源,满足高并发,海量数据对高性能计算能力和大容量存储能力的需求,提供数据采集,数据计算,数据存储,数据分析,数据可视化等大量开放能力,确保各系统之间数据的互联互通和共享,为数据的全链条透明化、运营决策的高度智能化提供依据,尽早建立大数据平台具有重要意义。 构建大数据平台的必要性 大数据平台承载所有数据的管理,为上层应用提供数据支撑。传统的开发模式中,各个应用开发独立进行,各自沉淀自己的数据。各个应用的数据缺乏整合,形成数据孤岛,后续无法沉淀数据资产。同时,因为没有一个统一的大数据平台,各个应用都会有自己的数据存储和计算体系,存在大量的重复建设。以数据中台为核心的上层智能应用的开发,离不开大数据平台的支持。大数据平台提供统一的数据数据存储,计算能力。上层应用不需要再重复开发,只需要使用数据中台提供的能力。同时,多个上层应用的数据也集中沉淀到一起,形成有效的数据资产。 大数据平台建设 一般来说大数据主要具有以下特征 数据海量性 数据稀疏性 数据复杂性 数据丰富性 大数据平台架构一般包含以下组件 数据采集 数据存储 数据计算 数据管理 数据服务 大数据集成子系统 大数据平台需要提供数据采集能力,完成从传统数据库到大数据平台的数据采集,包含批量采集和基于流处理的实时采集,平台提供如下能力: 批量数据采集:大数据平台支持数据批量采集,对于大量、实时性要求不高的数据适宜采用定时执行批量采集。 实时数据采集:对于实时性要求较高的数据,支持实时数据采集的方式,保障平台数据及时性。

大數據

基于 Tracing 数据的拓扑关系生成原理

背景 随着互联网架构的流行,越来越多的系统开始走向分布式化、微服务化。如何快速发现和定位分布式系统下的各类性能瓶颈成为了摆在开发者面前的难题。借助分布式追踪系统的调用链路还原能力,开发者可以完整地了解一次请求的执行过程和详细信息。但要真正分析出系统的性能瓶颈往往还需要链路拓扑、应用依赖分析等工具的支持。这些工具使用起来虽然简单,但其背后的原理是什么?本文将带您一起探索。 Jaeger 作为从 CNCF 毕业的第七个项目,已经成为了云原生架构下分布式追踪系统的第一选择。本文将以 Jaeger 为例,介绍基于 Tracing 数据的拓扑关系生成原理,文中使用的版本为1.14。 Jaeger 架构 笔者曾在 2018 年初基于 Jaeger 1.2.0 做过一些开发,参见《开放分布式追踪(OpenTracing)入门与 Jaeger 实现》。经过十多个版本的发展,Jaeger

大數據

1工业企业大数据平台构建的一些思路和方法

数据平台的概述大数据平台统一管理、集中存储大数据资源,满足高并发,海量数据对高性能计算能力和大容量存储能力的需求,提供数据采集,数据计算,数据存储,数据分析,数据可视化等大量开放能力,确保各系统之间数据的互联互通和共享,为数据的全链条透明化、运营决策的高度智能化提供依据,尽早建立大数据平台具有重要意义。 构建大数据平台的必要性 大数据平台承载所有数据的管理,为上层应用提供数据支撑。传统的开发模式中,各个应用开发独立进行,各自沉淀自己的数据。各个应用的数据缺乏整合,形成数据孤岛,后续无法沉淀数据资产。同时,因为没有一个统一的大数据平台,各个应用都会有自己的数据存储和计算体系,存在大量的重复建设。以数据中台为核心的上层智能应用的开发,离不开大数据平台的支持。大数据平台提供统一的数据数据存储,计算能力。上层应用不需要再重复开发,只需要使用数据中台提供的能力。同时,多个上层应用的数据也集中沉淀到一起,形成有效的数据资产。 大数据平台建设 一般来说大数据主要具有以下特征 数据海量性 数据稀疏性 数据复杂性 数据丰富性 大数据平台架构一般包含以下组件 数据采集 数据存储 数据计算 数据管理 数据服务 大数据集成子系统 大数据平台需要提供数据采集能力,完成从传统数据库到大数据平台的数据采集,包含批量采集和基于流处理的实时采集,平台提供如下能力: 批量数据采集:大数据平台支持数据批量采集,对于大量、实时性要求不高的数据适宜采用定时执行批量采集。 实时数据采集:对于实时性要求较高的数据,支持实时数据采集的方式,保障平台数据及时性。 互联网数据采集:互联网的数据采集方式主要以页面文本或文档形式的数据为主,为了兼容不同类型的互联网输入方式,一般先将数据进行流式数据清洗后,再送到搜索引擎或者其他数据库中。

大數據

车型识别的探索和实践

2.1 研究意义(1)解决视频资源无法产生价值、浪费存储资源的问题在园区安防、仓储监管、智慧交通领域,有大量的摄像头对某一场景进行监控,并将获得的视频存储到本地服务器,占用大量的存储资源,存储一定周期后便进行删除。所获得视频资源除了备份之外,并未发挥更多的价值。而通过视频结构化分析,一方面可以通过提取关键帧、关键元素来减少视频存储的资源消耗,另一方面,便于检索,在需要时可以更快速地找到目标。(2)解决无法融入大数据体系的问题监控录像作为非结构化数据,它不能直接被计算机读取和识别,因此一直无法较好地与大数据体系进行兼容,无法利用计算机来进行视频数据的分析和挖掘。而视频图像能否通过智能分析技术经济而又高效地进行结构化处理,是视频大数据在智慧城市、数字社区领域落地的关键。(3)沉淀产品 —— 视频结构化分析视频结构化不仅仅可以服务于雷数大数据平台,也可以作为单独的产品提供给客户,结合人体行为识别,可以针对用户的某一特定场景产生价值,如工人进入工地是否带安全帽、作业行为是否符合规范等。(4)技术积累 —— 计算机视觉当前人工智能在工业场景的应用中,计算机视觉技术的需求场景占据较多比例,同时在工业、物流业、智慧城市行业的项目中有多种应用,但公司目前在该领域的技术积累仍然较少,因此实践和积累相关的计算机视觉技术经验对于公司未来发展具有重要意义。2.2 公开数据集MIO-TCD数据集是由在一天中的不同时间和一年中不同时段获得的137,743个图像组成,这些图像来自在加拿大和美国各地部署的数千个交通摄像机。选择这些图像是为了应对广泛的目标识别挑战,并且代表了当今城市交通情景中捕获的典型视觉数据。每个移动物体已被近200人仔细识别,以便于实现各种算法的定量比较和排序。该数据集旨在提供严格的基准测试,用于训练和测试现有的或新的算法,对交通场景中移动车辆进行分类和定位。包含的数据标签有11类:o Articulated truck(铰链式挂车)o Bicycle(自行车)o Bus(公交车)o Car(轿车)o Motorcycle(摩托车)o Motorized vehicle (i.e. Vehicles that are too

大數據

2 车型识别的探索和实践

2.1 研究意义(1)解决视频资源无法产生价值、浪费存储资源的问题在园区安防、仓储监管、智慧交通领域,有大量的摄像头对某一场景进行监控,并将获得的视频存储到本地服务器,占用大量的存储资源,存储一定周期后便进行删除。所获得视频资源除了备份之外,并未发挥更多的价值。而通过视频结构化分析,一方面可以通过提取关键帧、关键元素来减少视频存储的资源消耗,另一方面,便于检索,在需要时可以更快速地找到目标。(2)解决无法融入大数据体系的问题监控录像作为非结构化数据,它不能直接被计算机读取和识别,因此一直无法较好地与大数据体系进行兼容,无法利用计算机来进行视频数据的分析和挖掘。而视频图像能否通过智能分析技术经济而又高效地进行结构化处理,是视频大数据在智慧城市、数字社区领域落地的关键。(3)沉淀产品 —— 视频结构化分析视频结构化不仅仅可以服务于雷数大数据平台,也可以作为单独的产品提供给客户,结合人体行为识别,可以针对用户的某一特定场景产生价值,如工人进入工地是否带安全帽、作业行为是否符合规范等。(4)技术积累 —— 计算机视觉当前人工智能在工业场景的应用中,计算机视觉技术的需求场景占据较多比例,同时在工业、物流业、智慧城市行业的项目中有多种应用,但公司目前在该领域的技术积累仍然较少,因此实践和积累相关的计算机视觉技术经验对于公司未来发展具有重要意义。2.2 公开数据集MIO-TCD数据集是由在一天中的不同时间和一年中不同时段获得的137,743个图像组成,这些图像来自在加拿大和美国各地部署的数千个交通摄像机。选择这些图像是为了应对广泛的目标识别挑战,并且代表了当今城市交通情景中捕获的典型视觉数据。每个移动物体已被近200人仔细识别,以便于实现各种算法的定量比较和排序。该数据集旨在提供严格的基准测试,用于训练和测试现有的或新的算法,对交通场景中移动车辆进行分类和定位。包含的数据标签有11类:o Articulated truck(铰链式挂车)o Bicycle(自行车)o Bus(公交车)o Car(轿车)o Motorcycle(摩托车)o Motorized vehicle (i.e. Vehicles that are too

大數據

大数据推动企业网站搜索引擎优化(SEO)的5种方式

大数据将对企业网站的搜索引擎优化产生重大影响。人们需要了解更多关于大数据如何产生影响以及为什么很重要的信息。 大数据以无数方式改变着搜索引擎优化(SEO)的未来。企业需要寻找利用大数据的方法,以充分利用其搜索引擎优化(SEO)策略,因为搜索对于其成功至关重要。 大数据在企业搜索引擎优化(SEO)的重要性 尽管谷歌公司对其算法的要求越来越严格,但精明的营销人员正在寻找更好的方法来通过数据分析实施搜索引擎优化(SEO)策略。 搜索引擎优化(SEO)越来越容易实现,尤其是在企业网站上。以下介绍企业网站如何通过大数据提升企业的搜索引擎优化(SEO)的5个专业技巧。 1.优化元描述 元描述是人们在搜索结果链接下看到的那些内容。大多数企业会跳过优化元描述的过程,因为谷歌公司实际上并未将其用作搜索排名系统的因素。 另一方面,在单击搜索结果之前,浏览者将会阅读搜索结果的描述多少次?几乎每次。 元描述主要是企业为用户编写的,以帮助用户了解他们所单击的内容。因此,用最相关的关键字和一些良好的副本对它们进行优化,以获取更多点击是一个很好的主意。 大数据可以帮助企业网站确定哪些元描述最有效。甚至可以使用预测性分析工具来查看哪些将提供最多的点击,从而提高企业网站的搜索排名。 2.为商店的主页建立反向链接 当开始为企业网站建立反向链接时,应该始终从网站主页开始。通常,其收藏页面或类别页面上具有最多的关键字,并且与访问者最相关,因为他们可以一次性全部浏览各种产品。 大数据对于建立反向链接也非常有用。用户进入企业网站的每个类别页面,并使用Moz或Ahrefs之类的大数据工具查看它们为哪些关键字排名,然后联系使用已经为其排名的关键字的相关站点、博客或影响者。随着时间的推移,将逐渐建立反向链接,并开始在搜索结果中排名更高。许多大数据工具也有助于推广。 3.使产品标题更具描述性 许多企业网站以用户体验或设计的名义缩短了产品标题,却失去了许多搜索引擎优化(SEO)的好处。 例如,如果一家公司是狗粮提供商,并且提供名为Skippy的产品。该公司的网页设计师可能只想突出显示其名称及其价格。但是访问者不知道这是什么,也不知道它与其网站上其他产品有什么关系。 而从搜索引擎优化(SEO)和用户体验的角度来看,最好显示这样一个简短的字—“Skippy:有机宠物食品,24盎司”。任何一家搜索引擎优化(SEO)电子商务代理商都会告诉网站设计者要尽可能地具有描述性。包括其关键字以及适当的尺寸、长度或颜色。这样,用户无需访问每个产品页面就可以清楚地了解企业的产品有何不同以及实际提供的产品。 这是大数据可以提供帮助的另一个领域。企业可以使用预测性分析来了解哪些标题最能引起客户的共鸣。 4.让博主评论企业的产品 反向链接仍然是最重要的搜索引擎优化(SEO)因素之一,它们对电子商务特别有利。因此,如果企业销售某种产品​​,无论是实物产品还是软件,都应让博主为其审阅,并与他们的受众分享。这不仅会增加企业网站的链接,还会使其网站获得良好的访问量。

大數據

谁顶住双11的世界级流量洪峰?神龙架构负责人等9位大牛现场拆解阿里秘籍

阿里江湖中,很多资源和技术,如神龙服务器、OceanBase、POLARDB等等,在开源、自研、云这三架马车上形成协同效应,既是内功也是武器。 “不是任何一朵云都能撑住这个流量。中国有两朵云,一朵是阿里云,一朵叫其他云。”11月11日晚,阿里巴巴集团CTO行癫(张建锋)不久前表示。 除云之外,要深入了解阿里的武功路数,必须知道每个花名背后的武器与绝技。旭卿、观涛、鸣嵩、日照、褚霸、孤星、龙现、行易、镭铭,11月18日,在阿里举办的“双11 背后的技术力量”沙龙活动,这9位阿里技术大牛展示了路数,全面解读双十一背后的武功秘籍。 整个天猫的成交额是2684亿,零点订单峰值达到54.4万笔/秒。这是华山论剑的结果。 自研数据库POLARDB和OceanBase分别处理8700万、6100万笔/秒峰值请求、实时计算处理峰值每秒25.5亿笔、计算平台单日处理970PB数据、12亿笔物流智能化等……2019年双11期间,阿里巴巴打破了诸多技术纪录。 核心交易系统100%迁移到云,第三代神龙服务器定义IT行业新的计算范式 双11一个个闪亮的数字的背后有一个比较重要的事情,那就是今年阿里把核心交易系统100%迁移到阿里的公共云上,这是史无前例的、世界级的挑战。 要实现100%的迁移,必须提到阿里云的神龙服务器。神龙架构负责人的旭卿(张献涛)介绍,“神龙服务器是阿里云近三年来投入巨大的资源,研发的新一代适合云计算的计算架构的服务器,具备高弹性、高稳定和高性能的能力。” 阿里云从2016年开始投入相关研发,2017年10月发布了第一代神龙云服务器。三年内,阿里云从自研芯片开始、到自研设备+Hypervisor、最后成功自研神龙服务器,打通芯片、软件、服务器硬件之间的断层,首次实现了云计算行业性能、资源的零损耗。 阿里云智能基础产品事业部 张献涛(旭卿) 为什么阿里云要研发这样一个神龙服务器? 旭卿谈到,在过去十几年间,整个服务器的架构没有太大的变化。因此在云计算、甚至整个IT系统层面,业界都面临历史遗留问题,比如性能损失。 究其根本原因,就是做芯片、服务器、软件的厂商之间没有太多的协同,缺乏一个顶层的设计,每一个领域,每一个厂商都是希望把自己的东西做得很强,但做强之后对整体系统效率的提升不一定有帮助,这是我们可以感受到的。 从这个角度来看,我们需要对整个计算架构做一些改变、革新和提升,提升整体的计算效率,这是阿里做神龙最初的初衷。 为什么是阿里云做成了这件事? “规模到达一定程度的时候,才会真切的感受到它是一个需要解决的问题,你可能将来只有10台、20台、甚至200台、2000台服务器的时候,资源还跑不满,在这种情况下没有太大的动力去投入上亿资金解决这样一个问题,而今天阿里云的整体规模已经让我们必须直面这个问题,并且解决这个问题。”旭卿解释道。 旭卿认为,今天神龙正在定义IT行业新的计算范式,它不仅仅能实现阿里云的核心系统100%上云,解决虚拟化的性能、资源的开销,并且也能够实现软件、硬件完美融合,它的综合表现在很多业务场景下都是超越物理机的性能表现。 说到物理机,旭卿还介绍了第三代神龙架构,它可以提供的性能非常高,“我们网络的性能可以做到每秒2500万PPS的转发,这个已经是业界标杆的5倍,存储性能其实也做到了100万IOPS,是业界标杆的3倍,所以有了这样一个东西之后,我们承载双11大促这种业务的话,其实已经比物理机的性能要高很多了。”

大數據

学会这个,实时数据(Blink)实时查询实时写入!

交互式分析的核心功能是:实时处理离线数据(MaxCompute)和实时数据(Blink)。为了让大家更好的理解交互式分析和更加快捷的掌握核心功能,小编为大家整理了如何使用HoloStudio来完成数据的开发,往期精彩传送门:MaxCompute直接查询:在吗?0代码加速查询MaxCompute请查收!MaxCompute导入查询:来了,2行代码秒级查询MaxCompute!简单实时大屏最佳实践:双11就要来了,实时大屏准备好了吗? 随着业务的不断拓展,数据的实时性变得越来越重要,对实时数据的快速查询、分析、决策并为业务赋能是大数据生态中的一重大突破点。以往的解决方案通常是:实时计算(Blink)将消息队列中的数据进行初步加工清洗,存储到数据存储系统,之后再进行数据查询,并对接第三方工具来可视化分析。这种解决方案的痛点在于,业务场景的复杂度不同,所需的存储和查询服务也会不一样,这就需要开发人员维护多套系统,增加运维难度,同时高性能、高并发的数据服务也得不到及时响应。交互式分析的另一核心功能是能够对实时数据实时写入实时查询,既能存储实时计算初步聚合后的数据,又能实现高并发的简单、复杂查询,同时也有JDBC/ODBC接口,轻松对接第三方工具,只需要一套代码维护一套系统,就能完美满足业务的实时查询、分析要求。在小编为大家讲解过如何通过实时计算、交互式分析做一个实时大屏,但当时的讲解主要侧重于场景实现,中间的操作步骤对于新手还是比较陌生,今天小编就为大家讲解使用HoloStudio实时查询实时数据的具体操作步骤。 前提条件 1.开通实时计算服务2.开通交互式分析实例注意:一定要确保这2个计算服务在同一region。 操作步骤 本次案例演示如何在实时计算里随机生成随机数,并在交互式分析中实时查询数据。(本次演示的所有内容大家都可以参考文档:实时数据实时写入查询)使用平台:实时计算平台、HoloStudio注意事项:本案例侧重于操作步骤的演示,数据为随机生成的数据,实际业务请根据实际场景数据来做处理) 1.交互式分析建表 登录HoloStudio,并创建一张接收数据的内部表,示例建表语句如下: create table test(a int, b text, c text, d float8, e int8);

Scroll to Top