大數據 – Page 153 – 小科科的春天

闲鱼如何高效承接并处理用户纠纷

click / 2019-12-17

作者：闲鱼技术——看松背景闲鱼是一个基于C2C场景的闲置交易平台，每个用户既是买家也是卖家，在自由享受交易乐趣的同时也容易带来一些问题，如发一些侵权违规商品而不自知，发一些带情绪化言语对他人照成了伤害等,因此这也带来了一个核心问题：如何公开透明，合理合适的管控这些问题。本文将结合社会化治理的方案，向大家展示一种解决思路。闲鱼的思考带着问题找答案，闲鱼C2C自由交易的特点，天然是带有社区的基因，是拥有社区自治化的基础，而我们通过数据分析发现，闲鱼上有很多活跃用户，他们希望能在闲鱼平台上能够参与更多，因此这个问题带来了一种解题思路：将用户举报的内容交还给用户来判定，平台提供连接方式。这种思路有多个好处：1、处理方式公开透明，平台会结合用户实际情况合理处理2、通过用户自治方式教育用户，增加对闲鱼的认知(什么可为，什么不可为)3、用户参与度更高了，增加对平台的认同感这里的核心问题是内容和人群的匹配问题，后面我会继续介绍系统的设计思路，这里先给大家展示一下产品效果图，有个体感闲鱼的解法通过前文的介绍，我们知道系统的核心要解的问题是内容和人群的匹配，进一步拆解下去，可以拆解为 1、任务的管理和调度2、人群的筛选和演进3、人群的激励带着这些问题，我们进一下细化整体方案,如下图所示: 整体设计任务任务用来定义每次需要处理的事件,要负责解决以下问题任务管理（参考图中基础能力中的管理平台），提供任务的基础管理能力，包括任务的生命周期管理，定义任务从创建到结束的状态管理。投票管理,用于设置票数管理(如5票3胜制), 投票周期等。问题设计,定义问题结构，如选择题、判断题等内容设计。鉴权，用于设置安全访问的能力。 […]

大數據

阿里风控大脑关于大数据应用的探索与实践

click / 2019-12-17

以下内容根据演讲视频以及PPT整理而成。本次分享主要围绕以下三个方面：一、阿里风控大脑整体介绍二、近线引擎三、离线引擎一、阿里风控大脑整体介绍 1. 阿里风控大脑是什么? 阿里的风控主要分为两大块。一块是金融领域，主要业务是支付宝，另一块是非金融领域，如新零售、高德、大文娱等，我们负责的主要是非金融领域。阿里风控大脑的含义较为丰富，可以有不同的解读，但基本上代表了几个方向。首先，阿里风控大脑是“大中台小前台”战略，由于阿里风控管的风险业务很多，领域非常杂，所以允许不同的领域、不同的风控场景可以有自己独特的交互，有自己的console，但是用到的底层引擎必须是中心化的，由风控引擎做统一计算和处理。第二，阿里风控大脑代表高智能，后续会有深度学习和无监督学习模型大量上线，防控策略及防控方式都会更加智能化。如下图所示，右侧是目前阿里风控覆盖的主要业务和防控的风控场景，如黑客攻击、消费者保护、商家保护等。左侧是阿里风控2019年双11的部分数据，保护了约388亿消费者的操作行为，同时挡住了约22亿次恶意攻击。 2. 典型防控链路用户通过阿里的APP或网站访问阿里的业务会产生大量操作。这些操作进来之后大概会经过如下图所示的七层防控环节。首先会是端上防控，主要在应用层，比如应用的加固，应用的代码混淆等。然后是端上安全策略。第二层是在网络层，在网络层做流量清洗和流量保护。基础安全防控：网络层之后会有人机判断。人机部分在风控领域占比非常大，网络层+人机的防控方式和下面几层差异比较大，主要针对基础流量做防控，不会加入具体的业务逻辑，所以称其为基础安全防控。实施安全防控：人机比较复杂，一部分与流量相关，另一部分偏业务。其中偏业务的部分与下面几层称为业务防控范围。人机之后，在业务防控侧做白/黑判断，主要是出于成本考虑。如果能先判定用户行为的白/黑，后面则不需要做太多进一步判定，可以节约大量成本。然后是比较复杂的灰的判定，需要从多个维度来识别风险。准实时联合防控：近线是一种准实时联合性防控，将多种流量或者多种行为放在一起监控。离线回捞：离线主要是一种离线回捞，针对历史数据做大量回捞。不是所有业务都会走近线或离线，业务按照自己需求自行选择。 3.业务安全（MTEE）架构如下图所示，业务侧安全防控可以分成风险识别、风险决策、风险审核、风险处置四大块。风险识别主要是风险行为的判定，当检测到用户的某些行为有风险，如果业务比较简单而且识别准确度很高，那么此行为可以直接流入风险处置做处置。如果识别出的行为没法确定或识别准确率不太高，会将其放到风险审核通过机审或者人审做进一步判定，判定之后才进行处置。还有一些业务非常复杂，可能需要进一步的综合判定，那么会将其放到风险决策。比如一些风险不论在一段时间内触犯多少次，只能对其进行一次处罚，但是它在不同环节或是不同行为可能会被识别多次，即会多次被认为有风险，需要在风险决策中对这种风险进行统一去重、收口。其中最复杂的是风险识别环节。风险识别会用到前端的业务系统，比如淘宝APP、天猫APP传过来的各种业务数据。但是仅仅通过这些业务数据做风险防控是远远不够的，所以阿里会做很多大数据的应用，比如名单库、关键词库、还有很多的指标以及实时图、IP库等。这些数据会通过元数据中心做统一定义和管理，最终通过统一数据服务来给风险识别做数据增强。另外，通过事件中心、策略工厂、模型平台，构建了策略/模型快速实验和上线的过程。事件中心把实时引擎或者近线引擎的数据补全完整后写入MaxCompute，然后在策略工厂中，会和PAI打通，由策略工厂准备数据后，再通过PAI做模型训练。最终在策略工厂里面将新的策略、新的模型部署到线上，如此便形成了快速的数据+训练+上线的链路。二、近线引擎 1. 几个实时引擎不太好处理的场景阿里在做近线引擎之前内部讨论了很久，因为近线引擎的边界和实时引擎比较接近，有时很难区分。很多时候在近线引擎里面做的事情在实时引擎里也可以做。那么为什么要做近线引擎？阿里发现有很多场景虽然可以在实时引擎里做，但是需要很多定制化的开发，需要按照场景专门找开发人员去实现。模型大规模推广之后，发现这样的应用场景越来越多，所以希望有更好的方式解决这些问题。比如在商品新发时，需要结合商品图片信息和商品其他信息做综合判断该商品是否涉黄，对于图片信息，大部分公司可能会使用图片识别引擎，但图片识别引擎本身处理能力时快时慢，所以返回时间不一定。这种情况通过实时引擎等待返回是不可能去做的，所以需要做很多个性化的开发去实现整个链路的异步化。还有一些场景比如一个帖子有很多回帖，某些回帖可能是垃圾回帖或带有欺诈行为，大部分情况下是无法通过单个消息或者回帖判断其是否有欺诈行为，而要综合从发帖到回帖各个环节来判断，所以需要把时间跨度很长的很多消息放在一起来处理。这在实时引擎中也不好处理，因为实时引擎本身就是基于事件消息触发的。还有一些非常复杂的业务场景，比如拉新场景，需要结合注册+登陆+交易等多种行为来判断是否有薅羊毛等黑灰产行为，需要将很多事件放到一起去综合判定，在实时引擎中也不太好做。所以阿里最终决定做近线引擎来对上述问题进行更好的抽象和处理，希望有一种更好的解法来解决这些问题。

大數據

公开课05期 |基于宜搭的《招聘管理》应用搭建

click / 2019-12-17

本文内容概要下文将以《招聘管理》为例，从Excel开始切入，探讨如何将线下的Excel管理，快速转换为线上的宜搭应用。相关功能点如下：从Excel导入创建单据关联其它表单数据&新增数据项数据联动&隐藏数据联动条件流程节点规则配置 Excel批量发起流程产品文档: https://help.aliyun.com/product/109414.html 一、需求分析假设当前企业内部的招聘管理是基于一份如下图所示的Excel文件进行的操作，如何将其快速转换为一个线上的宜搭应用？当前Excel表中的所有列字段，按其含义可划分为两部分。从候选人到简历地址间的字段，可以归类为面试候选人的基本信息，而从面试进度到备注间的字段，则可以归类为面试过程产生的数据。如果候选人基本信息的录入不做限制，大家都可以录入，那么就可以简单归类于数据收集和共享，符合宜搭单据类页面的定位。而面试过程及结果则与跟进人员、其主管、hr等相关，期间的存在任务流转、工作协同，就可以使用宜搭的流程类页面实现。实际场景中，面试的发起需要候选人为“待面试”的状态，因此候选人的基本信息中，可以加入“面试进度”此字段标记，实现数据过滤。招聘管理_本地.xlsx招聘管理_新增.xlsx 二、应用搭建人才资源录入页面搭建根据已有的Excel建模，并在宜搭中创建单据页面，有一种更简单的方式，如下图：从Excel导入创建，如果希望将Excel数据一并转换为创建后的数据记录，需要先将应用置为“上线”状态。点击上传Excel并进行到第三步时发现，跟进人员等非候选人基本信息的内容也会创建对应组件，不符合原先计划。因此回到本地Excel中，将“候选人”到“面试进度”间的字段复制到Sheet2中，再回到Excel导入中重新上传。

大數據

基于深度学习的图像分割在高德的实践

click / 2019-12-16

一、前言图像分割（Image Segmentation）是计算机视觉领域中的一项重要基础技术，是图像理解中的重要一环。图像分割是将数字图像细分为多个图像子区域的过程，通过简化或改变图像的表示形式，让图像能够更加容易被理解。更简单地说，图像分割就是为数字图像中的每一个像素附加标签，使得具有相同标签的像素具有某种共同的视觉特性。图像分割技术自 60 年代数字图像处理诞生开始便有了研究，随着近年来深度学习研究的逐步深入，图像分割技术也随之有了巨大的发展。早期的图像分割算法不能很好地分割一些具有抽象语义的目标，比如文字、动物、行人、车辆。这是因为早期的图像分割算法基于简单的像素值或一些低层的特征，如边缘、纹理等，人工设计的一些描述很难准确描述这些语义，这一经典问题被称之为“语义鸿沟”。得益于深度学习能够“自动学习特征”的这一特点，第三代图像分割很好地避免了人工设计特征带来的“语义鸿沟”，从最初只能基于像素值以及低层特征进行分割，到现在能够完成一些根据高层语义的分割需求。（图像分割的发展历史）高德地图拥有图像/视频大数据，在众多业务场景上都需要理解图像中的内容。例如，在数据的自动化生产中，通常需要寻找文字、路面、房屋、桥梁、指示牌、路面标线等目标。这些数据里有些是通过采集车辆或卫星拍摄，也有些数据则是通过用户手机拍摄，如下图所示：面对这些场景语义复杂、内容差异巨大的图像，高德是如何通过图像分割对其进行理解的？本文介绍了图像分割在高德地图从解决一些小问题的“手段”，逐步成长为高度自动化数据生产线的强大技术助力。二、探索期：一些早期的尝试在街边的数据采集中，我们需要自动化生产出采集到的小区、店铺等 POI （Point of Interest）数据。我们通过 OCR 算法识别其中文字，但苦恼于无法确定采集图像中到底有几个 POI。例如，下图中“领秀丽人”与“燕子童装”两家店铺，人眼可以很容易区分，但是对于机器则不然。一些简单的策略，比如背景颜色，容易带来很多的错误。例如，遇到两个样式十分相近的挂牌的时候，我们利用无监督的

大數據

孙正义否认5分钟决定投马云；果冻有家，房联网概念的平台化应用

click / 2019-12-16

孙正义否认5分钟决定投马云：是10分钟，唯一个没向自己要钱的近日软银创始人孙正义在东京大学与马云对话时表示，自己并不是5分钟决定投资马云，实际上应该聊了10分钟左右。马云当时让他印象深刻，是唯一一个没向自己要钱的人。三星否认折叠屏手机销量破百万，100万是目标销量三星电子总裁孙英权12月12日参加活动时表示，三星首款折叠屏手机Galaxy Fold的销量达到了100万部。结果官方晚上辟谣了。三星发言人称总裁Young Sohn可能是将目标销量与真实销量搞错了，Galaxy Fold手机的目标销量是100万，并非现在就卖出了100万。果冻有家，房联网概念的平台化应用果冻有家是一款应政策背景和市场趋势而生的租房APP，瞄准的是最具活力的95乃至00后的新生代群体。果冻有家着重突出的社交互动等功能最大限度的迎合了目标群体特色。果冻有家配合智能家打造、在线商城、在线金融等元素构建围绕房子的完整生态系统。董明珠谈和雷军10亿赌约：价值在于认知传统和现代产业珠海格力电器股份有限公司董事长董明珠表示：高质量发展靠互联网不行，必须发展实体经济，实体经济里面最重要的是制造业，跟雷军赌，当时他们都认为他们能赢，甚至很长一段时间来想十亿拿来怎么分。这个结果证明我们是对的，但实际我没要他的钱，我觉得这个十亿在这个过程中是一个观念的争执，真正不是为了赌这十个亿，我觉得价值所在，在于我们怎么认知传统产业和现代产业。 Vanguard集团携手蚂蚁金服进军中国基金投顾业务 12月14日，资产管理规模达5.9万亿美元的美国Vanguard集团和蚂蚁金融服务集团宣布建立合作关系，经中国证监会（CSRC）批准，两家公司的合资公司将为中国个人投资者提供基金投顾业务服务，根据投资者的投资目标、投资期限及风险偏好，通过支付宝上综合财富管理平台蚂蚁财富，为投资者提供定制化服务，用户最低投资金额为人民币800元。马斯克：太阳能、能源存储业务将超越电动车业务随着特斯拉在Model 3的生产效率上取得进展，马斯克在最近的财报电话会议上表示，特斯拉将把更多注意力放在太阳能和更广泛的特斯拉能源业务上，其中包括将间歇性太阳能发电与电池存储的整合。长城与宝马合资公司获批，光束将造MINI纯电动汽车长城汽车称，与宝马（荷兰）控股公司合资（光束汽车生产基地项目）取得《中华人民共和国外商投资企业批准证书》。长城方面表示，双方的合作不仅在生产层面，还包括在中国新能源汽车市场上进行纯电动汽车的联合研发，预计未来的MINI纯电动汽车以及长城汽车旗下新产品均将在此投入生产。

大數據

某接口cpu使用率异常排查记录

click / 2019-12-16

1. 问题现象：某项目跑在 p01~02 2台ECS上，主要用途是聚合服务，给H5页面提供直接访问的接口。最近版本新增加了接口 wechat/mp/qrcode，用途是根据请求参数生成小程序二维码，以swoole+lumen方式对外服务接口上线后，cpu使用率逐步上升，直至100%；同时请求响应时长也逐步攀升上图是问题期间p01cpu使用率，几个下降过程是因为上线（会重启服务进程）或者手动重启服务进程；后面发现p01 p02cpu基本打满，临时加了 p03 p04 2台ecs以降低问题的影响。 2. 初步分析对于cpu使用率居高不下的进程，通常做法是先大致看下系统调用，看cpu时间都耗在哪个上面：strace -p {pid} -c 位居第一的是 brk 系统调用，占用了接近90%的时间

大數據

第五代移动通信系统（5G-NR）的系统要求 | 带你读《5G-NR信道编码》之三

click / 2019-12-16

背景介绍 1.1 前几代移动通信的演进 | 1.2　第五代移动通信系统（5G-NR）的系统要求 | 与前四代不同的是，5G 的应用十分多样化 [4]，峰值速率和平均小区频谱效率不再是唯一的要求。此外，体验速率、连接数、低时延、高可靠、高能效都将成为系统设计的重要因素。应用场景也不止有广域覆盖，还有密集热点、机器间通信、车联网、大型露天集会、地铁等，这也决定了 5G 中的技术是多元的。 1.2.1　主要场景对于移动互联网用户，未来 5G 的目标是达到类似光纤速度的用户体验。而对于物联网，5G 系统应该支持多种应用，如交通、医疗、农业、金融、建筑、电网、

大數據

LDPC 码的基本原理 | 带你读《5G-NR信道编码》之七

click / 2019-12-16

低密度校验码（LDPC） 2.1 LDPC的产生与发展 | 2.2　LDPC 码的基本原理 | 2.2.1　Gallager 码 LDPC 码是一种分组校验码，由 Gallager 于 1963 年提出 [1-2]。在其博士论文 [2] 中，除了对性能界的详尽分析之外，Gallager 还建议了两种解码方法：一

大數據

如何保障云上数据安全？一文详解云原生全链路加密

click / 2019-12-15

点击下载《不一样的双11 技术：阿里巴巴经济体云原生实践》本文节选自《不一样的双11 技术：阿里巴巴经济体云原生实践》一书，点击上方图片即可下载！作者李鹏（壮怀）阿里云容器服务高级技术专家黄瑞瑞阿里云技术架构部资深技术专家导读：对于云上客户而言，其云上数据被妥善的安全保护是其最重要的安全需求，也是云上综合安全能力最具象的体现。本文作者将从云安全体系出发，到云数据安全，再到云原生安全体系对全链路加密进行一次梳理，从而回答：在云原生时代，全链路加密需要做什么？如何做到？以及未来要做什么？什么是云原生全链路加密数据安全在云上的要求，可以用信息安全基本三要素 “CIA”来概括，即机密性（Confidentiality）、完整性（Integrity）和可用性（Availability）。机密性专指受保护数据只可以被合法的（或预期的）用户可访问，其主要实现手段包括数据的访问控制、数据防泄露、数据加密和密钥管理等手段；完整性是保证只有合法的（或预期的）用户才能修改数据，主要通过访问控制来实现，同时在数据的传输和存储中可以通过校验算法来保证用户数据的完整性；数据的可用性主要体现在云上环境整体的安全能力、容灾能力、可靠度，以及云上各个相关系统（存储系统、网络通路、身份验证机制和权限校验机制等等）的正常工作保障。在三要素中，第一要素机密性（Confidentiality）最常见也是最常被要求的技术实现手段就是数据加密。具体到云原生维度，需要实现的就是云原生的全链路加密能力。 “全链路”指的是数据在传输 (in Transit，也叫 in-motion)、计算

大數據

解密淘宝推荐实战，打造 “比你还懂你” 的个性化APP

click / 2019-12-13

以下内容根据演讲视频以及PPT整理而成。手淘推荐简介手淘推荐的快速发展源于2014年阿里“All in 无线”战略的提出。在无线时代，手机屏幕变小，用户无法同时浏览多个视窗，交互变得困难，在这样的情况下，手淘借助个性化推荐来提升用户在无线端的浏览效率。经过近几年的发展，推荐已经成为手淘上面最大的流量入口，每天服务数亿用户，成交量仅次于搜索，成为了手淘成交量第二大入口。今天的推荐不仅仅包含商品，还包含了直播、店铺、品牌、UGC，PGC等，手淘整体的推荐物种十分丰富，目前手淘的整体推荐场景有上百个。推荐与搜索不同，搜索中用户可以主动表达需求，推荐很少和用户主动互动，或者和用户互动的是后台的算法模型，所以推荐从诞生开始就是大数据+AI的产品。手淘推荐特点相比于其他推荐产品，手淘推荐也有自身的如下特点：1.购物决策周期：手淘推荐的主要价值是挖掘用户潜在需求和帮助用户购买决策，用户的购物决策周期比较长，需要经历需求发现,信息获取，商品对比和下单决策的过程，电商推荐系统需要根据用户购物状态来做出推荐决策。2.时效性：我们一生会在淘宝购买很多东西，但是这些需求通常是低频和只在很短的时间窗口有效，比如手机1~2才买一次但决策周期只有几小时到几天，因此需要非常强的时效性，需要快速地感知和捕获用户的实时兴趣和探索未知需求,因此，推荐诞生之初就与Flink、Blink实时计算关系非常紧密。3.人群结构复杂：手淘中会存在未登录用户、新用户、低活用户以及流式用户等，因此需要制定差异化的推荐策略，并且针对性地优推荐模型。4.多场景：手淘推荐覆盖了几百个场景，每个场景都独立进行优化显然是不可能的，而且每个场景的条件不同，因此超参也必然不同，无法依靠人工逐个优化场景模型的参数，因此需要在模型之间进行迁移学习以及自动的超参学习等，通过头部场景的迁移学习来服务好尾部场景。5.多目标和多物种。推荐技术框架如下图所示的是手淘推荐的技术框架。2019年双11，整个阿里巴巴的业务全部实现上云，因此手淘推荐的技术架构也是生长在云上的。推荐的A-B-C包括了推荐算法和模型、原始日志和基于日志加工出来的特征和离在线计算及服务能力，比如向量检索、机器学习平台、在线排序服务等。除了云，今年我们通过把深度学习模型部署到了端上，实现了云和端的协同计算。接下来将主要围绕数据、基础设施以及算法模型进行介绍。数据-基础数据手淘的推荐数据主要包括几种，即描述型数据比如用户画像,关系数据比如二部图或稀疏矩阵,行为序列和图数据等。基于用户行为序列推荐模型在手淘商品推荐应用最为广泛，图模型则是近两年发展较快的模型，因为序列通常只适合于同构的数据，而在手淘里面，用户的行为有很多种，比如看视频、搜索关键词等，通过graph embedding 等技术可以将异构图数据对齐或做特征融合。数据-样本数据样本主要包含两部分元素，label和特征。label一般在手淘推荐中有几类，比如曝光、点击、成交以及加购等。特征则比较多了，比如用户自己的特征、用户上下文特征、商品本身特征以及两两组合特征等。根据用户的特征和行为日志做Join就形成样本表，这些表格存储的时候就是按照稀疏矩阵方式进行存储，一般而言是按天或者按照时间片段形成表格，样本生成需要占用很大一部分离线计算资源。离线计算-计算模式离线计算主要有三种模式，即批处理、流处理和交互式查询。批处理中比较典型的就是MapReduce，其特点是延迟高但并行能力强，适合数据离线处理，比如小时/天级别特征计算，样本处理和离线报表等。流计算的特点是数据延迟低，因此非常适合进行事件处理，比如用户实时点击，实时偏好预测，在线学习的实时样本处理和实时报表等。交互式查询则主要用于进行数据可视化和报表分析。离线计算-模型训练模型训练也有三种主要的模式，即全量学习、增量学习和在线学习。全量学习这里是指模型初始化从0开始学习，如果日志规模比较小，模型简单并不需要频繁更新时，可以基于全量日志定期训练和更新模型,但当日志和模型参数规模较大时，全量学习要消耗大量计算资源和数天时间，性价比很低，这时通常会在历史模型参数基础上做增量学习，用小时/天日志增量训练模型和部署到线上，降低资源消耗和较高的模型更新频率。如果模型时效性非常强需要用秒/分钟级别样本实时更新模型，这是就需要用到在线学习，在学习和增量学习主要差别是依赖的数据流不一样，在线学习通常需要通过流式计算框架实时产出样本。