大數據 – Page 157 – 小科科的春天

为了帮助卖家成交，闲鱼工程师做了些什么？

click / 2019-12-01

作者：闲鱼技术-吴白引言闲鱼是一个C2C平台，提高卖家活跃度不仅有利于成交的提升，对于用户增长也有积极意义。而其中的关键点就在于其成交的效率。而个人卖家由于其专业程度不如专业卖家，成交效率往往并不高。我们希望可以实现两个提升：能帮助卖家提高其成交效率。可以快速的接入新的场景。通过对线上数据进行分析，我们发现一些有趣的现象，比如：使用真人头像的卖家，会有更多的用户访问其主页或商品(潜在的流量来源)；回复积极的卖家更易成交；距离越近/信息越丰富的商品也更易售出。卖家行为闭环卖家活跃度最大的核心点在于是否能成交，所以我们以成交为抓手来提高卖家的在线活跃度。根据前面的观察，卖家行为可以影响其成交，这些影响有的显而易见，有的则没那么明显，基于这个我们做了一些尝试。基于卖家行为的尝试卖家的目的一定是成交，所以我们以成交转化为目的，基于线上的算法模型做了一轮模拟，模拟基于两个关键指标在线状态。当前用户在线状态以及距离上一次在线时长。询单回复统计。用户在过去半小时的询单回复情况。算法模型在这里不做涉及，因为有更专业的算法同学来完成，在这里我们只解决工程侧的问题。首先我们定义了用户在闲鱼上的行为4要素：1）when。2）where。3）what。4）who。when和where定义卖家的时间和空间纬度，what刻画了行为本身，who则是对于行为主体人的表达。另一方面卖家行为描述起来很简单，但是要正确识别却并不简单。比如一个完整的卖家回复行为需要做如下拆解买家基于商品和卖家创建对话。买家基于对话给卖家发送消息。卖家基于对话回复买家消息。上面三个行为必须满足约束：1）时间有序。2）行为2可以重复发生。3）行为1，2，3之间可能存在干扰(自动回复，安全提醒等)。基于此我们选择用CEP来做复杂事件模型匹配，选型上对比轻量/灵活性/使用成本上综合对比了Siddhi以及flink cep，最终选择Siddhi来作为前期的cep计算引擎。以上是算法基于两个指标的模拟结果，数据因为安全原因进行了脱敏。纵轴越大表示成交越多。横轴表示基于用户在线状态&回复行为的多维特征。从模拟结果上可以看到在线状态&回复积极的卖家更容易促成成交，这从一个方面说明卖家的行为确实会潜在的影响其成交效率。构造完整闭环 […]

大數據

一线专家谈2020年人工智能落地趋势

click / 2019-12-01

转眼间，2019年只剩下不到1个月了。人工智能的热度依旧，只是在资本市场，看空的投资人也越来越多了。从当年大数据的发展趋势看，这种情况反而对产业发展是有利的。因为这意味着，进入赛道的野蛮竞争玩家会越来越少。对于已经拿到赛道入场券的选手来说，如何合理配置手中的资源成为生死存亡的关键，同时细分市场上的领头羊可能在这样焦灼的市场竞争中成长为独角兽。对于从事大数据与人工智能相关领域多年的人来说，其最终目标还是“从数据中挖掘价值”。在挖掘价值时，具体某类技术只是整个过程中某个阶段的辅助工具，单纯某类技术解决不了所有问题。因此，我们基于“最终目标”划分三大类场景去运用“大数据”和“人工智能”构建整体解决方案：一.寻找业务增长点：数据建模能力成为核心，当前Fintech/Regtech领域需求广泛核心要素：帮助企业解决经营决策中遇到的数据支撑问题。无论是营销还是风控，最终都是通过一些报表、模型去辅助业务人员做决策。解决方案：机器学习类产品已经成为金融行业寻求业务增长点的标配工具，同时越来越多的传统行业也开始使用大数据、人工智能等技术做辅助决策。解决方案难点：由于跟业务结合紧密，虽然已经在不同行业开始落地，但实际进展缓慢。由于业务的特殊性，往往不能够单单通过算法本身去解决所有业务问题。这同时也意味着，交付目标以及实施周期的不确定性。二、加深业务壁垒：知识中枢成为重要工具，当前金融/安全等行业试点较多核心要素：对现有业务实现优化。解决方案：在这一场景中，知识中枢运用较多。我们将三大块技术：知识图谱、搜索引擎、深度图谱糅合进知识中枢的概念中。首先通过搜索引擎进行行业知识检索，再通过知识图谱进行概念串联，最后通过深度图谱进行行业知识推理。解决方案难点：如何将行业知识抽象出来，形成公司内部的知识系统，从而有针对性地对现有业务流程、具体业务点进行整体优化。三、降低业务成本：自动化成为基础要素，当前能源/交通等行业突破开始核心要素：如何减少人工干预。解决方案：现有的场景中，偏业务性质的自动化可以通过RPA等技术实现。RPA本身技术门槛不高，但在NLP、OCR、CV等AI技术带领下，已逐步被用在越来越多的场景中。另一方面，由于图像识别以及5G、边缘计算的推动，越来越多的安防监控、无人巡检等AIOT场景开始落地。相对于RPA，AIOT的场景给客户业务带来的颠覆跟价值更大。解决方案难点：现实场景中的有效样本较少，影响模型的准确率和落地。下面我们将结合三种不同的场景来阐述六大AI趋势。01趋势一：Fintech/Regtech AI落地过程中，AI平台逐步成为事实标准　　AI平台，在很多地方又称为AI中台/数据科学平台/机器学习平台/人工智能平台，主要涵盖的功能除了传统统计分析软件包含的功能以外，还包括大数据、分布式计算平台、NLP、CV等能力。行业先行者在探索AI落地过程中，逐步意识到AI平台的重要性。从一开始只针对几个小的业务线进行试点，到后续在更多的场景中推动落地，大家达成共识：与数据中台类似，烟囱式的各自为政只会使得后续AI的落地愈加艰难。AI平台在Fintech市场的爆发，验证了一个基本事实：只要业务领域有足够通用的需求，就会出现足够通用的平台。数据库本身是上一个数据的事实标准，而AI平台则没有一个明确的定位。由于这个想象空间，AI平台便成了各大玩家的必争之地。 02趋势二：数据建模开始在非金融行业的龙头企业流行，国产化趋势明显　　AI平台在其他行业的试点也如同星星之火。虽然其他传统行业的信息化水平普遍比金融略低，但也在迎头赶上。往往这些行业取得的成果比金融要多，这是因为满地都是顺手可摘的果子，成果落地比金融行业相对容易。这些企业原本可能使用的是SAS、SPSS或者Matlab等国外产品，现在可能在试用国产AI平台。一方面是因为SAS等产品不足以支撑最新流行的框架算法，另一方面也有国产化层面的考量。AI平台作为人工智能基础平台，本身需要对各领域专业算法具备深入理解以及实现的能力。同时作为平台，也有通用性、高性能以及安全可靠等各方面的平台需求，对相关研发人员有极高的技术要求。当前，国产平台跟SAS等比较，整体还是略占劣势，但是在某些细分领域已经实现了超越。 03趋势三：图谱应用开始在全行业推广，伪需求略多，注意辨别　　图谱类的应用，主要对应于上面提到的“知识中枢”。基于“知识中枢”去做特定行业的图谱类应用已经在市场上流行了一段时间。只是，一方面由于客户对这块有不切实际的要求，另一方面，大多数实施图谱应用的厂商能力参差不齐，实际项目也没办法最终落地。2020年对大多数图谱类应用，客户会有一个更清醒的认识：做什么它擅长，做什么它不行，应该怎样做，都会有一定的经验。这也对图谱应用有更高的技术层面的要求，同时也对NLP算法以及图谱算法有更多落地层面的考量，包括性能、实施周期、最终效果等。 04趋势四：深度图谱在反欺诈、反洗钱、犯罪团伙分析等场景开始落地　　由于深度学习自身相关技术的停滞，将深度学习与图谱结合成为了学术界的主攻方向。而在反欺诈、反洗钱、犯罪团队分析等场景下，复杂网络分析已经成为主流的分析手段。通过深度学习与图谱的融合，深度图谱给传统的图谱分析带来了图谱推理的能力，从而将原有的模型精度提升到另一个高度。然而，一旦涉及到落地，故事并没有那么简单。一方面，同大多数AI应用一样，落地过程是比较曲折和复杂的。本身模型精度需要不断迭代，同时也需要对业务非常熟悉的人员进行及时反馈，这就导致对业务跟算法的要求都非常高，一旦实施过程中出现偏差，容易有挫败感。另外，在一些对实时性要求比较高的场景中，对底层图数据库的性能也有要求。而当前的市场上，图数据库厂商虽然多，但大多数时候没有懂技术的人员去调优，使得真正能同时满足性能要求和算法要求的图数据库凤毛麟角。 △反洗钱深度图谱构建 △深度图谱建模05趋势五：视频图像类应用的碎片化与场景化成为AI快速落地推广的拦路虎　　 CV类场景是引爆AI大火的导火索，同时，由于大多图像场景偏识别类，跟业务离得比较远，可以大规模地在市场上扩张。不过，我们可以惊奇地看到，CV类的需求还在不停地膨胀。这是因为，当前市场的CV巨头在人脸、车辆等通用需求方面进行了大规模落地，而对于一些偏碎片化的场景，比如设备故障识别、异常识别，甚至特殊场景的人脸识别，都缺乏足够的技术支撑与耐心去推动落地。因此，怎样提升CV场景落地的效率成为大多数CV从业者的主要工作方向，这里面包括多个维度：第一，从科研层面去革新算法，第二，从工具层面去落实标注、训练、部署等的一体化平台，第三，从市场角度定义行业通用化的场景，第四，从技术角度去优化模型，从而降低实施成本。在这个大背景下，四大CV独角兽也好，互联网巨头也好，都试图去推动平台的落地。然而，在这样的“四维”要求下，要踏踏实实地在细分场景中打磨通用模型、平台，谈何容易。但这也让耕耘细分行业的小CV厂商有足够的空间去摸索。 06趋势六：AIOT物联网场景没有大规模的需求爆发，细分行业开始出现落地　我们看到，所谓的AIOT场景，主要还是CV类场景带动，但一些深入需求（如需要传感器数据参与的预测性维护类场景）落地较少。这跟“智能制造”的特点比较相关。客户在车间现场通常需要一个开箱即用的产品，而大多数AI类场景需要足够多的时间去打磨。另外，大多数工业场景需要的不仅仅是大量有价值的数据，还需要对工业场景有深刻的理解。首先，“大量有价值”的数据本身不大可能获得。比如，在预测性维护的场景下，所谓“有价值”，就是指相同或者类似的设备历史上出现故障的时候对应的数据，这种数据当然很少。其次，在部分异常数据的加持下，一般的统计分析算法可能分析不出什么。这跟金融类的风控场景不同，风控场景考验的是人性，从人性的角度去做一定深度的分析，并结合算法就可以取得不错的效果。而对于设备，这里需要的是一个深刻理解机械原理的算法专家。

大數據

全球首个！阿里云开源批流一体机器学习平台Alink

click / 2019-12-01

11月28日，阿里云正式开源机器学习平台 Alink，这也是全球首个批流一体的算法平台，旨在降低算法开发门槛，帮助开发者掌握机器学习的生命全周期。 Alink基于实时计算引擎Flink，提供丰富的算法组件库和便捷的操作框架，开发者可以一键搭建覆盖数据处理、特征工程、模型训练、模型预测的算法模型开发全流程。作为业界首个同时支持批式算法、流式算法的机器学习平台，Alink提供了Python 接口，开发者无需Flink技术背景也可以轻松构建算法模型。据悉，Alink已被广泛运用在阿里巴巴搜索、推荐、广告等多个核心实时在线业务中。在刚刚落幕的天猫双11中，单日数据处理量达到970PB，每秒处理峰值数据多达25亿条。Alink成功经受住了超大规模实时数据训练的检验，并帮助提升4% CTR（商品点击转化率）。在Flink Forward 2019大会上，阿里云智能总裁张建锋表示：“大量业务从批处理转变为流处理，实时化是数据处理的真正未来。”自2019年1月起，阿里巴巴将内部维护的Blink全部回馈给Flink开源社区，目前贡献代码数量已超过100万行。此次自主开源的Alink与Flink 相辅相成，将成为开发者的左膀右臂，发挥数据智能在数字经济中的巨大能量。从拥抱开源、贡献开源、自主开源升级为持续赋能开源，开源已经升级为阿里技术战略之一。目前阿里自主开源项目数已有一千余个，GitHub star数量超过66w，覆盖AI、大数据、中间件、移动、数据库等多个领域。阿里已成为开源贡献最大的科技公司之一。

大數據

普通商超的商业传奇故事，13家门店一年间营收破亿

click / 2019-12-01

在国内商超平台呈现百家齐放的激烈竞争大背景下，随着消费降级，商超经营管理不慎者比比皆是，家乐福、华堂、大润发、华联等超市巨头都不约而同地大规模缩减店铺业务，足以看出市场压力。线下传统零售业态往往缺乏数字化经营意识和数字化经营工具，对于进店客人的转化数据通常是未知的，转型新零售比想象中更难。面对形势新变化，如何应对、寻找突破点，是零售企业必须面对的问题，线下商超也不例外，加速传统超市转型迫在眉睫。深发汇源工贸有限公司是山东淄博一家专业的快销品代理型商贸公司，专业从事快销品渠道运作15年，主营食品、日用百货零售批发，公司旗下现代理品牌包括：伊利、汇源、德国进口啤酒等众多品类的前线品牌，长期致力于打造面向全行业客户，形成全渠道购物业态转型的零售运营新模式。深发汇源经营管理过程中面临的困难主要体现在报表效率和销售管理两方面： 1.传统报表效率低下，导致货源供需不及时。制作报表、上报库房是旗下每一个超市门店理货员的日常必要工作内容之一，报表制作的前提是每天在店内理货完毕，每周向库房上报一次，库房才能根据理货员上报的情况调配货品，效率非常低，超市货架上经常出现某种商品由于断货挂牌的现象。 2.销售库存报告不及时，营收状况无法实时获取。由于销售和库存报告的不及时，月底计算利润时也很困难，需要等到13个超市门店产品数量以及销售额盘清后才能结账，最终也会影响公司营销策略根据市场调整。阿里云云市场高效推动畅捷通T+财务系统的落地实施，助力企业向智能运营转型，不同门店的理货员可以通过网页登录T+系统，与库房进行实时销售数据的传递以及库存更新；库房可以每天根据各类商品的销售排名以及现存量情况有针对性地进行补货发货，很好地解决了货源供需不及时的问题。此外，借助T+系统实时成本的功能，管理者可以迅速地掌握商品销售的毛利情况，结合销售排名及库龄分析，灵活制定促销政策，减少呆滞货物的积压，增加了销售收入。深发汇源总经理胡钟涛表示：因为相信阿里云的品牌能力和品质保证，深发汇源选择云市场合作，上线的畅捷通T+ 产品对公司内部管理规范化起到了至关重要的作用，商贸行业的扩展速度比较快，随之而来的问题也比较多，借助T+管理软件，提升工作效率的同时，还能节约管理成本，为我们在其他区域的业务开展奠定了一个良好的基础。现在不管出差到哪里我都可以很方便看到公司的经营数据，及时、准确很有价值！依托云市场平台，淄博深发汇源工贸通过畅捷通T+ 系统，完成传统超市从耗费一周进行盘点，到实时掌握库存动态的极速转型。过去一年，深发汇源已实现销售收入1.7亿元，经营规模扩大到13家超市门店+13个库房，覆盖临淄市区及乡镇村级流通终端、高中低档餐饮、特渠等近3800家客户，数字化工具和场景运营的融入帮助传统零售实现瓶颈突破。

大數據

一个周内上线50个增长策略，竟然能这么高效！

click / 2019-12-01

作者|程哲（兰昊）出品|阿里巴巴新零售淘系技术部导读：年初的一个晨会上，用户增长负责人湘翁问我说：一个周内上线50个增长策略，技术兄弟们能做到么？在闲鱼用户增长业务上的实验闲鱼的用户增长业务具有如下现状：闲鱼的卖家都是普通小卖家，而非专业的 B 类商家。因此无法统一组织起来参加营销活动带来买家活跃。这一点是与淘宝／天猫的差别。我们目前 DAU 已经突破到 2000W ，如何承接好这么大体量的用户，对运营同学是个很大的考验。为了能更好地做好用户增长，在今年年初时，我们在用户增长下做了多个实验，希望提高用户停留时长。用户浏览时间越长，就越有可能发现闲鱼上还有很多有趣的内容，无论是商品宝贝还是鱼塘内的帖子。从而达到吸引用户下一次还能再回来的目的，最终带来用户增长。其中两个实验如下：我们做的实验上线后大部分都取得了不错的业务效果，但是在过程中也暴露了两个问题：研发周期长一开始，我们先用最快的实现方案来做，主要是为了快速验证规则策略的有效性，并没有做大而全的设计，每个需求都是case by case地写代码来实现。那么从开始开发真正能到上线，很可能就是三周，主要因为客户端发版是有窗口的。运营效率慢因为上线慢，导致获取业务数据后再分析效果就很晚了，然后还要根据数据再去做调整那就更晚了。这样算下来，一年也上不了几个规则策略。

大數據

2019年度创投报告：什么值得投？

click / 2019-12-01

文 | 小饭桌、凡卓资本 2019年，国内创投市场趋于理性，整体回归价值投资。秩序规范，格局重塑，这或许是对2019年最好的总结。在这一年，机构迎来近5年募资规模的最低点，2019年前三季度募资完成的基金共2862支，同比下降70.2%，募资总规模1476亿美元，同比下降27.19%。高举高打“买赛道”的时代在淡出，资金开始向头部聚集，马太效应进一步加剧。（2019中国资本市场整体募资情况）基金募资的收紧直接导致2019年融资市场交易放缓，2019年前三季度投融资事件3022起，同比下降38.29%；融资规模1165亿美元，同比下降27.3%。（2019中国资本市场融资情况）从融资规模来看，资金主要流向中后期阶段，D轮之后融资规模占比达到41.39%，早期的种子轮、天使轮以及后期的E轮同比下降超过60%，但战略投资的比重却在提升，融合进一步加剧。这一年，消费互联网可挖掘的红利空间在缩小，国内金融赛道和文娱传媒赛道整体呈现降温趋势，产业互联网却迎来新的机遇。2019年前三季度中国市场投资热点主要集中在企业服务、医疗健康、新工业、长租公寓等领域。从融资数量来看，企业服务排名第一；从融资规模来看，新工业领域注入金额最高。这一年，受香港事件影响，部分公司赴港IPO暂停或延迟，中美贸易战让更多有较高技术壁垒的硬件领域受到资本青睐，科创板的问世给国内优秀科技企业带来了对接资本市场的新机会。剧变与融合的商业浪潮之下，2019年小饭桌重点观察且持续看好新消费、产业互联网、保险和出海四个方向，并推出了超过20篇行业深度报道，旗下的凡卓资本也服务了旅悦、太美医疗、智布互联、轻松筹等在行业中有重大影响力的企业，帮助其更高效地对接资本和资源。我们坚持在寒冬中持续寻找有价值的公司和优秀的团队，陪伴创业者共同成长，打造未来商业领袖。在这个过程中，小饭桌除了深度剖析商业模式，也试图分析行业发展的底层逻辑，解答“为什么这个行业会实现爆发”“为什么会在这个时间节点爆发”的问题。在此之上，我们也对行业发展趋势有了一些自己的思考和判断。这篇万字长文，是我们思考的外化或者经验的分享，也是一份交给自己的答卷。以飨读者。新消费新消费是小饭桌2019年重点关注且持续看好的赛道之一，围绕消费品牌、渠道的创新机会非常大。截至目前，2019年消费领域融资事件数量达477个，总融资金额超500亿元，融资整体向一级市场中后期靠拢。（2019年新消费赛道典型融资事件）除此之外，完美日记、元气森林、喜茶、毒、三顿半等企业在今年也成为了消费领域炙手可热的明星项目。

大數據

11月28日Spark社区直播【Tablestore结合Spark的云上流批一体大数据架构】

click / 2019-11-27

议题： Tablestore结合Spark的云上流批一体大数据架构直播间直达（回看）链接： https://developer.aliyun.com/live/1716 简介：传统Lambda架构组件多运维复杂，如何使用一套存储和一套计算来实现流批架构充分享受技术红利？以Delta Lake为代表的新型数据湖方案越来越流行，传统的Lambda架构如何向数据湖架构进行扩展？以及结构化数据结合Delta Lake的最佳解决方案是什么。本次分享将会结合理论讲解和实际场景为您一一解答。讲师：王卓然花名琸然阿里云存储服务技术专家时间： 2019年11月28日 19：00-20：00请钉钉扫码至群内观看直播，与嘉宾互动有机会获得社区礼物一份。

大數據

什么技能产品经理不会提，但技术人必须懂？

click / 2019-11-27

阿里妹导读：缓存是搭建高性能高并发系统的必备手段之一，通常用来解决性能瓶颈，是程序员的必备知识点，也是面试必备考点。尽管，产品经理大概率不会关注系统性能，但程序员在实现需求的时候必须思考系统承载的并发量和用户量。缓存主要用来解决性能瓶颈的问题，一旦错误使用反而会令系统崩溃。今天，我们就通过4W的方式系统化地总结缓存相关的理论知识。随着互联网业务的快速迭代以及用户量激增，应用架构需要不断调整甚至重构以适应这种业务的快速发展。当数据量迅速增长，业务逻辑越复杂，服务链路不断增加等等一系列问题，会导致RT过长，服务性能需要逐渐提升以满足更优的用户体验。在优化系统架构时通常的所用的两种方式scale up以及scale out，scale out就是通常所说的水平扩展，将应用服务设计成无状态性，可以方便水平扩展通过增加硬件的方式分解访问压力。而scale up则是将单个服务链路性能提升，以提升QPS以及系统的吞吐量。在追求更优的性能时，大多数业务场景是读多写少的情况，一般会通过引入缓存的方式解决。 1. What——什么是缓存？关于缓存的定义，在wiki中为： a collection of data duplicating original values stored elsewhere on

大數據

双 11 模块 79.34% 的代码是怎样智能生成的？ | 开发者必读（109期）

click / 2019-11-27

最炫的技术新知、最热门的大咖公开课、最有趣的开发者活动、最实用的工具干货，就在《开发者必读》！每日集成开发者社区精品内容，你身边的技术资讯管家。每日头条双 11 模块 79.34% 的代码是怎样智能生成的？作为今年阿里经济体前端委员会的四大技术方向之一，前端智能化方向一被提及，就不免有人好奇：前端结合 AI 能做些什么，怎么做，未来会不会对前端产生很大的冲击等等。本篇文章将围绕这些问题，以「设计稿自动生成代码」场景为例，从背景分析、竞品分析、问题拆解、技术方案等几个角度切入，细述相关思考及过程实践。最强干货不要再叫自己“程序员”了程序员不要将自己限定在写代码这一单一职能上，需要认清自身商业价值的本质，需要锻炼自己的沟通能力，擅于表现自己。职业只是一种生活方式，并不能完全支配我们的幸福。我们应该为了生活而工作，而不要为了工作而生活。首度公开！OceanBase存储系统架构的演进历程及工程实践作为一款100%自研的分布式数据库，OceanBase历经了近十年的发展历程。近十年来，OceanBase的存储架构经历了多次演进，以解决业务越来越复杂苛刻的存储需求。本文整理自赵裕众（花名陈群）在2019 SACC中国系统架构师大会中的演讲。 2019 年度全球程序员薪酬报告：40岁以后普遍遭遇收入天花板日前

大數據

阿里云大数据+AI技术沙龙上海站回顾 | 揭秘TPC-DS 榜单第一名背后的强大引擎

click / 2019-11-27

11月16日，阿里云大数据+AI技术沙龙，首战上海站取得圆满成功。我们邀请到阿里巴巴计算平台事业部技术专家辛庸，辰山，抚月，诚历；高级技术专家铁杰，以及Intel软件工程师喻杉和大家进行分享交流。以下是各议题相关资料沉淀。议题一：基于 Spark 打造高效云原生数据分析引擎视频观看链接：https://developer.aliyun.com/live/1712?spm=a2c6h.12873581.0.0.270f1566XWpLUS&groupCode=apachespark PPT链接：https://www.slidestalk.com/AliSpark/Meetup_Shanghai_16944 辛庸，阿里巴巴计算平台事业部 EMR 技术专家。Apache Hadoop，Apache Spark contributor。对 Hadoop、Spark、Hive、Druid 等大数据组件有深入研究。目前从事大数据云化相关工作，专注于计算引擎、存储结构、数据库事务等内容。议题简介：由阿里巴巴 EMR 团队提交的 TPC-DS