大數據 – Page 172 – 小科科的春天

一个社恐的新中产，如何足不出户拥有一件定制衬衫？| 百匠大集

click / 2019-10-15

文/百匠君（微信公众号：吴晓波频道）一件衬衫的革命 1981年，上海淮海路嵩山电影院屋顶，一个大型霓虹灯“双燕牌”衬衫广告牌首次通电，映亮了一片初夏傍晚的夜空。衬衫厂厂长步鑫生也在这群楼下张望着霓虹广告牌的人群中。他首次在中国企业实行计件制改革，在他之前，中国企业员工做衬衫都以时计价。1983年，海盐衬衫总厂生产衬衫100多万件，工业总产值达到1028.58多万元，成为当时浙江省最大的专业衬衫厂。十年后，雅戈尔的生产厂房里，从日本引进的HP免熨设备刚刚安装完毕，工人们靠着它开发出了中国第一套免熨衬衫。这种经过树脂加工浸泡再高温定型的衬衫，在那年达到了日销1万件的销量。又十年后，陈年的凡客酝酿而生。这种依靠OEM代工和互联网低成本获客的服装直销模式，让那时凡客的衬衫保持着每日近1万件的销量，这意味着凡客成为了当时国内衬衫单品出货量最大的品牌。再十年后，一个年轻人做了一家数据分析公司卖衬衫，研发人体智能测量方案。创业不到半年，成了过去12个月里中国卖衬衫最快的企业，一天卖3000件衬衫。那些年的库存危机中国的衬衫行业被每十年一个的“改革者”推动着发展，钱宝祥就是其中那个用大数据卖衬衫的年轻人。要不是他笑起来时眼角的鱼尾纹，很多人都觉得他还是个刚毕业的90后。 “你觉得现在服装行业最大的痛点是什么？” “库存。”他说。钱宝祥的母亲曾经营过一家小服装工厂。“库存”这个来自母亲的烦恼一直伴随着他的成长，他至今记得厂里过季衣服堆积成山的样子。 2008年，钱宝祥母亲的服装厂撞上金融危机。挂牌价400元的衣服，成本在100元左右，但那时，标价20元都没有人买。那年，镇上的服装厂如暴露在烈日下的泡沫一般，一颗一颗迅速破裂。服装行业大多实行期货订货制，在提前订货的一年时间里，有太多随机和不可预见的状况发生，随便一种都有可能造成巨大的库存。消费者和工厂两边为这些成本买单，导致生存环境越来越差。 2016年，在以阿里和京东为代表的电商冲击下，传统服装业长期存在的库存堆积问题被冲到海岸上，变得尤为刺眼。钱宝祥想改变。 2017年，他创立了品牌MatchU码尚，利用ERP系统有效打通消费者和工厂之间的信息渠道，让库存变得透明可控。“用订单指导生产”，钱宝祥以此提高了工厂的生产效率。 “现在，每个用户在自己的手机端下单，订单信息就通过ERP直达工厂，工人拿着精准的尺码数据开始生产。这样一来，没有经销商赚差价，没有库存滞销压力，成本可以有效控制在一件成衣衬衫的水平。”他说。那些无关S、M、L的事长久以来，机器化生产的产物——“S/M/L尺码标准”将消费者那些带着个体差异性的需求，粗暴地平均切割成三份。而男士衬衫又偏偏是一个对尺码十分苛刻的品类。 […]

大數據

如何在SAP UI5应用里添加使用摄像头拍照的功能

click / 2019-10-15

昨天Jerry的文章纯JavaScript实现的调用设备摄像头并拍照的功能介绍了纯JavaScript借助WebRTC API来开发支持调用设备的摄像头拍照的web应用。而我同事遇到的实际情况是，需要使用SAP UI5这个前端框架来开发web应用。在有了前一篇文章的知识储备后，在SAP UI5里完成这个功能，可以采取同样的思路。我们先回忆前一篇文章里提到的技术实现的要点： (1) 在web应用的HTML页面里定义HTML5用于显示视频的原生标签:video (2) 使用WebRTC的API，获取设备摄像头对应的MediaStream对象，再将这个对象实例赋给video标签对应的DOM对象的srcObject属性以上两步实现之后，我们通过摄像头观察到的视频图像，就能实时显示在web应用的video标签里了。至于将某一时间点里video标签里显示的视频内容保存成图片并下载，其对应的JavaScript代码对于所有的前端框架并没有太大的不同，本文略过。因此，使用SAP UI5开发，我们无非得重复以上两个步骤。 SAP UI5应用最常用的视图格式为XML视图。我们直接在XML视图里加上HTML原生的video或者div标签，会发生什么？ 404错误，UI5框架加载不了div.js这个脚本文件。 Jerry以前还在SAP成都研究院CRM Fiori应用开发团队工作时，曾经写过一个SAP UI5框架代码的学习教程：Jerry的UI5框架代码自学教程，里面有两篇文章，详细介绍了SAP

大數據

图像搜索与识别背后的故事

click / 2019-10-15

2019杭州云栖大会大师零距离大咖有约，达摩院高级算法专家渊捷带来以“看图时代：图像搜索与识别技术的迭代”为题的演讲。本文以拍立淘为例对大规模图像搜索和识别技术以及在图像搜索中的应用进行了详细的描述，另外，还对图像的实拍图匹配和海量数据这两大挑战的解决方案进行了阐述。视频直播回顾以下为精彩视频内容整理：阿里巴巴数字生态系统在阿里巴巴的整个生态系统中，包括电商、数字娱乐、物流、本地服务中，无时无刻都在产生着大量的数据。借助阿里云这个大规模平台，以及这个平台上先进的AI相关技术，可以对这些大数据进行一个实时的处理，从而可以不断的提升商品的价值和用户的使用形态，以及能够不断的创造用户的价值。接下来以电商领域中的拍立淘AI产品为例，对看图时代的图像搜索与识别技术的迭代进行分享和介绍。拍立淘首先介绍一下拍立淘是什么，拍立淘是一项基于深度学习以图搜图的图像系统，包括图像的搜索与识别。拍立淘包含阿里巴巴所有商品的图像数据，而且一个商品可能有多个图像。目前拍立淘可以通过手机打开淘宝，然后点击右上角摄像的图标进入。拍立淘每天有2000万的用户进行访问，这些用户会将他们想要搜索的图片放到拍立淘进行搜索。为什么需要图像搜索为什么需要图像搜索呢？由于传统的搜索都是基于文字进行搜索的，而在电商领域有许多非标准的商品，例如衣服、鞋子、包、挂饰很难通过文字精准的描述出来是什么。比如想要搜索图中的包，用文字搜索就是输入“红色的真皮手提包”，可以看到搜出来的东西和自己想要的并不一样，总会有很多的差别。但是用以图搜图的形式进行搜索的话，就可以精准的描述商品，同样可以精准的搜索出自己想要的商品。应用场景以下是以图搜图的几种比较典型的场景：场景一：第一个场景是街拍场景，比如说在街上看到别人穿的衣服，想要买同款，就可以拍下来进行搜索购物了。场景二：第二个场景是网络爆款场景，比如说看到微信朋友圈、微博有很多人分享这个商品，如果想要买同样的商品，就可以通过拍立淘进行搜索和比价。场景三：第三个场景是海淘场景，当我们在海外时，可能碰到好多不认识的牌子，这样就可以通过拍立淘进行拍照搜索获取信息。拍立淘发展历程拍立淘是从2014年开始上线的，到现在已经有五年的历程了。最开始拍立淘要解决的是识别图像难的问题。随着用户的需求和时间的推进，拍立淘团队为了能够不断的迭代线上的效果，开始不断的扩大数据规模，以及扩大引擎容量。同时，团队也不断地对用户反馈数据和可点击数据进行挖掘，用以提高整个系统的响应速度。接下来讲一下为什么需要对图像进行识别，对于搜索而言，其实是不能理解用户传的图像是什么，只能找出相近的图像。但是如果有了识别能力，那么就可以告诉计算机是什么，进而搜索到对应的商品。拍立淘支持的类目这是拍立淘的类目，类目包括服饰类、包类、鞋类、装饰类等等，在淘宝上成交比较多的类目就是服饰类。拍立淘效果展示为了比较清晰的展示算法能力，接下来对拍立淘效果展示示例进行详细介绍。

大數據

10月17日Spark社区直播【Tablestore Spark Streaming Connector — 海量结构化数据的实时计算和处理】

click / 2019-10-15

主题：Tablestore Spark Streaming Connector — 海量结构化数据的实时计算和处理点击这里是直播间直达链接（回看链接）时间 10月17日：19：00-20：00 直播介绍：Tablestore是阿里云自研的云原生结构化大数据存储服务，本议题会详细介绍如何基于Tablestore的CDC技术，将大表内实时数据更新对接Spark Streaming来实现数据的实时计算和处理。最新版本的Connector会随着EMR下个版本的SDK一起开源，场景环节会结合阿里内部的业务介绍用户如何结合Tablestore和Spark来实现实时数据处理。主讲人：朱晓然 Tablestore存储服务技术专家请钉钉扫码至群内观看直播，与嘉宾互动有机会获得社区礼物一份。

大數據

龙头企业引领专业化众创空间构筑产业创新新高地

click / 2019-10-15

在大众创业、万众创新的时代背景下，各地众创空间建设热潮不断，而在当前数以千计的众创空间中，视野聚焦、贴近产业链的专业化众创空间更引人关注，成为推动实体经济转型升级的生力军、“双创”升级版的重要抓手。政策支持众创空间从自由生长到精耕细作随着创新驱动发展战略不断地深入，众创空间的功能不再是简单地提供工位，建设专业化的众创空间已是未来的一大发展方向。对此，国家出台了一系列政策鼓励众创空间高质量发展。 2016年国务院办公厅出台《关于加快众创空间发展服务实体经济转型升级的指导意见》，提出促进众创空间专业化发展，为实施创新驱动发展战略、推动大众创业万众创新提供低成本、全方位、专业化服务，更大程度地释放全社会创新创业活力、支撑经济结构调整和产业转型升级。在此基础上，2016年中，科技部发布《专业化众创空间建设工作指引》，指明发展专业化众创空间，是促进众创空间向纵深发展，鼓励发展众创、众包、众扶等新模式，对于促进产业转型升级、优化创新资源配置、激发人才创新创业活力具有重要意义，进一步明确了专业化众创空间的内涵特征、建设条件和方向。 2018年8月，国务院发布《关于推动创新创业高质量发展打造“双创”升级版的意见》，重点提出要建立众创空间质量管理、优胜劣汰的健康发展机制，引导众创空间向专业化、精细化方向升级。国家对专业化众创空间的支持意味着未来众创空间的发展必将从自由生长走向精耕细作、由快速发展走向高质量发展。随着双创“升级版”从量变到质变的提升，众创空间也在迈向全新的发展时期。 “龙头企业+初创企业”模式受追捧在相关政策的激励下，龙头骨干企业积极建立专业化众创空间，在资源开放共享、细分领域的创新创业等方面发挥出独特作用。（1）海尔——智能家居产业领域海尔智慧家庭国家专业化众创空间是科技部首批国家专业化众创空间。该空间依托海尔集团产业资源及海创汇开放的生态资源为中小企业加速赋能，为创业者提供了融资孵化、研发设计、检验检测、产品试制、供应链、营销等一站式创业服务。目前，海尔集团外部加入平台的项目达到4000多个，创业成功率达到50%，总估值近千亿。（2）大唐电信——移动互联网大唐电信打造的移动互联网国家专业化众创空间，更是聚集了移动互联网领域众多优质创业团队和创业项目。该空间累计孵化出50多个“互联网+”产品，涵盖教育、健康、体育、保险、物流、养老、环保等行业，初步形成了“资源型移动互联网”产业集群。（3）浪潮——大数据应用在浪潮看来，大数据双创是打造数据生态的有益探索，浪潮独创了“公司+创客”大数据产业模式，以天元数据(网+库)和海量数据为依托，全力支撑A创客(数据应用者)和B创客(数据生产者)创新创业，初步打造了完整的大数据产业生态链。截至2018年已在全国36个重要城市建设大数据创客中心，发展数万名A/B创客。（4）

大數據

10月17日Spark社区直播【Tablestore Spark Streaming Connector — 海量结构化数据的实时计算和处理】

click / 2019-10-15

主题：Tablestore Spark Streaming Connector — 海量结构化数据的实时计算和处理点击这里是直播间直达链接（回看链接）时间10月17日：19：00-20：00 直播介绍：Tablestore是阿里云自研的云原生结构化大数据存储服务，本议题会详细介绍如何基于Tablestore的CDC技术，将大表内实时数据更新对接Spark Streaming来实现数据的实时计算和处理。最新版本的Connector会随着EMR下个版本的SDK一起开源，场景环节会结合阿里内部的业务介绍用户如何结合Tablestore和Spark来实现实时数据处理。主讲人：朱晓然 Tablestore存储服务技术专家请钉钉扫码至群内观看直播，与嘉宾互动有机会获得社区礼物一份。

大數據

我的DDD实践之路：第一战

click / 2019-10-15

领域驱动设计（DDD）这个概念也是最近比较火的，我第一次接触到这个概念，是阿里云的架构师来我们公司交流的时候，当时留意了一下，后面在自己团队工作遇到痛点时才真正开始学习。为什么选择DDD？重构越来越频繁。每次重构都需要重新梳理业务、重新梳理数据结构，之前的代码也要一行一行的整理和对应，耗费的人力实在太大，甚至超过了重构能带来的好处。代码越来越混乱。慢慢地，已经没法说清楚一个类是什么含义、一个方法是什么含义，大量的业务代码像过程一样揉杂在一起，即使写了注释，也难以理解。团队协作变得困难。慢慢地，某一个开发写的代码，变得只有他自己能维护，其他人看不懂，没法参与进去。缺少必要的数据。想要分析某些旧功能的数据时，发现当初设计这个功能的人只存了该功能所需要的最基本的数据，没有流水记录、也没有留出扩展的空间，甚至某些必要的状态数据也由于产品不关注而没有去记录。 DDD对我们，与其说是一个战术，更多的是一个战略和方法论。我的第一个DDD系统第一次尝试，没敢修改已经成熟的系统，做了一个当时比较需要的中间件：实时计算平台。这一系统主要为了解决的问题是，每次有新的实时计算需求都需要单独去开发一套代码、写一个新的TOPO。考虑用一套可配置化的平台，来解决所有的简单实时计算需求。按照DDD的思想，我设计这一系统时，划分了两个限界上下文：计算上下文和存储上下文。计算上下文计算上下文主要负责微批量实时计算。上游对接某一种消息队列，订阅消息，根据配置在内存中做计算，积攒几秒中之后，将计算结果丢给存储上下文。存储上下文存储上下文负责更新数据库。当前主要使用的是关系型数据库PolarDb和NOSQL数据库TableStore。将内存中的计算结果更新到数据库中，若数据库中已有该行数据，则根据计算方法选择求和或是求最大值等等。初次尝试的感想整套平台的代码，包括最开始的2、3次功能迭代，都是我自己一个人开发的。当时由于自己的熟悉程度比较高，觉得效果还不错。后边把项目交给组员去维护时，得到了一些来自组员的反馈。其中最主要的一点就是：大家觉得我是为了做DDD而做DDD。因为这一系统本身的代码量就不大，拆分成两个上下文之后，上下文之间交互的防腐层就写了大量的代码。而且为了在数据层也解耦，导致数据库设计时多分了几张表，表之间的关联关系比较难理解。后续

大數據

HIVE优化浅谈

click / 2019-09-03

作者：邓力，entobit技术总监，八年大数据从业经历，由一代HADOOP入坑，深耕云计算应用领域，由从事亚马逊EMR和阿里云EMR应用开发逐步转入大数据架构领域，对大数据生态及框架应用有深刻理解。引言随着商务/运营同学执行的HQL越来越多，整体HIVE执行效率变低，本文从HIVE切入，分析HQL面临的问题和待优化部分，结合其他大数据框架来解决实际问题。以下内容没有针对业务代码提供优化建议. 常见的HQLselect型设置hive.fetch.task.conversion=none会以集群模式运行，无论是否有limit。在数据量小时建议使用hive.fetch.task.conversion=more,此时select配合limit以单机执行获取样本数据，执行更快常见的select配合order by/group by等基本操作不在此赘述注：select查询可以通过split.maxsize和split.minsize控制并发MAPPER数量 insert型分为两种 1.insert into2.insert overwrite 配合分区可以达到重写分区或者在分区追加数据的目的。还可以配合动态分区模式插入对应分区开启动态分区: // 开启动态分区模式 set hive.exec.dynamic.partition=true; // 开启动态分区非严格模式（多分区时首分区支持动态分区必要条件，首分区为静态分区可以不设置）

大數據

[译] 图解 Map、Reduce 和 Filter 数组方法

click / 2019-09-03

原文地址：An Illustrated (and Musical) Guide to Map, Reduce, and Filter Array Methods原文作者：Una Kravets译文出自：掘金翻译计划本文永久链接：github.com/xitu/gold-m…译者：熊贤仁校对者：Endone、Reaper622 文章来源：掘金翻译计划 map、reduce 和 filter 是三个非常实用的 JavaScript 数组方法，赋予了开发者四两拨千斤的能力。我们直接进入正题，看看如何使用（并记住）这些超级好用的方法！

大數據

EMR 升级Hadoop 2.8.5

click / 2019-09-03

信息摘要： EMR 提供Hadoop 2.8.5，方便开发者使用新版Hadoop功能。适用客户：所有客户版本/规格功能： EMR-3.18.0及以后版本，Hadoop升级为2.8.5，开发者可以方便地使用新版Hadoop的功能。产品文档： https://help.aliyun.com/document_detail/28073.html