大數據

大數據

2019 年 JavaScript 现状调查报告火热出炉!

英文:StateOfJS 译文:oschinahttps://www.oschina.net/news/112226/the-state-of-javascript-2019 StateOfJS 方面表示,因 JavaScript 的生态系统发展未能尽如人意的原因,其又发布了 2019 年的 JavaScript 现状调查报告。今年的 JavaScript 状态是该调查的第四版,覆盖了 21,717 位受访者。客户数据可视化专家 Amelia Wattenberger 针对 JavaScript 生态系统进行了全面的概述。 官方表示,今年开始,除了用户使用的工具之外,其还将跟踪用户的 […]

大數據

决策树之随机森林

在 CART 分类回归树的基础之上,我们可以很容易的掌握随机森林算法,它们之间的区别在于,CART 决策树较容易过拟合,而随机森林可以在一定程度上解决该问题。 随机森林的主要思想是:使用随机性产生出一系列简单的决策树,并组合它们的预测结果为最终的结果,可谓三个臭皮匠赛过一个诸葛亮,下面我们就来具体了解一下。 产生随机森林的具体步骤 产生随机森林的步骤大致为三步 准备样本 产生决策树 循环第 1 、2 步,直到产生足够的决策树,一般为上百个 在第 1 步,它是一个可放回抽样,即所产生的样本是允许重复的,这种抽样又被称为 Bootstrap,例如我们有以下 dummy 数据 胸口疼痛

大數據

决策树算法之分类回归树 CART(Classification and Regression Trees)【2】

上一篇文章主要介绍了分类树,下面我们再一起来看一下回归树,我们知道,分类决策树的叶子节点即为分类的结果;同理,回归树的叶子节点便是连续的预测值。那么,同样是回归算法,线性回归和决策树回归有什么区别呢?区别在于,前者拟合的是一条直线,而后者却可以拟合非线性的数据,如下图中的数据就是用线性回归来拟合的: 当数据呈现非线性分布时,例如下面的数据,假设它统计了流行歌手的喜好程度和年龄的关系,该系数值在 10 岁之前很低,接着在 10 到 20 岁时达到最高,但随着年龄的增加,该兴趣度会逐渐下降,如图所示: 上面的数据如果用线性回归来拟合,是这样的: 很明显,这样做会得到较大的 Bias,那么该数据就不应该使用线性回归这种简单的模型来表征,此时就需要用到非线性模型了,而回归树就是其中的一种。下边左图便是使用回归树对该数据进行拟合的结果,而右边是这棵树具体的样子:当 age 小于等于 13 时,结果为 1.228;age 大于 31 时,结果是 0.41;age

大數據

决策树算法之分类回归树 CART(Classification and Regression Trees)【1】

分类回归树 CART 是决策树家族中的基础算法,它非常直觉(intuitive),但看网上的文章,很少能把它讲的通俗易懂(也许是我理解能力不够),幸运的是,我在 Youtube 上看到了这个视频,可以让你在没有任何机器学习基础的情况下掌握 CART 的原理,下面我尝试着把它写出来,以加深印象. 决策树的结构 下图是一个简单的决策树示例: 假设上面这个决策树是一个用来判断病人是否患有心脏病的系统,当病人前来就医时,系统首先会问他:血液循环是否正常?此时如果病人回答是,系统会走左边的分支,并继续问:血管是否不堵塞?如果此时病人回答是,系统便会判断该病人没有患心脏病,反之则会判断他患有心脏病。同理,如果病人的第一个问题的回答是否,则决策树会走到右边的分支,接下来会继续后面的提问,直到来到树的根部,以输出结果。 可见,决策树是一个二叉树结构的模型,它可以被用来解决分类问题或回归问题,该树的非叶子节点本质上是一些条件表达式,用来决定树根到叶子的路径,而叶子节点便是该模型的预测结果。 本文主要介绍如何构建一棵分类树: 如何构建一棵分类树 在构造这棵“判断心脏病的决策树”之前,我们有一堆病人的诊断数据,如下 胸口疼痛 血液循环正常 血管堵塞 患有心脏病 否 否

大數據

【阿里云IoT+YF3300】9.快速开发modbus设备驱动

   Modbus是一种串行通信协议,是莫迪康公司为PLC(编程逻辑控制器)通信而设计的协议。Modbus目前已经成为工业领域通信协议的业界标准,大部分的仪器仪表都支持该通信协议。很早以前就开发过基于Modbus协议的各种驱动,在2007年的时候还曾写了一篇《我的Modbus Slave/Client开发历程》的博客文章 。   YFIOs就是YFSoft I/O Server的简称,是一款物联网时代的轻量级嵌入式组态系统。支持策略和驱动二次开发,不过常规策略和驱动开发有些繁琐,由于大部分物联网设备都支持modbus协议,所以提供给一款快速开发的modbus驱动的工具,还是非常必要的。  本篇文章将介绍一款基于modbus协议的温湿度模块的快速驱动开发过程。   打开“YFIOsIDE”程序,启动后,单击“文件”主菜单下面的“modbus驱动开发向导”。   查温湿度传感器的说明书我们可以知道,温度和湿度在modbus寄存器的偏移地址是0和1(40000区),我们把标识符分别设置为“T”和“H”。看说明书我们可知,直接读取的值还不是温度和湿度,还需要除以10,所以我们配置一下运算表达式为“$Value/10.0”,其中$Value就是我们直接从指定地址区读到的原生值。   驱动名称和制造商等信息,可以根据实际进行填写就行,我们这里采用默认值。设备地址和串口参数,可以设置为该设备的默认参数。  参数配置好后,我们单击“编译”按钮进行驱动文件编译,为了让YFIOs管理程序方便加载我们新编译的驱动,我们选择目录YFIOsManager程序下的“Driver”目录。   编译成功后,我们发现在指定的目录出现一个dll和pe文件,文件名就是我们配置的“驱动名称”。   我们打开YFIOsManager程序,单击“驱动列表”项,可以看到我们刚刚编译的驱动。  好,我们测试一下刚刚编译好的驱动,看看是否能正常工作。我们添加一个用户驱动,选择我们刚刚创建好的驱动。   YF3300的RS485为COM2。配置好后,数据配置里面就会自动出来对应的变量来,如下图所示:   我们让YF3300接一个温湿度模块,把相关的组态配置部署到YF3300中去。   YF3300采购链接(最后一个颜色分类是YF3300网关):   https://item.taobao.com/item.htm?spm=a1z10.1-c.w4004-10400358307.7.82854d48viZm7V&id=42910631014    部署运行后,我们在“数据监控”中看到温湿度已经可以正常读取了。   从以上可以看成,只要知道对应的属性地址,我们可以非常迅速的开发出一款比较实用的设备驱动。另外驱动的配置可以导出为xml文件,后续可以根据需要进行修改和扩展。如果要实现的驱动比较复杂,还可以导出为Visual Studio

大數據

2019数据科学家最需要的技能盘点,Python大火,Pytorch职位需求翻番

大数据文摘出品 来源:medium 编译:赵吉克 2018年medium上一篇博文分析了数据科学家最需要的技能,那篇文章引起了很大的反响,在medium上有超过11000次点赞,并被翻译成几种语言,成为了2018年11月KD Nuggets最受欢迎的文章。 2018年文章链接: https://towardsdatascience.com/the-most-in-demand-skills-for-data-scientists-4a4a8db896db 一年多过去了,2019的作者也发布了最新的分析,让我们看看有什么变化。 2018年的文章考察了对统计和沟通交流等一般技能的需求以及对Python和R等技术的需求。软件技术的变化一定快于一般技能需求上的变化,所以在本更新中只包括技术部分。 我们搜索了SimplyHired、Indeed、Monster和LinkedIn以查看在美工作的列表中哪些关键词和“数据科学家”共同出现。这一次,我们决定用Request和Beautiful Soup包来获取工作列表,而不是手工搜索。 事实证明,LinkedIn的爬取要困难得多,因为查看工作的列表的准确数字需要身份验证。我决定使用Selenium进行无头浏览。2019年9月,美国最高法院对LinkedIn做出了判决,允许其数据被爬取。尽管如此,在几次抓取尝试后,还是无法访问账户,这个问题可能源于刷新率限制。 不管怎么说,微软拥有LinkedIn,Randstad Holding拥有Monster, Recruit Holdings拥有Indeed和SimplyHired。 无论如何,LinkedIn的数据可能无法提供从去年到今年的苹果公司职位对比。今年夏天,LinkedIn的一些技术职位搜索词每周都会出现大幅波动。这可能是由于他们试图通过使用自然语言处理来衡量搜索目的,因而对他们的搜索结果算法进行了实验。相比之下,另外三个搜索网站在过去两年中出现的“数据科学家”相关职位列表数量则相对接近。 基于这些原因,LinkedIn被排除在本文2019年和2018年的分析之外。 对于每个工作搜索网站,我们计算了该网站中出现的每个关键词在所有数据科学家工作列表中所占的百分比。然后,在三个站点上为每个关键字取这些百分比的平均值。 同时手动调查了新的搜索词以及那些看起来很有前途的词。在2019年,没有新的搜索词达到占全体5%的占有水平,这是下述结果中使用的截断指标。

大數據

122项设计 阿里云、擎天科技共建南京智慧社区

近日,中国招标投标公共服务平台信息显示,南京擎天科技有限公司、阿里云中标了南京市建邺区江心洲街道“洲岛和园”智慧社区项目。 据了解,洲岛和园为政府主导的江心洲拆迁安置房二期,整个社区包括5个小区,可容纳5000余户居民。智慧化改造完成后,这里将形成安全、高效、舒适、便捷的居住环境,营造出居民们最向往的生活。阿里云与南京擎天科技有限公司通过各自优势技术,联手完成江心洲街道122项社区智慧化设计,打造“中新智慧城市示范区”的样板。 江心洲街道洲岛和园将探索大数据应用,以地理数据为基础,进行100%的数字孪生三维建模。社区管理人员可以直观看到立体画面中建筑信息和物联网设备检测情况,而社区居民也可以通过扫一扫二维码门牌进行相关信息查看。 通过一系列智能应用和定制化软件系统,社区还将提供众多便民服务: 在社区的共享空间“五微驿站”,居民可提出自己的愿望、进行捐赠登记及预约借用物品;在慈善超市,残疾人可以售卖自己的手工制品,身体不便的人可以线上预约送货上门、垃圾代收等服务;残疾人之家、养老服务站和幼儿园的老幼等弱势群体,可以通过手机远程联系家人,还可在家中配备智能家居系统;在社区文化活动室,居民动动手指就可以线上预约各种文体活动,甚至VR互动;在卫生服务站,居民可以健康自检,并通过手机接收自己的体检数据;居民们在社区中的文明行为、志愿活动都将形成文明积分,可以用于以上各类消费。 此外,通过机器视觉等技术,社区进一步强化了环境安全。社区安全系统可以识别潜在风险人员,拒绝进入或通知保安关注。针对孤寡老人等,“智慧社区”还能通过物联网设施进行长期无进出预警。此外,高空抛物、消防设备损坏等等,“智慧社区”都能及时预警。 针对现在很多社区中存在的路面乱停车、争抢车位等常见问题,社区路灯杆上配备了智能视频系统,可以及时发现乱停车现象,并自动将情况通报至车主及相应社区管理人员。智慧路灯还搭载有5G基站、公共WIFI、社区信息发布屏、公共广播、紧急呼叫、环境监测等设备。当路灯监测到噪音扰民时,信息发布屏和广播就会触发相关降低音量的提醒;当污染物超标时,位于邻里中心顶端的雾炮装置、社区周边围墙上布设的水雾帘将自动启动,为整个社区洒水降尘,显著改善空气质量。 目前,该智慧社区正在如火如荼建设中,预计明年上半年全部完工。

大數據

超密集网络UDN的核心特点 | 带你读《5G UDN(超密集网络)技术详解》之一

5G UDN(超密集网络)技术详解杨立 黄河 袁弋非 卢照华 郝鹏 著 前言 超密集网络(UDN,Ultra Dense Networks)的核心特点,可用 4 个词来高度 抽象地概括,即基站小型化、小区密集化、节点多元化和高度协作化。超密集网络 是未来蜂窝移动系统必然的发展趋势,它不仅关系到 5G 网络的系统容量,还密切 关系到 5G 网络的各层面综合性能和各种中高级移动应用业务的用户体验。UDN

大數據

可闭环、可沉淀、可持续的企业级数据赋能体系

以下内容根据演讲视频以及PPT整理而成。 本次分享主要围绕以下两个方面:一、构建可闭环、可沉淀、可持续的企业级数据赋能体系的背景二、开发者数据银行 一、构建可闭环、可沉淀、可持续的企业级数据赋能体系的背景 1.数据“四化” 如何让属于企业自己的不同触点的数据快速形成一个闭环,沉淀串联这些零散的数据能够快速应用去赋能业务?这涉及到四个关键词,一是业务数据化,企业所有触点是否为真,是否被打通。第二是数据资产化,能否可以像管理资产一样很好地管理数据。第三是资产应用化,企业的资产能否有效应用?如何借助数据资产赋能业务,最后是应用价值化。所有的应用最终一定是为增长、为获客而服务,必须要有价值。在这背后最重要的是场景必须可闭环,数据必须可沉淀,最终数据中台、数据能源才是可持续的。 2.构建可闭环、可沉淀的数据赋能体系的意义与价值 下图展示了一套可闭环、可沉淀、可持续的企业级数据赋能体系是如何构建的。下图友盟+会推出一个面向企业的数据银行。数据银行和业务是一种什么样的协作关系?开发者数据银行会基于云基础设施,如MaxComput等,不断帮助企业采集各种场景、触点的数据,做相应的数据治理、提纯、模型加工、形成各种应用服务,基于UMID打通能力,多账号归一,多端归一,支持不同的终端数据打通(移动客户端、服务端、客户端不同的平台), 帮助开发者完成全场景、全触点的数据资产沉淀及应用的管理。 关于跨端用户运营会涉及两个问题,首先,公司每一次在媒体外投的数据是否已经回流?回流后是否能够对数据进行第二次应用?第二,通过你的营销是否将用户沉淀至用户池,跨端的用户是否有效运营起来了?其实除了营销,企业会有很多用户触点,如头条号、微博、抖音号等,用户资产的数据必须打通后才能发挥真正的价值,如果你在做你的搜索推荐,那么除了先进的模型算法之外,你的公司是否有数据底座,是否在收集回流归一各个触点的用户行为数据,并喂养给你的搜索引擎让它越来越智能;比如:此前投过广告的数据下次进行搜索时,你就应该推荐客户之前看过相关广告的内容。 二、开发者数据银行 每一家公司都需要构建属于自己的数据银行。比如在阿里巴巴的生态体系内,阿里在双11当天有上百万商家卖货,很多品牌商家都在阿里构建数据银行。同样,友盟+在数据智能服务领域已深耕九年,凭借服务百万家互联网企业的经验,面向开发者推出开发者数据银行,与MaxCompute形成一套核心解决方案服务用户。数据银行需要解决几个问题:第一,数据银行解决数据资产的管理和应用的问题,可以用采、建、管、用四个字来表达。首先是业务数据化和数据资产化,如何采集数据,并快速将端的数据形成数据资产。其次是资产应用,形成多种消息的推送,营销的拉新,包括App的推送,各种运营推荐,都是在数据银行上能够提供的服务。 数据银行包括三类产品,从三个角度帮助用户解决问题。如下图所示,第一个产品是智能数据采集(U-SDC),第二个用户数据平台(U-CDP),帮助企业沉淀数据资产,高效服务业务部门、运营团队、市场等团队。第三个是数据开放平台(U-DOP),将采集到的数据通过友盟云之上与业务数据进行融合、分析,更全面的洞察用户,更场景化的应用数据。 1、智能数据采集(U-SDC) 无论AI或者智能引擎产品,本质是数据生产和采集。采集是数据质量的根本,数据采集的效率质量和效益都至关重要。数据采集工作需要关注是否全面掌控了公司的数据埋点?是否清楚某个场景应如何埋点?埋点后会产生什么样的数据?所埋的点是否正确有效?埋点是个长期运行的动作,需要不断验证埋点是否健康,最后一点回归到根本性的问题,如果埋点是错的,那么叠加的AI智能等所有内容也都会是错的。 管理埋点:埋点在大数据领域属于脏活累活,很多人不愿意做。常见的情况往往到了产品上线,需要使用数据的时候开始催促埋点。所以一家公司的埋点是否有人搞清楚?是否清楚这么多的埋点中哪些埋点正确,哪些异常?很多企业是不清楚的,这是一个残酷的现实。这是一个非常实际的问题,如果公司长期不清楚自己的埋点问题,便是在错误的数据上长期持续经营业务,越走越错。 埋点智能方案推荐:某家视频行业领域的公司的有两个团队,分别负责直播不同频道的业务,两个团队都会定义一些公司的埋点规范。但是数据规范性在两个团队不一致,如视频播放开始,A团队定义埋点全局参数叫Play,代表播放开始事件,B团队将其定义为Start。两个团队并不知道两个数据定义都不一致。案例中的问题看似不严重,但后续会发现公司数据不可持续,此时不论利用什么工具都不能解决问题。对于公司数据的管理一定要基于对业务场景的深刻理解,对业务场景进行标准、规范的定义。友盟+通过更多标准化的场景,包括为不同行业提供标准的埋点方案推荐来解决用户问题。友盟+聚合了非常多比较优秀的企业的实践,告诉用户如何埋点,埋点后能够解决哪些场景问题,同时会提供各种各样埋点智能推荐,针对技术团队沉淀公司基于场景的埋点解决方案的知识图谱。 智能埋点与智能验证:开发做埋点是通过SDK代码,上报数据,后台打印日志。但并不意味数据上报则完成了埋点。如开发者直接将一个启动的日志埋在登录页面,突然有一天发现登陆数高于页面访问数近一倍。原因是该点同时被埋到了退出页面的加载进程中。即开发者错将一个点埋到两个位置。友盟+希望能够提供各种智能验证工具,比如当埋点上报时,会为开发者提供一个服务,如果埋点命名为“启动”,会有一系列的智能检测该埋点上报时所在的页面截图是否为正确的业务场景位置。智能埋点及其验证测试是非常重要的,友盟+会通过视觉切图计算验证埋点的正确性,为技术团队大幅减轻工作成本和压力。 埋点健康度一键体检:当埋点全部完成,公司要做埋点健康度的验证,检查埋点是否符合规范,是否有异常点。埋点健康度是公司数据采集准确性的底座保证。数据团队和做客户端的开发团队经常会因为埋点问题产生矛盾。数据团队觉得数据有问题时一般归责为埋点问题,开发团队也会认为是数据团队配合问题。埋点的KPI就是先让埋点可视化,看到是由谁埋了哪个点,运行情况是否出现问题,是否按照规范埋点。如果埋点的规范度没有达到一定程度,团队是否应该承担责任?因此需要从管理角度、从组织层面以及产品能力层面解决公司埋点和采集的核心问题。 数据银行采集平台(U-SDC)会重点解决以上几个核心问题,使用户埋点可见、可控、可管,为用户埋点推荐合适的优秀方案,使用户埋点能够智能调试和验证,大幅降低埋点采集的成本,从而最终达成数据质量的根本性提升,使最终保存的数据资产有价值有质量。 2.

大數據

合作阿里两周年 澳门特区五大领域智能化成果初现

19日,记者获得消息称,澳门智能城市项目第一阶段已经成功验收,第二阶段在稳步推进中。自2017年8月和阿里巴巴达成智能城市战略合作以来,澳门特别行政区在交通、医疗、旅游、政务等领域广泛应用云计算以及数字金融技术。 如今,内地人只带一部手机就能游览澳门,而澳门人打开手机里的APP也能快速查询珠海横琴的各类服务信息。数字技术不仅为澳门人带来了智能生活,也促进了粤港澳大湾区互联互通。 澳门数字生活愈加便捷 云计算和人工智能正在助力澳门加速数字化升级。据了解,澳门特别行政区交通事务局官方APP,借助阿里云技术实现了交通态势分析及预测、巴士服务需求分析、智慧交通灯配时优化、交通事件智慧感知等功能。当地市民可以通过手机应用程序,可以了解当前和预测道路的拥堵情况。 澳门卫生局此前宣布和阿里云完成澳门医疗大数据平台等合作。目前,医疗数据已按标准转化至云端;澳门市民可以通过系统了解就诊人数、预约人数等,下一步将会推出应用程序,帮助市民查阅个人在卫生局的病历资料。 特区政府旅游局以及政务服务领域数字技术的升级也于今年初完成。智慧旅游系统可预测各区域景点人流密度和拥挤状况,方便旅客合理安排行程。当地市民可通过统一的个人电子帐户,在手机及网络更便捷地申请“家务工作外地雇员申请服务”、“饮食及饮料场所牌照服务”等政务服务。 此外,澳门的数字金融和移动支付也愈发便捷。支付宝从2015年9月进入澳门市场以来,目前接入商户已有上万家,覆盖购物、餐饮、酒店、旅游、交通等吃喝玩乐游购全场景,方便内地游客一部手机游澳门。 技术助力大湾区互联互通 今年9月18日起,澳门人也可以用支付宝付澳门币了。过去,澳门消费者想用支付宝,往往需要有实名认证的内地手机号和银行账户。现在,澳门本地居民只需通过手机号就能注册开通支付宝,线上逛淘宝用支付宝支付,用澳门币结算,还可免手续费。 最新数据显示:在2019天猫双11全球狂欢节里,澳门居民使用支付宝的交易总笔数约为平日的21倍。与此同时,针对澳门用户的支付宝线下扫码服务,也已在餐饮、超市等3000多间店铺率先落地。 随着技术的发展,澳门人来往广东也更加方便。今年4月底,支付宝无感支付业务在港珠澳大桥上线。这是港珠澳大桥运行以来,首次引进无感支付,车辆经过收费站时通过识别车牌号扣除费用,自动抬杆。有效缓解粤港澳三地之间往来车辆的通行压力,缩短旅客过关时间。 本月初,澳门商人何先生成为第一批使用琴澳通APP的用户。为了推动粤港澳大湾区融合发展,大横琴科技公司联合阿里云发布了全国首个跨境服务APP“琴澳通”。该APP可以连接横琴和澳门特区政府、企业,从而提供出入境、居住、出行等多项服务,帮助澳门居民在横琴新区更便利地生活。 随着云计算、人工智能、区块链等数字技术的发展,澳门将形成集智能交通、智能旅游、智能环保等一体的智能城市解决方案,数字经济也将加速推进大湾区的互联互通。

Scroll to Top