Apache Flink 零基础入门(八): SQL 编程实践
作者:伍翀(云邪) 本文是 Apache Flink 零基础入门系列文章第八篇,将通过五个实例讲解 Flink SQL 的编程实践。 注: 本教程实践基于 Ververica 开源的 sql-training 项目。基于 Flink 1.7.2 。 通过本课你能学到什么? 本文将通过五个实例来贯穿 Flink […]
作者:伍翀(云邪) 本文是 Apache Flink 零基础入门系列文章第八篇,将通过五个实例讲解 Flink SQL 的编程实践。 注: 本教程实践基于 Ververica 开源的 sql-training 项目。基于 Flink 1.7.2 。 通过本课你能学到什么? 本文将通过五个实例来贯穿 Flink […]
如何成为一个合格的Python工程师?你在市场上究竟有多强的竞争力?你现在学的知识够了吗? 或许在你投递你的简历之前,也在犹豫自己是不是真的合乎公司的要求。现在抛下你的杂念吧,无论你觉得不够自信,还是信心满满,这篇文章都能帮你了解一个Python工程师所需要的基础知识,快来次自检吧! Python入门: 基本数据类型 条件控制 循环语句 迭代器和生成器 函数 模块 输入和输出 File方法 OS文件/目录方法 错误和异常 面向对象 正则表达式 干货集锦: Python进阶:设计模式之迭代器模式 Python拼接字符串的七种方式 利用aiohttp制作异步爬虫 深入理解Python字符串的用法
8月17日,以“数据驱动,智创未来”为主题的2019 CCF大数据与计算智能大赛(CCF Computing Intelligence Contest,简称CCF BDCI)全球启动仪式,在北京大学正式启幕。 CCF BDCI大赛是由中国计算机学会大数据专家委员会于2013年创办的国际化智能算法、创新应用和大数据系统大型挑战赛事。自创办以来,大赛已成功举办六届,连续获得教育部、工信部、国家基金委等多个国家部委指导,受到北京、青岛、常熟、沈阳、郑州等政府支持,在梅宏院士、李国杰院士等百余位国内外顶尖专家的参与下,共吸引了来自海内外25个国家,1500余所高校及科研院所,1800余所企事业单位的60000余人参加。 据统计,六届大赛中总计产生超过10万次作品提交,85%的优秀决赛作品被企业参考应用至实际业务;超过80%的历届获奖团队入职名企或获得名校深造机会;超过30所一流高校将CCF BDCI作为校赛,利用优质赛题辅助教学实践。 如何有效利用数据,如何使数据在学科发展和人才培养方面发挥更大的作用和价值,已成为大数据时代的重要问题之一。战略指向,人才先行,作为本届赛事的官方赛题合作伙伴,阿里云贡献了大数据相关赛题,并将致力培养高质量数据人才,推动大数据产学研生态发展。在全球启动仪式的专家访谈环节,阿里巴巴集团副总裁、阿里云数据库事业部总裁、达摩院数据库首席科学家李飞飞与来自学术界、企业界的大赛特邀评审专家代表就“数据与智能双引擎驱动的人才观与生态”话题进行了问答探讨。 阿里巴巴集团副总裁、阿里云数据库事业部总裁、达摩院数据库首席科学家李飞飞 李飞飞表示:“万物互联时代,数据驾驭和治理能力已成为企业的核心竞争力。作为中国最大的云计算服务提供商,阿里云始终致力于推动Big Data(大数据)向Fast Data(快数据)演进,培养强大的大数据分析开发者群体。CCF BDCI大赛是国内规模最大、最专业的大数据方案、系统、算法大型挑战赛事。在大赛的促进下,将有越来越多大数据领域的创新型人才获得新的机遇。”李飞飞还强调: “在数据驱动智能的落地过程中,一定要关注系统智能、系统互联的落地,大数据、人工智能和系统将形成三角互动,最终推动科研产业化”。 “CCF 大数据与计算智能大赛”通过“众智、众包、众创”的方式汇聚产学研用多方资源,解决重点应用行业实际需求问题,不仅促进了产业技术升级和行业应用创新,引导传统产业重构并催生新兴业态,也为社会发现和培养了大量高质量人才。今年大赛将在原有的赛制与规则下,增添新的特色: ###
作者|王浩(青鼠)出品|阿里巴巴新零售淘系技术部 导读:淘系用户增长算法团队主要定位于业务应用算法,基于对淘系整体用户全方位的理解为各个业务提供高效的用户洞察手段,并通过与运营、产品等团队的配合完成各个业务的用户增长目标。 用户增长平台的目标是希望能构建面向全域运营人员的全维度用户智能洞察分析体系,帮助运营高效触达目标人群。现有运营基于业务经验,将业务需求转化为一系列标签,根据标签筛选出符合条件的目标人群,该方法涉及到的数据链路较长,无法及时支持业务投放。在保证潜在人群与目标人群相似性的前提下,帮助各个垂直业务的运营同学自动化的实现保量提效的投放目标。本文主要介绍在此背景下的相似人群挖掘算法中通用特征体系若干特征处理方法。 1、基本概念和业务难点 种子人群:运营人员在特定业务场景下收集到的,对商品、服务具有相同需求和兴趣的人群称之为种子人群(比如某个场景下的已购买用户、浏览用户等);种子人群通常数量不多,一般在十万以下。 扩展人群/相似人群:与种子人群具有相同特征的人群称之为扩展人群,扩展人群的数量通常为种子人群的数倍。 目标:平衡圈人效率和投放效果,面向不同垂直业务的运营人员达到以人找人的潜客挖掘方式。 难点和问题:由于种子人群来源由运营提供,且不同业务人员的投放目标不同,运营通过各种方式获取到的种子人群成分可能非常复杂,种子人群的特征不明显,如何同时面向各个业务洞察不同种子人群的有效特征成为难点,本文主要介绍基于全域运营的通用特征处理方法。 使用方法:一般进行投放时,先通过种子人群找到扩展人群,其后将扩展人群作为运营触达的目标用户,当有多个种子人群时,可以先找到各个种子人群的扩展人群,然后取各个种子人群的扩展人群的交集作为最终投放的目标用户。 2、特征处理及算法实现 系统的整体框架如下图所示: 2.1 数据准备 提取用户基础属性数据,如性别、年龄、学历、职业、地域、能力标签等; 抽取平台已积累用户标签(Audience label); 提取用户的评论信息等文本内容,进行观点挖掘和倾向性分析; 提取用户之间的关系,比如亲情号相关,分享、转发关系等; 2.2 特征构造
由信息技术新工科产学研联盟主办,慧科集团承办,阿里云协办的2019联盟大数据第一期专业负责人高端研修班(以下简称“研修班”)在杭州阿里巴巴总部园区成功举办。本次研修班培训内容主要围绕数据科学与大数据专业建设方案开展,旨在融合行业发展宏观趋势、专业建设经验与方法论,整合产业优势资源,将专业建设与产业应用发展相结合,为高校建设数据科学与大数据专业提供更广阔的思路和发展空间,进一步提升高校大数据专业建设能力,明确大数据人才培养标准,切实帮助已获批数据科学与大数据专业的高校在专业建设中获得更多有益的资源和指导。 教育部计算机类教指委副主任、联盟副理事长、联盟数据科学与大数据专业工作委员会主任、北京大学陈钟教授,联盟大数据教育工委主任、国家“千人计划”特聘专家、中国人民大学信息学院院长文继荣教授,对外经济贸易大学曹淑艳教授,阿里云大学业务总负责人王晓斐,慧科集团合伙人、联盟大数据师资培训基地主任欧岩亮,慧科集团合伙人、高级副总裁管刚等出席本次活动。 本次研修班为期三天,主要面向全国重点高校大数据专业建设负责人,培训内容设置以小组研讨模式为主,配合专家报告、企业参观环节,形成各高校负责人交流学习平台,进一步提升专业负责人专业建设能力。通过权威专家面授课程,着眼分享专业培养定位与特色方向设计、培养方案总体规划与课程模块设计、专业能力培养和实践体系规划、产学合作和支撑条件建设等方面的内容,同时针对“专业方向与模块设计”、“课程体系建设”、“大数据专业能力培养和实践体系设计”等专题进行小组深入讨论,建立数据科学与大数据技术专业负责人交流研究互动网络,助力推进数据科学与大数据技术培养方案的不断发展和成熟。 本次研讨班不仅邀请了高校、企业专家报告,同时打破常规,将大家分组进行讨论,整个培训过程中,安排高校和企业专家指导,每个小组针对特色的专业建设案例展开激烈的讨论,并形成了一个升级版的专业建设方案,提升了老师们积极的参与度,加深了老师们彼此之间的交流。通过这几天的培训交流,老师们相互讨论,专业建设的思路更加明确。 联盟副理事长、教育部计算机类教指委副主任、联盟数据科学与大数据专业工作委员会主任、北京大学陈钟教授 陈钟教授指出,联盟致力于通过探索建立面向产业需求的产学研科技创新体系,打造产学研深度融合的生态环境,创建面向产业需求的人才培养范式。其中,师资是人才培养的重要环节,也是联盟的着力发展方向之一。本次携手阿里云、慧科共同举办研修班不仅是大数据专业系列师资培训的首次实践落地,也为全国各高校大数据专业骨干教师进行精准、深入交流搭建了良好的沟通平台。 阿里云大学业务总负责人王晓斐对参与本次研修班的全体老师表示热烈欢迎,表示本次研修班能够在阿里巴巴园区举办也是联盟对阿里的认可。希望通过开展研修班,能够把阿里云、慧科的技术、理念分享给所有参与的学员,把大数据,以及新工科等其他相关专业的成果、课程、实战类项目带入到高校实战教学中,培养更多复合型人才,激活产业发展的“中枢神经”。 慧科集团合伙人、高级副总裁管刚表示,能够承办本次研修班是联盟对慧科的信任,也是高度认可。作为连接高校和企业的桥梁,慧科自成立以来始终致力于通过产学融合2.0模式,推动教育模式创新和产教深度融合。同时,作为联盟理事单位,慧科亦结合自身优势和资源,为大数据专业师资培训计划提供好服务,创新师资赋能的方式,为培养大数据人才助力。