大數據

重庆大学大数据与软件学院阿里云大数据实训总结报告

重庆大学大数据与软件学院阿里云大数据实训总结报告
阿里云大学&慧科集团
1.实训背景
1)符合重庆市8+3计划:“八项行动计划”着眼长远、突出三年,“三大攻坚战”锁定三年、志在必胜;
2)符合国家教育部产教融合大背景;
3)阿里云+慧科+重庆市政府战略合作在人才培养方面落地探索的第一步;
4)重庆大学作为领头羊,在新专业建设上给兄弟学院的示范和引领效应。
2.实训创新和特色
在互联网技术不断普及、云计算技术高速发展的背景下,大数据(云计算)+移动互联网技术成为推动企业走向成功的重要因素,然而熟练掌握这两个技术领域的高端人才极为稀缺,因此移动互联网时代的大数据专业人才在未来相当长的时间内,将深受各行各业青睐。
本实训项目致力于系统的融合大数据学科的前沿技术、阿里云最先进的云上计算实验资源、海量行业实战经验和权威的课程体系,与学校理论知识融合,采用以学生自主学习为核心教学方式,基于“三实”理念设计实训内容,通过短期集中强化训练,帮助学生深入理解所学专业知识的应用场景及应用技巧,同时有力地掌握相关行业的必备技能。
(1)独创的三实教学模式,通过实际场景、实践项目、实战检验,将企业真实操作环境搬入课堂,通过真实实践项目来对知识点进行巩固和加强,将零碎的知识揉合在一起,让学生对知识有一个整体性的认识,最后在有足够技能储备的基础上进行实战检验,通过实战学生不仅对项目中用到技术理解进一步加深,在项目中获得的成长和自我探索的过程也是很宝贵的财富。
image.png
(2)将知识点融进场景中,体现从易到难,循序渐进的方式推进课程的演进,帮助学习者从无意识无能力的学习状态,逐步提升到无意识有能力的无缝学习状态,培养学生发现问题,提出解决方案的假设,并验证可行性的创新思维模式,再通过交互式的教学指导学生的学习方向,通过线上线下相结合的方式将教学目标和思维提升到更高的层次,为教师提供创新路径,完成人才和教师的双重赋能。
image.png












(3)依据慧科研究院独创的fast能力矩阵,融入工程教育认证标准毕业要求12条,基于iCome教学设计法以及prefect翻转课堂教学设计理念,并结合重庆大学的学生特点,实现实训效果最大化。
3.实训群体

重庆大学大数据与软件学院大三学生。

4.实训收益

本次实训充分体现了教育部“产教融合,协同育人”的思想,为学校、企业、政府以及学生带来不同程度的收获。

(1)通过实训,帮助学校推进协同实践育人新机制,推进科研人员和企业之间双向流动,释放创新活力,通过多措并举,加强师资队伍建设,最终达到强化多方联动,深化校地企合作实现资源共享的目的。
(2)通过实训,可加快企业人才储备,将人才培养前置到课堂,让学生在校期间就能感受真实企业生产环境中,毕业入职后,可快速上手,缩短学生和企业间的磨合期,减少企业人力资源成本,达到双赢的局面。
(3)通过实训,深化政府、企业、和科研院所合作,发挥人才赋能基地的桥梁和纽带作用,加强政产学研用的深度融合,助力政府战略性新兴产业引智引资。
(4)通过实训,增强学生在大数据方向上的动手及分析能力,同时结合传统软件工程专业的知识体系,使学生在掌握传统信息技术的同时,又掌握大数据等相关技术针对不同场景的应用方法。具体包括但不限于:
λ 掌握针对不同场景任务的分析方法与开发逻辑;
λ 掌握不同场景下,大数据技术的应用方法及技巧;
λ 熟悉掌握大数据开发与分析工具的使用方法,并有效地完成相应实训任务;
λ 系统的锻炼学生针对不同项目的团队协作能力、沟通能力、逻辑思维、组织能力及实际动手能力等;
λ 能够根据企业的业务需求,制定出基于阿里云的数据类产品设计方案及解决方案; 
λ 能够开通并使用数据类的产品,包括云数据库 RDS、QuickBI、云服务器ECS、大数据计算服务 MaxCompute、大数据开发套件 DataIDE 等。
image.png
能力模型图
5.实训内容
实训内容设计采用全新的人才培养模式,致力于培养云计算大数据技术相关应用领域的“高层次、实用型、国际化”的跨界复合型人才。以互联网大产业背景为基础,采用校企联合的模式,部分应用阿里云全新实验室平台,依托雄厚师资,产学研相结合,力求打造适应新形势,具有最前沿思维和技能的云与大数据人才。
实训内容













课程名称
项目概述
授课时长
使用Quick BI 制作企业数据分析报表
内容
本课程可以帮助学员掌握图形化报表设计、开发的方法,同时还将掌握搭建企业级报表门户。
6学时
目标
本例中使用阿里云的Quick BI,需事先开通阿里云官网账号,使用该账号登陆管理控制台后开通Quick BI ;
然后,数据上传。将这些文件上传到Quick BI中,作为后续报表设计用的数据集,使用Quick BI的数据集编辑功能,对某些数据集的属性进行调整;
通过Quick BI的丰富的图表功能设计可视化报表,将数据通过合理的方式展现;
创建一个报表门户,将这些报表组织起来,形成一个企业级的统一报表系统。
基于阿里云数加构建企业级数据分析平台
内容
本课程可以帮助学员掌握如何根据业务需求快速搭建企业级的数据分析平台,对收集的数据进行数据分析,并通过图形化报表将分析结果展现出来。
6学时
目标
学习者应该能够掌握以下知识点:
了解数据分析的步骤和目的;
熟悉数据分析平台搭建的组成部分;
掌握阿里云数加不同产品及其使用场景;
灵活使用数加的不同产品搭建数据分析平台。
基于LBS的热点店铺搜索
内容
该项课程可以帮助学员掌握如何在分布式计算框架下开发一个类似于手机地图查找周边热点(POI)的功能,掌握GeoHash编码原理,以及在地理位置中的应用,并能将其应用在其他基于LBS的定位场景中,例如:共享单车的定位。
6学时
目标
掌握 GeoHash 编码原理;
掌握在分布式计算框架的使用,MaxCompute的MR的编程技巧和提交 MR 任务;
掌握 LBS 应用的开发方法;
MOOC网站日志分析
内容
MOOC网站日志分析课程可以帮助学员掌握如何收集用户访问日志,如何对访问日志进行分析,如何利用大数据计算服务对数据进行处理,如何以图表化的形式展示分析后的数据。
6学时
目标
学习统计网站日志分析的一些常见指标
掌握MaxCompute对数据进行分析处理
掌握使用QuickBI以图表方式展示分析结果
基于机器学习PAI实现精细化营销
内容
精细化营销是企业常用的的一类数据服务,本课程帮助学员了解企业进行精细化营销过程中的数据处理,掌握客户分群的基本应用方法,教会学员如何进行数据整体分析、模型构建以及后期的模型评估和生成评估报告,清楚大数据在企业营销中的作用。
6学时
目标
了解精细化营销的概念和适用场景
了解机器学习如何实现精细化营销
掌握利用PAI实现精细化营销
提升利用机器学习解决问题的能力
使用MaxCompute进行数据质量核查
内容
数据质量问题一直是大数据分析系统关注的重点,如何发现数据质量问题,提升数据质量,一直是各生产及业务系统的追求点。通过此课程,可迅速掌握发现数据质量问题的方法,解决数据质量问题。
6学时
目标
根据具体的场景需要,实现如下的数据监控场景,并最终输出数据质量监控报告。
错误值:某些时间格式存在问题,导致数据库人员将部分时间字段设置成了字符串型。
监控场景:订单表内订单时间格式出错。
重复值:订单系统中部分记录关键信息重复(同样的人在同样的时间下了不同的订单),导致客户投诉。
监控场景:订单表同一客户同一时间下了多次订单。
数据不一致:地市信息名称未标准化,导致在数据分析时,未能把相同地域的数值汇总在一起。
监控场景:客户信息表省份信息异常。
数据完整性:配送的订单在订单表中不存在,导致物流人员空跑,效率下降。
监控场景:配送的订单在订单表中不存在。
缺失值:部分客户性别信息缺失,影响后续使用。
监控场景:客户信息表性别信息缺失。
异常值:单月购买次数异常(当月购买次数大于10次)。
监控场景:同客户单月购买次数异常(当月购买次数大于10次)。
利用MaxCompute部署股票交易策略
内容
技术已经成为金融业的资产并在交易中体现了主导能力。通过本课程用户将学会股票的一些基本概念、常见的交易策略以及现实中的股票交易场景,并且还能学会运用阿里云MaxCompute构建股票交易策略模型。
6学时
目标
了解常见的股票交易策略,掌握一个简单的动量交易策略的开发,并能根据目的选择合适的股票交易策略;
能够使用MaxCompute建立简单的股票交易模型;
熟悉使用阿里云MaxCompute的大数据开发套件DataIDE快速、便捷的分析阿里云公用股票数据集;
了解时间序列数据和一些最为常见的金融分析的知识,例如滑动时间窗口、波动率计算等等;
使用MaxCompute搭建社交好友推荐系统
内容
本课程可以帮助学员了解如何使用阿里云大数据计算服务快速搭建企业级的社交好友推荐系统,掌握使用云端相关大数据服务进行开发和测试的能力。
6学时
目标
了解社交好友推荐系统工作的原理;
熟悉好友推荐系统的开发流程,使用 MaxCompute 插件进行本地数据开发;
掌握阿里云数据分析产品的操作方式,使用 DataIDE 开发数据分析任务;
电影评价数据的采集
内容
电影评价网站记录着观影者对电影的喜好程度和评价信息,通过对相关网站用户评价信息的收集,可以为电影相关的数据的分析和挖掘做支撑,常见的后期应用包括:对电影针对的用户群体做分析、获得大众娱乐/舆情热点、电影推荐(广告推送)等。该场景也可推广至其他行业评价数据的应用。
6学时
目标
了解网络内容爬取的基本流程、解析方法和工具使用;
掌握数据采集和数据存储的过程;
使用时间序列分解模型预测商品销量
内容
本实验在阿里云PAI机器学习平台上,对某零售商的一款产品的销量进行了预测及分析。模型分为两个部分,一个部分是线性回归模型,选取了该产品的促销幅度、促销手段对实际销量进行回归;另一部分为时间序列分解建模,对线性回归模型的误差进行时间序列分解,从而可以在一定程度上解释线性模型的误差并提高整体预测的准确率。
6学时
目标
熟练运用阿里云相关产品来构建和部署价格弹性时间序列分解模型。
学会根据模型的结果进行商品定价与促销决策。掌握商品销量预测的基本概念。
学会根据模型的结果进行商品定价与促销决策。掌握商品销量预测的基本概念。
了解常见的预测方法和价格弹性时间序列分解模型的优缺点和所适用的场景。
使用阿里云的相关产品来构建和部署销量预测的模型。
学会根据模型的结果进行商品定价与促销决策。
6.实训过程和成果
本次实训根据prefect 翻转课堂画布精细化设计每一堂课程的教学过程,在此过程中以学生学习行为全过程作为主要教学路径,弱化教师在过程中的主导作用,以问题引导的方式激发学生自主设计解决方案。整个过程有别于传统知识点教学模式的低效模式,通过激发学员的兴趣、主动学习和探究,以到达学以致用,边学边用的高效模式。
image.png
实训将企业实战场景贯穿实训全过程,授课师资拥有丰富的实践经验和教学经验,结合企业化的思维方式,带领学生以流程化的方式完成一个完整的项目。实训分为两个阶段,第一阶段,学生主要通过对10个综合行业案例进行数据分析及数据挖掘后,可以较好地掌握大数据相关技术及工具的使用方法;第二阶段,35个学生自主分为7个项目团队,以小组工作的模式通过数据处理、构建模型等方式针对真实场景中的实际项目进行实战锻炼,不仅将大数据技术应用于实际问题解决,亦有助于培养其基于“问题-假设-证伪”的科学创新思维。
image.png
如下图所示,小组同学以重庆旅游景点为分析主体,通过爬取美团网、马蜂窝平台上的真实数据,进行数据预处理和机器学习等操作,最终根据好评率、变异系数、往年客流量,将重庆景点划分为优质景点、较好发展潜力景点、具有一定发展潜力景点和没有发展潜力景点,不仅能够通过数据为政府提供政策扶持参考和客流量预测,还可以为游客提供包含景区特点、游览攻略、性价比等在内的完整的景区游览攻略。
image.png
经过为期三周的学习,参加实训的35名学生不仅全部通过阿里云大数据助理工程师认证(简称ACA),也在结题报告会中用一个个精彩、新颖的项目打动了评委,最终选题为“基于链家网的北京二手房大数据分析”的团队以课题设计意义、后续规划及技术难度等优势获得最高分,并获得了参加企业暑期夏令营的机会。
image.png
7.实训总结
本次实训基于软件工程学生已有知识与技能,聚焦大数据专业知识,结合真实行业案例,采用阿里云先进的云上计算实验资源、智慧学习平台高校邦创新性进行混合式教学方式以及线下资深行业导师辅导,从理论到应用,使学生深入地理解所学专业知识的应用场景及应用技巧,同时增强软件工程专业学生在大数据方向上的技术与工具应用能力、问题求解能力、数据思维决策及评估能力、自主创新和团队协作等多方面能力。













































































附:学生作品

1、FCLOUD组
image.png
image.png
该组同学把重庆租房数据作为爬取主体,旨在通过大数据分析,为人们尤其是刚参加工作的、经济能力不高的应届毕业生提供合理的租房信息,解决租房市场发展不完善导致的信息不对称等问题。本项目数据来源于我爱我家、贝壳、安居客等平台,通过对房屋多属性分析,最后对结果进行可视化呈现,客户可以根据租赁方式、地区、楼层、房源价位、租赁热度等特征进行多维度的选择。

2、法国不赢不改名组
image.png
image.png





该组的项目是从相关的外卖平台(如:饿了么,美团外卖等)入手,通过爬虫技术获取不同的外卖平台的众多不同的店铺信息和数据,使用MaxCompute对不同店铺的质量程度进行评估以及综合分析,最后在百度地图和QUICK BI中进行可视化呈现,可为顾客推荐性价比最高的店铺和食品,为商家在哪些地段开店更为合适,哪些食品具有更好的销量等方面提出建设性的意见。

3、冠军法国队
image.png
该组同学通过在boss直聘上爬取9万余条数据,得到对重庆地区的各个公司招聘信息数据,并对数据进行预处理后,在DatalIDE中进行分析整理和挖掘,最终将结数据结果进行可视化展示,帮助大家迅速了解各个职位的薪资、要求以及公司的潜力等等信息,方便相互比较做出合理选择,同时政府也可以通过招聘信息判断当前重庆的人才需求。
4、郭总组
image.png
该组同学借助链家网二手房源数据,爬取到北京市房源数据,依托阿里云平台进行模型设计,根据楼宇等多方面信息对北京地区的二手房源进行分析,最后对分析结果进行可视化展示,模型预测准确率高,正负误差小,为买房者和卖房者提供参考。




5、Qzlhl组
image.png
image.png

该组成员对重庆IT行业职业分布进行爬取和分析,从而帮助个人科学合理地进行择业、降低择业风险,同时为企业和地方政府提供定制化咨询服务。在分析数据的过程中,通过编写爬虫程序来爬取招聘网站的信息,然后选取恰当的数据模型,利用阿里云平台工具对原始数据进行的清理,集成以及变换,为求职者和政府双方提供定制化的咨询服务。

6、选择题全队组
image.png
该组同学选重庆火锅作为数据采集主体,通过爬取大众点评、美团、口碑网的重庆火锅相关数据,对数据进行预处理,然后通过阿里云数加平台对数据进行分析,将重庆火锅店按照不同区域,不同口味,店家特色等特征为用户进行推荐,并进行热度和性价比排序,帮助用户找到心仪的火锅店铺。
7、可爱如猪组
image.png
该组同学以重庆旅游景点为分析主体,通过爬取美团网、马蜂窝平台上的真实数据,进行数据预处理和机器学习等操作,最终根据好评率、变异系数、往年客流量,将重庆景点划分为优质景点、较好发展潜力景点、具有一定发展潜力景点和没有发展潜力景点,不仅能够通过数据为政府提供政策扶持参考和客流量预测,还可以为游客提供包含景区特点、游览攻略、性价比等在内的完整的景区游览攻略。




Leave a Reply

Your email address will not be published. Required fields are marked *