大數據

基於阿里雲平臺的大數據教學案例 —— 中國二手車市場盈利部分數據分析

一、實驗題目
中國二手車市場盈利部分數據分析
二、實驗目的
中國二手車市場潛力很大,面對如此市場行情,我們將用數據分析的方法,分析過去並使用機器學習進行建模和預測,以讓即將接觸或者正處於經營的商家對市場有著新的認識,且可以通過對歷史數據分析後的可視化的圖表展示,幫助買家在購買二手車方面提供幫助。
三、實驗難點
1)原始數據的清洗:
在原始數據集中,只有四個字段。其中一個字段包含四個數據,且用豎線隔開。在二手車的價格中,一個字段裡既有數字又有中文字“萬”,因此要進行數據清洗。我們採用R語言進行數據清洗,將數據切割,保證一個字段裡只有一種數據。同時也對價格字段進行了處理,去掉了中文字,只保留數字。
2)機器學習
由於對機器學習接觸不多,所以在建模的時候不是很順利。而且需要考慮維度的選取以及挑選對於預測結果有幫助的數據字段。

四、實驗過程
1、數據處理部分
清洗前的數據集

image.png

清洗前原始數據集字段
image.png

數據清洗代碼(R語言進行清洗)
image.png

清洗後導入MaxCompute的數據
image.png

清洗後數據集的字段
image.png

清洗後字段本地查看
image.png

2、可視化部分
1)北京連續三年二手車交易趨勢
image.png

2)北京二手車市場的大眾車輛中,型號與二手差價的關係
image.png

3)二手交易市場中,在2017年豪華型車輛交易居多
image.png

4)2017年,二手車數量前十的品牌
image.png

5)同一品牌,二車手行駛公里數與價格的關係
image.png

6)2017年,北京二手車差價較高的品牌
image.png

7)2017年,二手交易市場較活躍的地區
image.png

8)大眾二手車較受歡迎地區
image.png

3、機器學習PAI部分
1)機器學習數據清洗
image.png

2)處理流程圖
image.png

3)混淆矩陣結果
image.png

4)比例矩陣結果
image.png

5)分析結果統計信息
image.png

Leave a Reply

Your email address will not be published. Required fields are marked *