一、實驗題目
中國二手車市場盈利部分數據分析
二、實驗目的
中國二手車市場潛力很大,面對如此市場行情,我們將用數據分析的方法,分析過去並使用機器學習進行建模和預測,以讓即將接觸或者正處於經營的商家對市場有著新的認識,且可以通過對歷史數據分析後的可視化的圖表展示,幫助買家在購買二手車方面提供幫助。
三、實驗難點
1)原始數據的清洗:
在原始數據集中,只有四個字段。其中一個字段包含四個數據,且用豎線隔開。在二手車的價格中,一個字段裡既有數字又有中文字“萬”,因此要進行數據清洗。我們採用R語言進行數據清洗,將數據切割,保證一個字段裡只有一種數據。同時也對價格字段進行了處理,去掉了中文字,只保留數字。
2)機器學習
由於對機器學習接觸不多,所以在建模的時候不是很順利。而且需要考慮維度的選取以及挑選對於預測結果有幫助的數據字段。
四、實驗過程
1、數據處理部分
清洗前的數據集
清洗前原始數據集字段
數據清洗代碼(R語言進行清洗)
清洗後導入MaxCompute的數據
清洗後數據集的字段
清洗後字段本地查看
2、可視化部分
1)北京連續三年二手車交易趨勢
2)北京二手車市場的大眾車輛中,型號與二手差價的關係
3)二手交易市場中,在2017年豪華型車輛交易居多
4)2017年,二手車數量前十的品牌
5)同一品牌,二車手行駛公里數與價格的關係
6)2017年,北京二手車差價較高的品牌
7)2017年,二手交易市場較活躍的地區
8)大眾二手車較受歡迎地區
3、機器學習PAI部分
1)機器學習數據清洗
2)處理流程圖
3)混淆矩陣結果
4)比例矩陣結果
5)分析結果統計信息