疫情預測與輿情分析
該項目是浙江大學地理空間數據庫課程作業8:空間分析中,使用 flask + pyecharts 搭建的簡單新冠肺炎疫情數據可視化交互分析平臺,包含疫情數據獲取、態勢感知、預測分析、輿情監測等任務
項目分析報告已部署到網頁端,可點擊http://flask.yunwei123.tech/進行查看
包含完整代碼和實現的github地址:
https://github.com/yunwei37/COVID-19-NLP-vis
交互可視化分析報告截圖:
空間數據分析 作業要求
作業目的:
瞭解空間數據在日常生活中的應用,熟悉空間數據統計分析、空間數據挖掘、空間數據可視化等技術。
作業內容:
新型冠狀病毒肺炎(COVID-19,簡稱“新冠肺炎”)疫情肆虐全球多個國家,2020年3月11日,世界衛生組織 (WHO) 正式宣佈將新冠肺炎列為全球性大流行病。在全球抗擊新型冠狀病毒疫情的過程中,產生了前所未有的大規模疫情數據,利用大數據分析技術和方法能夠協助發現病毒傳染源、監測疫情發展、調配救援物資,從而更好地進行疫情防控工作。空間數據分析作為大數據分析的重要組成,將數據智能處理、直觀展示和交互分析有機地結合,使機器智能和人類智慧深度融合、優勢互補,為疫情防控中的分析、指揮和決策提供有效依據和指南。
作業要求以新冠疫情或其它重大公共衛生事件的相關時空數據為基礎,利用數據清洗與管理、統計分析、數據挖掘、數據可視化等相關技術和方法,探索並發現疫情大數據背後隱藏的模式和規律。請選擇一個具體的研究題目,進行深入分析。
選題:疫情預測與輿情監測:
本項目希望能利用交互式空間數據分析技術,感知和預測疫情發展趨勢與關鍵節點、分析社交媒體話題與情感的動態演變、對社會輿情進行態勢感知。
文檔與目錄結構
-
dataSets
- china_provincedata.csv 中國各省、直轄市、自治區、特別行政區的疫情數據
- countrydata.csv 全球214個國家地區以及鑽石公主號郵輪的疫情數據
- nCoV_900k_train.unlabled.csv
數據集依據與“新冠肺炎”相關的230個主題關鍵詞進行數據採集,抓取了2020年1月1日—2020年2月20日期間共計100萬條微博數據,並對其中10萬條數據進行人工標註,標註分為三類,分別為:1(積極),0(中性)和-1(消極)。
- nCoV_100k_train.labled.csv 同上,有標註
數據集太大了就先不上傳了
- nCov_10k_test.csv 同上
- yqkx_data-5_21.csv 使用爬蟲獲取的人民網疫情快訊新聞100篇
- 中國社會組織_疫情防控-5_21.csv 中國社會組織公共服務平臺疫情防控專區新聞
- weiboComments-5_21.csv 5.21微博《戰疫情》主題下的微博和評論數據
- notebook 分析時使用的notebook
-
scripts python腳本(爬蟲、可視化、數據處理等等)
- spider-yqkx.py 人民網爬蟲
- spider-社會組織.py 中國社會組織公共服務平臺爬蟲
- weibo_戰疫情爬蟲_spider.py 微博《戰疫情》爬蟲
- pyecharts-zhexian-country.py 使用pyecharts繪製任一國家疫情數據曲線圖
- hierachy.py 層次聚類分析代碼
- jiebafenci.py jieba分詞代碼及詞雲圖渲染
- lineCountry.py 生成疫情曲線圖
- logistic.py logistic分析代碼
- mapchina.py 生成中國疫情地圖
- mapworld.py 生成世界疫情地圖
- mergeweibo.py weiboprocess.py 微博數據處理工具
- weiboAnalyse.py 微博數據分析代碼
- wordData.py weiboWordData.py 詞雲圖保存數據
- tfidf.py tfidf值可視化
- sentiments.py 情感分析
- templates: 網站html/css/js及圖片文件
作業部分相關技術棧
- 數據庫的構建與sql語句查詢
- pyEchart可視化
- postgres sql數據分析
- snownlp 情感分析
- jieba
- flask
運行:
- 運行 server.py
- 打開 http://127.0.0.1:5000/