1、發現報錯
首先通過運維大屏,點運行失敗進去週期實例中查看失敗任務,然後進行篩選條件,只查看同步節點。
2、查看日誌
查看每一個任務的運行日誌。
錯誤原因有的是分區不存在,不存在的是因為治理那邊也是有好多任務是失敗的。
其次大部分的都是數據傳輸為0,然後分析的是因為人社的一張4億多條的表佔用資源,影響其它的任務了,然後查看人社AC43這張4億的同步任務,發現在執行15分鐘的時候就已經出錯了,出錯原因也是一直傳輸為0。
報錯信息:Code:[OdpsWriter-09], Description:[寫入數據到 ODPS 目的表失敗.]. - ODPS 目的表寫 block:0 失敗, uploadId=[20191230013903e208180a0112b57b]. 請聯繫 ODPS 管理員處理. - java.io.IOException: RequestId=20191230014736e208180a0112bc10, ErrorCode=InternalServerError, ErrorMessage=Storage quota not enough.
3、重跑任務
A、重跑成功:說明在同一時間點運行壓力太大,分析硬件資源後,分段運行。
B、重跑失敗:進入第四步。
4、開發環境驗證
A、在開發環境手動執行,看是否存在同樣的錯誤,定位是程序問題、空間問題還是產品問題引起的。
5、定位錯誤
錯誤原因是空間不夠,接下來在數據地圖中查看佔用空間情況:
然後看空間申請的存儲空間:
明顯是空間不夠了。
6、解決辦法
A、申請存儲空間資源(空間大小由項目規劃分析)。
B、釋放表空間(清理測試數據、垃圾數據、歷史數據)。