1. 項目背景
平臺運維過程中,平臺用戶必然會產生一些問題。在最初運維階段均是由用戶直接與平臺運維人員進行溝通,反饋問題或提出一些疑問,如此勢必會增加大量的溝通成本,如圖1所示。在長期運維過程中會暴露出如下問題。
圖1
1.1 用戶痛點
①不清楚有問題該去找誰解決或找不到人;
②無法感知問題處理進度;
③溝通成本較高,重要問題無法及時處理;
1.2 運維痛點
①內部信息不能有效共享;
②問題管理多入口,問題跟蹤混亂,重複解決相同問題;
③問題處理週期長,交接過程繁瑣易遺漏問題;
2. 業務架構
2.1 架構說明
問題管理機器人是用於幫助運維人員與用戶建立各種類型的問題處理流程,管理所有的問題並跟蹤記錄這些問題的處理方法,同時為用戶提供一個分配、流轉和協作處理問題的工作平臺。
問題管理機器人以解決問題為導向,通過對問題入口的統一,用戶側/運維側業務入口均為釘釘群。釘釘群分為妲己(用戶側)/紂王(運維側),客戶問題在妲己群中提出並流轉至紂王群,由運維人員進行接單處理,如圖2所示。
圖2
2.2 功能特點
- 依賴釘釘機器人集中管理所有的問題,手機、電腦多終端適配;
- 記錄所有問題,保證它們被及時處理並最終解決,避免問題被忽略、拖延或遺忘,並不斷累積;
- 從問題被錄入開始,便一直有人對其負責,直至問題被關閉;
- 記錄問題處理過程的全部信息(如處理人、處理時長、處理內容等);
- 減少大量詢問、督促、報告等溝通工作;
2.3 功能分組
用戶側群
- 問題錄入:規範化錄入模板,由用戶直接@機器人進行問題錄入;
- 問題查詢:隨時查詢問題,獲知問題當前處理進度;
- 問題修改:用戶可對問題進行指定問題處理人、評價問題、打回問題、加急問題等操作;
- 問題導出:個人維度支持多種導出選項並將問題導出為Excel,方便進行總結匯報;
圖3
運維側群
- 問題查詢:多種查詢模式,按照自身需求對問題進行查詢;
- 問題修改:運維人員可以對問題進行暫掛、標記、變更狀態、更新進度、轉交問題等操作;
- 問題導出:全局維度支持多種導出選項並將問題導出為Excel,方便進行總結匯報;
- 進度監控:問題處理時長超時提醒,加快問題處理進度;
- 問題播報:定期播報未解決的問題列表,及時發現其中重要問題;
圖4
問題大盤
- 數據可視化:按照問題分佈平臺、產品、處理人員、數量分佈等維度生成報表。
- 問題詳情:可以搜索問題詳情、處理時長等。
圖5
3. 問題處理
3.1 處理流程
圖6
3.2 流程說明
環節 | 釘釘群 | 角色 | 說明 | 處理狀態變更 |
---|---|---|---|---|
1.1 | 客戶群 | 用戶 | @妲己,機器人自動回覆需要下一步操作選項。 | |
1.2 | 客戶群 | 用戶 | @妲己機器人,選擇錄入問題,問題錄入成功後,自動將問題推送到駐場群,等待接手。 | 待處理 |
1.3 | 客戶群 | 妲己(機器人) | @妲己機器人,選擇查詢問題。 | |
1.4 | 客戶群 | 用戶 | 機器人自動分配問題ID,並推送問題錄入詳情,如要修改問題,需關閉重新提交。 | |
1.5 | 客戶群 | 用戶 | 回覆目前未解決問題,點擊問題可以查看詳情。 | |
1.6 | 客戶群 | 用戶 | 選擇是否修改問題狀態,否/臨時關閉/已解決。 | |
1.7 | 客戶群 | 用戶 | 選擇“臨時關閉”-此問題暫掛,問題不會通過“查詢問題未解決”查詢到,但可以通過“查詢問題全部”中顯示,通過@妲己修改問題,重新啟動問題。 | 處理中->臨時關閉 |
1.8 | 客戶群 | 妲己(機器人) | 選擇“已解決”-問題關閉,可通過@妲己查詢全部問題查看。 | 處理中->已解決 |
1.9 | 客戶群 | 用戶 | 收到駐場“問題處理更新”消息推送,進行處理狀態選擇操作。 | |
2.1 | 駐場群 | 運維人員 | 收到用戶問題錄入推送通知。 | |
2.2 | 駐場群 | 運維人員 | 接手用戶錄入的問題。 | 待處理->處理中 |
2.3 | 駐場群 | 運維人員 | 選擇是否轉交問題到其他駐場。 | |
2.4 | 駐場群 | 運維人員 | ①不轉交-處理問題。②問題驗證未解決,修改“問題處理狀態”為“處理中”。 | 已解決待客戶驗證->處理中 |
2.5 | 駐場群 | 運維人員 | @紂王,修改問題處理進度,修改成功自動推送到客戶群並@問題提出人。 | |
2.6 | 駐場群 | 運維人員 | 選擇是否“修改問題處理狀態”,如已解決更改狀態為“已解決待客戶驗證”。 | 處理中->已解決待客戶驗證 |
2.7 | 駐場群 | 運維人員 | @紂王轉交問題ID。支持主動轉交接手人和主動轉交其他運維人員。 | |
2.8 | 駐場群 | 運維人員 | 播報-每天10點、14點、18點、20點自動播報問題處理情況(累計處理情況、今日解決情況)。超時-①每10分鐘推送提醒未接手問題,②從問題錄入成功開始4h/8h/12h/24h/48h推送超時提醒並@TAM。 |
4. 結語
本期為大家介紹了問題管理機器人的設計初衷及目前達到的效果。目前問題管理機器人已服務於數個混合雲項目,項目問題跟蹤效率明顯提升,用戶體驗提升,大幅降低問題處理過程產生的溝通成本。
接下來會陸續給大家介紹封神的其他模塊,包括運維大盤、報表分析、時序數據庫等相關知識,敬請期待!
參考文檔
[1] 釘釘機器人:https://developers.dingtalk.com/document/tutorial
相關內容
[1] 封神-運維大腦 | 日誌檢測工具
[2] 封神-核心功能 | 釘釘告警+數據網關
我們是阿里雲智能全球技術服務-SRE團隊,我們致力成為一個以技術為基礎、面向服務、保障業務系統高可用的工程師團隊;提供專業、體系化的SRE服務,幫助廣大客戶更好地使用雲、基於雲構建更加穩定可靠的業務系統,提升業務穩定性。我們期望能夠分享更多幫助企業客戶上雲、用好雲,讓客戶雲上業務運行更加穩定可靠的技術,您可用釘釘掃描下方二維碼,加入阿里雲SRE技術學院釘釘圈子,和更多雲上人交流關於雲平臺的那些事。