開發與維運

含ppt下載 | 螞蟻金服憑什麼發佈全國首個共享智能聯盟標準?

今天的整理來自螞蟻金服高級標準化工程師樸昕陽,為大家解讀共享智能標準以及共享智能技術的落地實踐。

【下載PPT可點擊以下鏈接:https://space.dingtalk.com/s/gwHOAcHUugLOKYmHnAPaACA4NTVmODgwZDk0YTg0Yzk3OWUyNDA5YmVlNjNiY2QxMA 密碼: kDDu】

以下為演講整理全文:

大家好,我是來自螞蟻金服技術戰略發展部的樸昕陽。不久前,由螞蟻金服牽頭制定的共享智能聯盟標準在AIIA(中國人工智能產業發展聯盟)正式發佈,這也是全國首個共享智能的聯盟標準。今天我將主要針對該標準進行解讀,同時有關共享智能的技術實踐,在這裡跟大家做一個分享。

今天的分享主要分為三部分,第一部分講解有關標準的分類與價值,第二部分解讀共享智能標準,第三部分介紹共享智能應用實踐。

標準的分類與價值

標準的分類,我們按照這四大類來分。首先按層級,其次按屬性,再次是按對象,最終是按性質。按層級來分,我們分為國際標準、國家標準、行業標準、地方標準以及企業標準;按屬性分,我們分為技術標準、管理標準以及工作標準;按對象分,分為基礎標準、安全標準、衛生標準、環保標準、產品標準、方法標準、管理標準等等;按照性質分,分為強制性標準、推薦性標準。當然強制性標準可能是一些國家標準,針對主要在安全方向或者隱私保護方向可能會制定一些強制性強制企業來遵守的標準。推薦性標準,顧名思義就是推薦性的標準,其次就是指導性技術文件僅適用於國家標準和行業標準。

標準主要包括技術要求、實施指南、測評依據、管理、基礎協議以及創新研究。目前在螞蟻我們做得比較多的其實是技術要求類以及創新研究類的標準,因為螞蟻目前創新技術還是做得非常好,而且很多都是這種創新性的技術,所以我們希望把螞蟻本身創新性技術對外做一個技術輸出,同時也跟行業內感興趣甚至說一起想做相關性技術的合作公司進行標準的制定。

我相信現在在觀看直播的很多同學不是那麼瞭解標準,所以我對標準本身價值做一個簡單的介紹,它體現在四個方面:

首先在技術領先方面,是因為基於強大的技術研究實力,通過標準來引導技術方向,或者是輸出優秀的技術實踐,這個我剛剛也提到了。

第二個方向主要是在市場規則方面,參與標準與技術政策的制定,可以促成健康的市場規則。

第三個方面聚焦主流,引導行業聚焦主流的標準,防止旁流標準造成市場化的碎片化。

最後一個有關產業生態,聯盟就像類似一個產業生態一樣,基於聯盟標準組織可以凝聚行業本身共識來共建產業生態,促進技術商業化發展。通過標準工作引領行業發展的過程中,我們可以提升技術影響以及公司品牌價值,來破除產品進入市場的壁壘。同時實現ICT網絡互聯互通,以及提高相關產品研發質量,最終促進產業鏈上下游合作。

共享智能標準解讀

剛剛我們也說,今年3月30日,《共享學習系統技術要求》在AIIA聯盟已經正式對外公開發布了,這個標準由螞蟻金服來牽頭聯合八家產、學、研、用機構共同研究制定的。這八家機構分別是中國聯通、中國信通院、中國電信、阿里巴巴集團、北京大學、中和農信、北京百度網訊科技公司以及雲從科技集團股份有限公司,在這裡也非常感謝這八家公司對我們標準本身的貢獻。

標準從制定到發佈大概用了將近一年的時間,是從去年5月份開始我們進行內部需求蒐集到最終今年3月30日最終發佈,這個時間也算是比較長的。我這裡想簡單介紹一下,我們有關標準制定的節奏以及流程。

首先是關於標準化需求的蒐集。在內部進行標準化需求收集之後,我們在相關聯盟以及協會去申請標準的立項。標準成功立項之後,我們會撰寫標準本身的草案。在螞蟻內部這個標準草案主要由標準化的同學主要撰寫,技術同學會給予相應一定的技術上幫助。標準草案這個完稿之後,我們會遞交到聯盟或者協會去做意見徵求。這個意見徵求的對象主要是面向聯盟或者協會的會員,大家一起來做標準的共建。經過大概兩到三輪左右的意見徵求之後我們會進入送審稿的階段,送審稿我們基本整個稿子已經比較成熟了。

經過聯盟技術委員會評審之後,我們會進入報批稿階段,報批稿基本上這個標準可以對外發布了,最終正稿之後我們標準發佈,再到標準實施的過程。標準實施當中可能會涉及到一些技術的更新,或者有一些新的需求,可能會反過來進行標準的修訂,這是整個標準制定的節奏和流程。

接下來我想講一講有關共享智能的技術背景,以及我們為什麼要做共享智能的標準。

隨著數據孤島問題的突出,數據共享日益重要,但仍存在一些有關數據的非法買賣和濫用洩露等問題,公眾和政府日益重視數據隱私保護。我們知道歐盟GDPR法律也正式實施了,很多國家在爭相效仿,對於數據隱私和安全的關注成為一種趨勢。

在滿足安全、隱私和監管等要求下,如何設計相應的框架來實現數據的多方協同和授權呢?這個需要更加準確和高效的模型和決策來進一步釋放數據價值,再嘗試建立對應的標準。

針對共享智能來說,目前我們知道人工智能存在的難題是魚和熊掌不可兼得,隱私性和可用性難以兼顧。如果你想要AI本身系統發揮作用,就可能要先犧牲隱私,但在大量的真實場景當中,如果不能同時兼顧到隱私性和可用性,會導致很多AI落地的困境。

比如說我在這裡舉一個例子,首先是貸款的風控。如果用戶想要去銀行做貸款,先來到了銀行A,銀行A基於一些本地數據判斷這個A是一個壞人,我們不可以給他貸款,這個人就到了銀行B,但是銀行B沒有銀行A的這些數據,所以銀行B也許會把這筆貸款發放給用戶的本人。其實這樣的矛盾比比皆是,都是因為數據不流通所導致的。

1.png

我們看一下這張圖,在現實環境當中,有的地方是有一些短暫的連接,但是大多數數據屬於斷開或者不通的狀態。我們目標是想打通數據的孤島,用技術的方法來解決技術的問題,通過技術保護數據安全的情況下,實現一個數據的共享以及價值的傳遞。

對於共享智能我們希望達到數據可用不可見的目標,在多個參與方而且各個數據提供方與平臺互相不信任的場景下,能夠和多方的信息來進行機器學習,確保各個參與方隱私不被洩露,數據不被濫用。

接下來想介紹一下標準本身的範圍以及框架。我們在這次聯盟發佈共享智能標準,主要用於制定共享學習系統的技術要求來規範化共享智能的定義。包括技術框架以及流程,技術要求以及安全的要求。本身這個項目也適用於指導共享智能系統的設計、開發、測試、使用、運維管理等等。

這個標準當中的內容我們主要是包括了這幾大方面,一方面有關共享智能的概述,之後我也會大概講解一下,包括基於可信執行環境的共享智能系統,以及多方安全計算的共享智能系統。這兩部分都包括了不同的方案技術框架、功能組建、技術流程。同時對共享智能系統技術以及安全也做了一定的要求,附錄當中也進行了兩個場景與示例的撰寫,包括智能風控以及智能營銷。

有關共享智能(Shared Machine Learning)的定義,我在這裡做一個介紹。首先這個共享智能是由多個數據提供方參與,且在各個數據提供方與平臺方互相不信任的場景下,平臺能夠聚或者協助聚合多方數據信息並保護多方數據隱私的學習範式。

在這個標準中,我們一共寫進去了兩個共享智能的方案,包括TEE(Trusted Execution Environment,可信執行環境的方案)以及MPC(Multi—Party Computation,安全多方計算的方案)。除卻這兩個方案之外,其實我們內部也在進行一些其他方向的技術方案的研究,後續我們會把它補充到我們標準當中去。

2.png
3.png

首先介紹一下可信執行環境方案。主要利用可信執行環境來解決多個數據提供方在進行共享智能時的隱私保護問題。它的技術框架主要是由計算平臺以及多個數據提供方組成的。我們可以看到計算平臺當中,包括融合學習、功能模塊以及認證模塊。對於每個數據提供方都包含了本地的數據以及針對數據處理和加密的模塊,以及認證的模塊。其中數據提供方在進行處理,對數據進行處理之後,通過認證模塊的公鑰加密,再上傳到計算平臺。這個計算平臺本身認證模塊,通過私鑰對加密數據進行解密之後,再發送給融合學習模塊,對解密之後的多方數據進行融合的機器學習來確保數據的隱私不被洩露。

這種方案其實是依賴可信硬件的,通過數據加密的方式,集中傳送到我們可信的平臺當中。對於一些本身已經上雲的機構可以把所有的東西都存在雲上面,所有的技術都在雲上面部署。用這種方式可以非常快速便捷,同時又可以達到非常好的隱私保護的效果,這是TEE的技術方案。

4.png
5.png

針對MPC的技術方案,這個技術架構包括了模型平臺以及同樣有數據提供方存在的。模型平臺主要包括了控制模塊,數據提供方包括本地的數據以及本地部署的學習模塊所組成的。其中數據提供方的學習模塊可以通過互相之間來交換隨機數或者加密參數的方式,在模型平臺本身出發與協調下進行共享的繼續學習。模型平臺收到學習模塊,就是各個數據提供方學習模塊,提供上來的訓練任務之後進行分解和協調,下發到各個數據提供方,本地的機器學習模塊可以交換隨機數和參數,來完成共享智能的訓練,並最終得到一個共享智能的模型。這個方式本身是不涉及到硬件的,是偏軟件和密碼學的方案,所以中間出去的隨機數以及加密的參數目前在業界隱私再加上人工智能結合的方向上,用這個方案還是比較多的,業界用MPC技術方案還是蠻多的。

接下來要介紹一下目前我們的共享智能標準,就像我最開始介紹的,我們按照層級來分類,其實我們在很多層級上都做了標準的佈局,包括在國際標準方面上,我們在HOE以及ITOT都進行了標準的建立。在行業標準方面,我們在國內的CCSA(中國通信標準化協會)也進行了標準的立項,目前在意見徵求稿推進當中。

在聯盟標準方面,我們在AIIA(中國人工智能產業發展聯盟)已經發布了標準。在AIOSS(中國人工智能開源軟件發展聯盟)我們現在也在進行中,目前已經到報批稿的階段,可能馬上要發佈了。

共享智能應用實踐

接下來進行第三部分講解,有關共享智能應用實踐部分。

其實兩種方案在現實當中都有一定的落地應用實踐,包括TEE、MPC。首先TEE在安全風控的領域,我們首先聚合生態夥伴來建立安全的風控網絡。我們前面介紹的可信執行環境技術,把數據加密傳輸到網絡當中來,共建模型來打擊虛假的交易以及團伙作案,大幅度的提升了風控準確率來實現風控網絡的進化。通過這樣的風控網絡平臺,可以使得商家每天增加很多的交易,同時也降低了資損。

接下來是有關在螞蟻內部我們做的有關信貸聯合風控,是和江蘇銀行一起聯合來做的。主要為了聯合數據建模來提升模型的性能。

6.png

還記得我們之前介紹的例子嗎?因為本身數據的不完整導致風控決策的錯誤。現在通過共享智能技術我們雙方可以完成共同的模型構建。通過這樣機制來實現聯合的風控,可以使得這個效果大幅度的提升,同時在這個過程當中,數據的隱私得到了有效的保護。

接下來介紹一下有關共享智能我們獲得的一些行業獎項,包括在去年2019年我們在中國人工智能峰會上獲得了紫金產品創新獎,全球人工智能創業者大會上獲得的應用案例示範獎,同時在去年的世界人工智能產業安全上,獲得了十大創新實踐的稱號。同樣在去年的CCF,也就是中國計算機學會上我們獲得了科技進步優秀獎。共享智能是我們螞蟻內部做得非常成熟,而且應用落地實踐非常好的一項技術。

6.jpg

最後,希望無論是螞蟻的同學,或者是說外部一些公司如果對我們標準或者技術感興趣,歡迎加入到我們標準共建中來,我們可以一起進行相關技術的探討。

Leave a Reply

Your email address will not be published. Required fields are marked *