大數據

AI落地進入Hard模式!氪皮膚不如氪裝備,拼算法不如拼高質量數據

大名鼎鼎的橫店影視城有著這麼一群人。他們每天穿梭於各大劇組,換上威武的武士服和漂亮的古裝,在滿滿的通告中獲取一份相對穩定的收入。有時運氣好了可以講一兩句臺詞,和大明星合個影,也能自豪地給家裡人講自己風光的一面。

如果你看過爾冬升導演的《我是路人甲》,你可能對這幫“群演”的故事不會陌生。

隨著《甄嬛傳》《琅琊榜》和《慶餘年》等熱門劇集的影響,橫店的勢頭也步步高昇。然而,2015年隨著“限古令”的公佈,每年來橫店的劇組數量從幾十個銳減至十幾個。

以前一天可以跑三四個通告,現在可能兩天才能拿到一個。

通告的減少,不少“群演”收入銳減,甚至開始做起了快遞分揀、送外賣的兼職工作。而這其中,有這樣一批“演員”,還能幸運的靠演技謀得一份生路。雖然這次,僱主不再是影視公司,而是和人工智能密切相關的AI數據企業。

被作為“自動駕駛”數據採集的這批群演們自稱“車模”,在通過“數據測試”後,他們會被叫到幾輛汽車前,進入規定車輛的駕駛位上做出轉頭、搖頭和拿水杯等動作。半小時的採集工作,可以給他們相當於片場“半個工”(半個工作日)的薪水。

這些群演們可能自己都意識不到,自己在做的事情正在為這個智能時代產生巨大的價值。

人工智能時代,數據是和算法、算力一樣必不可少的生產力。我們無時無刻都在產生數據,但“數量龐大”這一標準已遠不能滿足這個時代的需要。

就如純度高的黃金需要雜質少的原材料,像上面這樣找專業人士獲取特定的、高質量的AI數據的需求,已經成為一種常態。

AI數據的生產模式已經從小作坊,轉向更專業的生產機構。入局這一賽道的,除了BAT、京東等需要滿足自身數據需求的大廠,也有越來越多專業化的超高質量數據服務平臺。

那麼,各大人工智能廠商不惜重金、趨之若鶩的AI數據,為什麼這麼重要呢?

“更高更快更強”:助推算法精準度,高質量數據必不可少

如果把人工智能研究比作一場奧運比賽,那麼提高深度學習模型的契合度、努力刷新前人的記錄,是研究者們追求的共同目標。對深度學習來說,算法提供了整體的框架,算力提供著訓練的動能,而沒有高質量數據,再怎麼萃取也不會有高質量的精華。

行業中,開發人員會戲稱訓練深度學習模型的過程為“煉丹”。想要煉出太上老君的仙丹,光有一口好爐子(算法)和充足的火力(算力)還遠遠不夠,純度高的原材料(數據)萬萬不可或缺。而越是好爐子,對原材料的精細度越是挑剔。

近年來,大數據的井噴逐漸推動著算法和算力的發展。有了過硬的算法和算力,相較於數量上的競賽,各大公司爭先恐後地想搞出些“真刀真槍”來進行比拼。在這樣的背景下,為了提升AI的準確性,向產品落地的方向更進一步,企業們已把眼光從之前對數據“數量”的要求轉向對“質量”的要求。

作為AI數據服務行業內頭部代表企業,雲測數據總經理賈宇航用簡單的實例為我們解釋了自動駕駛場景下精準數據的重要性,“公司對數據精度的高要求,是由於很多算法落地的過程之中,AI需要達到這樣的精度,才能夠去做到一個相應的運轉。“

“拿自動駕駛為例,如果你的訓練數據中的車都是白車,實際情況中突然出現紅車,基於訓練數據總結出的規律,可能AI就不認為這是一輛汽車。”

在開頭描述的橫店群演們的“車模”新工作,就是雲測數據為自動駕駛客戶提供的基於真實場景的數據採集服務。

複雜的場景中,高質量數據拒絕AI的“錯誤”行為

人工智能正在進入更加複雜的應用領域,除了對數據精準度的要求,現實場景的複雜度也成為人工智能落地前的痛點,兩者結合對AI數據提出了更高的要求。雲測數據所提供的服務正是解決了當下數據需求痛點。

微軟的沈向洋博士曾經在清華的就職演講中,用這樣一個案例講述了在識別領域,高質量AI數據的重要性。

在一個認出“哈士奇狗”的訓練任務中,AI在六張中鑑別對了其中五張,但進一步觀察判斷的依據,AI其實是在用“中有沒有雪”這一特徵進行判斷。很顯然,由這樣的數據訓練出來的AI不是一個“哈士奇分類器”,而變成了一個“場景分類器”。

AI之所以會在這裡出現“錯誤”,是因為算法會讓它在訓練過程中,確保大部分訓練數據的準確率夠高。大部分訓練數據的準確率高了,整體的準確率就有保證。想要做到這一點,提取這大部分數據中共有的關鍵特徵,再根據數據中有無這些特徵進行判斷就可以了。在上面鑑別哈士奇的例子中,中“有沒有雪”就是這一關鍵特徵,而高質量(準確)的數據在這裡就顯得十分重要。

採訪中,雲測數據也向我們指出了複雜的場景帶來的挑戰。“近年來,因為使用的場景非常複雜,AI公司對數據的數據標註的精度和場景多樣性的要求越來越高。某些人工智能應用可能換一種情景就行不通,比如語音識別,可能在普通話的情況識別率很高,但換了方言就行不通。所以說,當你訓練數據的覆蓋場景越多、數據標註的的精準度越高,實際上AI總結出來的規律也就越正確。”賈宇航說道。

為了保證AI總結出正確的規律,訓練數據的多樣性是一個關鍵。春夏秋冬的哈士奇,全身半身的哈士奇,只露一個耳朵的哈士奇,豐富的數據是避免AI錯誤的一劑良藥。

賈宇航介紹道:“舉個例子說,想要做一個全球適用的人臉識別系統,黑、白、黃,各膚色的數據是必不可少的,甚至在每種膚色下面還要細分種類。同時各個年齡層面也都要考慮。“

通過這樣豐富的數據,或者說,高質量的數據,我們訓練出來的AI就會更有可信度,落地的產品也才會更加可靠。

以一敵百萬:隨機數據讓算法更聰明!

剛剛提到的方言識別是語音助手面對的挑戰之一,除此之外,外部噪音對人聲的影響也是語音識別行業一個亟待解決的問題。

借用吳恩達深度學習課程中的例子,訓練車內的語音AI時,我們需要人們在「車內講話」的音源。這是因為由於行駛時的噪音的存在,我們在車中講話的聲音和平常是不同的。

為了提升模型識別的精準度,我們需要為算法蒐集定製化的車內噪聲數據。傳統的實驗室做法是這樣的:為了製作出車中的人聲,將一段搜索到的白噪音與一萬條人聲數據分別拼接。看上去我們獲得了一萬條車中人聲的數據,但通過這樣的操作得出的模型,在現實場景中往往很快“撲街”。

為什麼呢?這裡就涉及到了數據蒐集的“隨機性”問題。

我們對數據多樣性的要求,其實和統計學中隨機性這一概念息息相關。想要涵蓋各年齡層,各方言層的數據,其實是給樣本注入隨機性——為了讓樣本更能代表整體。剛剛提到的合成人聲,數據量看起來很多,但實際情況的車內人聲變化多端,我們合成的一萬條數據看似很多,但很可能並不具有現實代表性。

大家都知道隨機性很好,但它究竟好到什麼程度?讓我們回到統計學的基本概念中來看看。

假設我們想要估計全國人民使用某電商品牌的比例,稱這個數字為p。我們可以使用互聯網上現成的觀測性大數據(observational data)。但在這個數據集中,一個人被抽到的概率和這個人使用電商的概率是相關的(稱這個相關性為r,r越小數據越隨機)。

比較之下,我們還可以採取簡單隨機抽樣(SRS, simple random sample),避免相關性的問題。

假設我們在簡單隨機抽樣中抽取了n個樣本,而使用的觀測性大數據中包含的全國人口比例為f。我們用常用的MSE(Mean Squared Error,平均誤差)來衡量誤差,在這兩種情況下,MSE分別是:

上面的公式說明了什麼?

如果我們樂觀地假設r=0.1,那麼100個隨機樣本產生的誤差和一半人口(f=0.5, 7000萬人)的觀測數據產生的誤差一樣多。

如果我們有能力採集10000個隨機樣本(中國人口的十萬分之七),則它和涵蓋99%的中國人口(1.386億)的觀測數據會產生一樣大的誤差!

但在行業落地中,獲取更符合現實分佈的隨機數據並不是一件容易的事情。

賈宇航告訴我們,“聲紋識別上,我們需要考慮到方言的語系語種,以及性別層面和年齡層面。“

就拿方言數據來說,雲測數據在華東、華南、華北都設有自己的實驗室,從地理位置上保證八大方言體系的數據都有被涵蓋。而在收集之前,雲測數據還會進行認證和把關,確保錄入人員講的方言符合標準。

有些公司需要底噪比較高的環境,比如之前提到的車內語音,雲測數據也會使用相應的設備去調製這樣的場景,確保數據的採集達到標準。

賈宇航還給我們介紹道,也有一些對誇張表情進行情緒識別的數據需求。比如在自動駕駛中,誇張的表情很可能表示駕駛員遇到了緊急情況。這些是並不常見但對於提升AI的安全性至關重要的數據。換句話說,是使自動駕駛安全落地的一個關鍵突破口。

為了收集這樣的表情數據,雲測數據想到的是在演藝界打開渠道,而開篇提到的橫店影視城群演就自然成為了高質量的資源。在表情數據收集的過程中,雲測數據和專業人士合作,採取了人員篩選、情緒引導、數據採集的三步法。類似於演員的面試,項目負責人先篩選出表演能力強的演員,再對篩選下來的人員進行情緒引導,最後採集表情數據,來確保在數據採集初期的高質量獲取,以達到客戶需要的水平。

除了對人的要求,數據採集的場景化還包括對光源的具體模擬。雲測數據告訴我們,場景化的模擬包括不同光照條件、不同光照角度下以及遮擋物(如玻璃)等細節要求。某個項目中單是光源條件就分成了室內和室外,強光、逆光、倒光等一共24種光照條件,不僅如此,玻璃反光度、模特臉部遮擋比例值等都有嚴格的要求。在這個項目中,玻璃的反光程度不僅與玻璃的材質厚度有關,也跟光源大小、光源與玻璃之間的角度和距離等一系列變量有關。雲測數據最終搭建了一個將近3000平米的場景圓滿完成了此次項目。

數據智能的未來:專業數據服務機構和人工智能攜手共進

人工智能的產品正如雨後春筍一樣不斷冒出,但AI系統的質量仍然制約著一些應用的落地。即使系統已經落地,人們對於精細度的打磨也在產生新的要求。

“我們希望和客戶一起成長,更加深化合作方向。”

賈宇航對於數據行業和人工智能間關係如此展望,”比如說語音助手原來只是做到對語句的識別,但隨著時代的發展,人們對於精細度的進一步要求,我們同時也要做到情緒上的識別。同一句話在用不同的語氣講的時候,我們希望語音助手也可以用相對應的語氣來回應,而不是像現在這樣,每一句話都是一個語調。大家肯定希望壓力大的時候,語音助手可以用溫柔的語氣送上問候。我們希望語音助手也可以更加擬人化,在這個層面上我們會去進一步地深耕,利用場景的定製和設備的專業性進行數據服務方案的進一步調優。”

為了進一步滿足AI行業的需求,雲測數據也在數據標註的環節不斷拓展。以NLP為例,對一個語句的“主/謂/賓“或是”時間/地點/人物”式的劃分早已不能滿足應用場景的細化要求。用人為的標籤給平淡的語句加入適當的背景含義,算法才能更加適應場景。

想要達到高標準的標註水平,需要對員工的專業培訓,甚至在某些領域,比如醫療圖像識別,AI數據標註必須由領域的專家來完成。在不同的領域,建立起AI數據生產的標準流程,是數據行業當下將要面臨的機遇和挑戰。

對於AI行業當下發展非常敏感的數據隱私問題,雲測數據也給出了自己的解決方案:“讓擁有數據成為企業的核心競爭壁壘”,通過數據隔離、質量保障等一系列保護數據安全的方法,確保企業數據安全的情況下,持續為數據採集和標註構建和優化自己的方案。

另一方面,賈宇航也希望雲測數據可以和更多的行業進行深度合作。“除了現在的智能駕駛、智能家居、智能安防、智慧金融、新零售等領域,我們也在往更多的行業去拓展。比如說文娛和教育,實際上我們現在都有涉及,並和這些行業一起進步。我們希望把我們的AI數據服務帶到新的領域,在新的領域解決新的挑戰,幫助更多的企業實現產品智能化。”

Leave a Reply

Your email address will not be published. Required fields are marked *