大數據

“數據科學家”或許不再性感,但“數據團隊”的產業化才剛開始 | 專訪領英全球數據科學團隊負責人

定下“頂級數據科學團隊”這個研究話題時,我們第一時間想到了領英(LinkedIn)。

2008年,正是在這家公司,DJ Patil建立了全球首個真正意義上的“數據科學團隊”,並開始用“數據科學家”(Data Scientist)這個詞來描述這些Data man們的工作性質。

在這之後,“數據科學家”開始被譽為21世紀最性感的工作,也成為全球技術精英們近年來最理想的職位之一。

儘管已經過去了十多年,但當我們請領英全球數據科學團隊負責人許亞給數據科學團隊下個定義時,她還是表示,這不容易。

領英全球數據科學團隊負責人許亞

的確,儘管數據科學在學術領域的概念50多年前就有了,但作為職業,相比業內更多成熟的團隊和路徑,這依然是個相對很新的概念。

不同公司和團隊領導人對於“數據科學團隊”的定義範疇大相徑庭:

從時間維度來看,當年研發出Hadoop、Kafka的人會稱自己是數據科學家,但是現在這些大數據底層技術都變成了偏基礎設施的內容,在狹義概念上,已經不再屬於數據科學團隊的範圍;
隨著這個領域囊括的範圍越來越多樣,數據對於每家公司的重要性也都只增不減,數據科學的“嵌入”性越來越高、邊界也越來越模糊。

儘管如此,談及領英這些年“數據科學團隊”的定位和建設,許亞依然有自己非常清晰的思考。

“對於領英來說,數據科學團隊的整體趨勢更加走向專業化,他們的職責不再是建立數據基礎設施或平臺,而是怎樣去使用數據科學和工程來最大化數據的價值。”

這是許亞對數據科學團隊任務的要求。

那麼到底如何讓數據的價值最大化呢?從團隊運作方式、商業影響力設定和社會責任等角度,許亞給出了領英的答案。

“嵌入式工作,中心化管理”,數據科學團隊更加“專業化”、“工程化”

和多數互聯網公司一樣,領英的數據科學團隊規模也在近幾年飛速增長。許亞表示,僅是近兩年來,領英的數據團隊擴張了近一倍,從150人增加到目前的300多人。

許亞提到的數據團隊是指領英中心化的數據科學部門。如果用一句話來概括領英的中心數據科學團隊的運作方式,那就是“嵌入式工作,中心化管理”。

和國內不少互聯網公司將數據分析師歸屬於業務BU、向業務主管彙報不同,領英的數據科學團隊成員由許亞的中心部門統籌。雖然在項目工作上,數據科學家們依然會在工位分佈和職能上與業務部門緊密聯繫,但是從職級從屬上,都直接向許亞彙報,不同領域的數據科學家在工作中會有交集,還會一起開會。

其實領英的數據科學團隊的設置也不是一開始就如此,隨著領英數據科學團隊定位的變化,數據科學團隊也從最初的產品組,移到了現在的工程大組。

值得一提的是,目前領英的數據科學和人工智能團隊都在同一個大組裡,許亞表示,數據團隊和人工智能/工程團隊是緊密相連的。

這也從一個側面說明,隨著對數據科學團隊的需求逐漸增大,數據團隊的工作會越來越“工程化”。跑的數據會越來越多,對工程團隊的需求也會越來越大,需要對工程團隊越來越多的要求和技術定位。

近年來,各大公司越來越意識到數據的重要性,已有的數據科學涉入領域在進一步擴張。數據團隊之前最常被用到的部門是市場和產品,但是基於領英本身的數據基因,近幾年的一些產品也對之前沒有用到數據的地方做了數據驅動的嘗試。

例如,與架構工程部門合作的數據團隊會去衡量工程架構的建設是否有效率:每年跑大數據的硬件設備花費很高,怎麼樣在時間上做規劃,讓硬件/GPU等更有效的發揮價值。

在人員構成上,和十年前相比,領英的數據團隊也更加專業化了,底層架構人員也從數據科學團隊分離了出來。

目前領英的數據科學團隊也根據員工不同的專業領域設立了三個工作方向:

工程專家:可以很有效的建立起數據管道(data pipeline) 和數據流 (data flow);
算法專家:在預測、算法領域的技術咖;
業務專家:有很強的業務屬性,將數據見解和公司戰略結合起來;

由於工作側重不同,在管理的過程中也會有意的區分這三類數據科學家,並且保持各類員工的競爭力。

許亞提到,她的團隊內部更多是自下而上的工作文化。她不會給團隊指派任務,因為每個組會自覺的告訴許亞他們想達到什麼樣的目標。對於一些大的項目,一般需要跨部門合作,各部門的領導達成共識,分配資源來一起實現這個目標,是自上而下和自下而上的結合。

三大KPI指標,量化數據團隊工作

相對複雜的構成和與業務團隊的緊密性,給數據團隊設定商業影響力和發展路線不是一件容易的事。

許亞表示,兩年前她接手領英數據團隊後做的第一件事就是擬定了團隊成功的三要素。雖然數據團隊的價值有時候很難量化,但是有三個指標可以作為探討的基礎。在數據團隊內部不同組可能會有不同的側重,但對大部分組來說這三個因素都很重要。

數據易得性和工作效率

數據易得性,指的是當外界需要數據的時候,獲得這些數據的難易程度;工作效率,指的是一個人的工作是否可以提升整個團隊的工作效率。

許亞表示,數據科學家之前被人詬病過於追求新鮮感,喜歡挑戰高難度問題,但做完MVP (Minimum Viable Product) 後沒有維護迭代的習慣,永遠都在追逐下一個新難題。數據團隊擁有許多數據資源,比如原始數據,指標數據,數據模型,數據可視化。

當外界對這些資源有需要的時候,如何能夠保證這些需求能夠隨時被滿足?軟件開發有一系列衡量數據獲取難易程度的指標,比如SLA(Service-Level Agreement)的達標率就是一個很好的量化指標。

有些數據科學家做了一個很不錯的分析,但是不太關心怎麼把這個分析過程自動化,所以每次有人提需求的時候就需要有人再手動跑一次模型,其實都是重複勞動,不同的人在做相同的重複勞動。如果這個分析實現了自動化,大家都可以享用,其他人就不需要花太多時間精力在這個模型上,整個數據科學團隊的集體工作效率都提高了。

以前許亞的團隊也缺少這種分析自動化產品化的意識,所以她把這個設置為成功三要素之一,強調這種意識的重要性。

戰略化思維

戰略化思維,指的是數據分析結果對公司重要戰略性決策是否有指導作用。

許亞的數據團隊和公司很多高層會打交道,因為他們團隊有一個很重要的職責就是通過數據來確保公司重要決策的大方向是準確的。比如他們需要了解用戶在疫情期間是如何使用領英服務,如何通過領英的產品獲取價值的。

許亞認為在疫情後,用戶的行為多少會發生一些不可逆轉的改變,數據可以幫助團隊更好地去學習用戶行為變化,從而在戰略上指引公司對哪些領域進行重點投資。不管是產品開發還是市場戰略的決定,都需要依靠數據。

直接商業影響力

直接商業影響力 (Direct Business Impact),指的是工作成果對公司商業目標的直接影響力。

每個部門的工作開展是和公司要實現的大目標息息相關的,領英有公司層面的四個核心指標,數據部門在計劃工作的時候,需要考慮如何對公司的商業目標產生積極影響。

AB Test:用數據來證明一切

我們都知道,企業在做產品/功能測試時一般都會用到 A/B test ,即分為兩組用戶,一組對照組,一組實驗組。對照組採用已有的產品或功能,實驗組採用新功能。要做的是找到他們的不同反應,並以此確定哪個版本更好。

A/B test 能對大範圍的事情進行測試,例如亞馬遜對個性化推薦進行 A/B test 後,發現個推能顯著提升收益;谷歌在對搜索廣告進行排名時也用到了A/B test。

那麼對於領英來說,A/B Test 在領英的產品設計中又扮演著什麼角色呢?如何影響產品決策呢?

許亞和Ron Kohavi、Diane Tang共同寫的一本書關於A/B Test 的書籍《Trustworthy Online Controlled Experiments: A Practical Guide to A/B Testing》,在今年4月出版了,書裡有很多關於A/B Test的例子。

可以這樣說,基本上我們在領英網站上能感知到的更新,領英團隊都會做A/B Test,有些是前端的改變,有些是後端系統的調整。當你打開領英APP,從搜索欄,搜索引擎算法,底部導航,到頁面文字大小,這些都是經過A/B Test的。

領英的產品文化以用戶為主導,領英自己不會去假設用戶喜好,一切都通過數據來說話,而不是靠誰的直覺。除了看得到的東西,後端用戶看不到的,領英也會進行A/B Test。比如打開APP要加載內容,需要從後端系統裡獲取數據,每次獲取20條數據還是100條數據,這個決策就涉及到平衡與取捨,獲取數據越多,頁面加載時間越長;獲取數據越少,用戶瀏覽的時候就需要頻繁刷新。所以到底一次獲取多少數據,領英還是通過A/B Test來決定。

還有一個簡單的例子,當領英對一個數據中心的開關做決定時也依靠A/B Test,比如一個用戶發起數據請求,這個請求該發送到哪個數據中心來處理呢?這種情況下用戶到數據中心的距離就是一個很重要的考慮因素,最終領英會通過做A/B Test來選擇最優化的基礎設施方案。

雖然數據團隊是A/B Test方面的專家,在這方面更有經驗,但因為領英有非常完備的A/B Test平臺,可以解決大部分實驗需求,包括實驗設計、實施和分析,所以數據團隊不需要介入到每個A/B Test。

這對推廣實驗文化和數據文化很有幫助,因為大家都可以去做實驗,享受數據和實驗帶來的好處。領英內部每天大概有100個新實驗在進行,數據團隊無法關注每個實驗,但是會集中關注一些重要的實驗,深入參與到研究和分析工作中。

在領英以數據為主導的文化浸染下,長遠來看所有人都受益於這樣科學的決策機制。也因為有A/B Test的文化,所以可以跳過爭論,直接做個A/B Test就見分曉了。整個過程簡單公正,方案落選的組也可以通過這個機會學習到一些關於用戶的新知識。

A/B Test提倡數學引導的創新,這種創新不取決於誰的職位更高,因此任何團隊都可以放心大膽的去做測試來發掘新點子。

領英作為一個社交平臺的社會責任:給每個人公平的機會

在許亞看來,維護公平是一個很有挑戰的課題,因為你很難明確定義公平。

“當我們在說公平的時候,我們在說公平的機會?公平的結果?還是公平的待遇?我之前看過一個有意思的問題,給三個不同高矮的人提供凳子,在公平原則下,你該給他們提供同樣高度的凳子?還是提供不同高度的凳子讓他們坐上去之後一樣高呢?我很難說這個問題有一個絕對正確的答案。”

領英對公平的定義是,擁有同等才能的兩個人,應該獲得同等的職業機會。而不受到種族或者自身人脈的影響。過去兩年時間領英做了很多努力來解決公平問題,取得了不錯的成果。

首先,領英很重視可量化、可測量的指標,因為如果一個問題沒有被數據抓取到,就很難注意到。

例如,每次領英發布新產品,都需要通過量化的指標來測量這個新產品對用戶帶來影響是否公平。一開始領英的測量指標比較粗線條,他們會看這個產品平均下來對用戶是否有積極影響,但如果細看數據,有可能這個產品只對一部分人有益,但會損害另一部分人的利益。因此,後來領英採用了一個指數來衡量是否在一個群體內無意間引入了不公平因素,也就是對每個新產品,領英想知道其帶來的提升是否是公平的。

其次,領英關注現有平臺上是否存在公平問題的盲點。

例如一個以男性為主體的數據集,訓練出來的模型就更傾向於男性,這是一個隱蔽的不公平點。很多獵頭和HR用領英產品來招人,如果算法推薦的候選人都是男性,女性就失去了公平的競爭機會。

大概一年前左右領英推出了一個代表性指數來衡量推薦結果對整體數據集的代表性。比如所有可能候選人的男女比例是1:1,那領英給獵頭推送的前100位候選人的男女比例也應該是1:1。有了這些量化指標,領英可以更好地規範和規避不公平的舉措。

許亞還給我們舉了一個例子。之前領英有一個內推功能,當某個人想申請Google的工作,會收到提示說我的一位好友在Google工作,我可以找他要個內推。

上線初期,領英內部對這個新功能很滿意,因為可以幫助那些有廣泛人脈資源的人更快找到工作,後來領英意識到這個功能會讓那些沒有人脈資源的人更難找到工作,所以就關閉了這個功能。取而代之的是領英推出了一個新工作快速提示功能,一個新職位剛發佈出來,領英會立刻給所有對此類職位感興趣的用戶推送提示。這個功能不僅能幫助所有用戶更快找到工作,對那些關係少的人尤其有幫助,因為他們的消息相對更閉塞一點,所以這個功能能讓更多的人受益。

最近領英也開源了這套技術,希望能助力其他公司去構建一個更公平的社會環境。

隨著近年來數據洩漏事件頻頻爆發,數據隱私和安全問題被推上了風口浪尖。許亞也跟大數據文摘聊了聊領英在保護用戶的數據隱私方面都做了什麼。

領英全球有超過6.9億用戶和5000萬家企業,領英的願景是為全球勞動力市場中的每一位創造經濟機會,通過將所有在領英平臺發生的行為數據可視化,進而打造全球“經濟圖譜”。因此用戶數據對領英至關重要,如果沒有用戶的信任,領英就沒有辦法去實現他們的願景和使命。

所以在GDPR這些開始之前,領英在保護用戶隱私上已經有了很多投資。許亞提到,除了實現規定裡的要求,領英也用一些很前沿的技術去確保不洩露隱私,比如現在認為是數據隱私保護的“Gold Standard”——差分隱私(Differential Privacy)。

大家經常說到保護隱私,比如說把一些個人信息隱去了,其他人看不見,我就沒有隱私洩露了,其實不是這樣的。

差分隱私只是一種保證。假設你的信息在一堆數據裡面,如果把這些信息刪掉,再運行同樣的一些算法,從數據當中得到的兩個的結果都是一樣的。相當於你的數據在或者不在這個數據庫裡面,最後對於得到的信息沒有影響。這樣用戶就不需要擔心他們的數據隱私被洩露。

領英三年前就開始針對數據隱私問題進行一些重要的研究,同時也有一些比較成功的應用,例如最近一個針對廣告商的產品,客戶想要用領英的API去獲得一些信息,比如用戶互動量前十的文章,像這樣一些集合的信息,領英也用差分隱私去確保用戶的信息不洩露。

最後,從整個公司文化上面來說,許亞透露,除了去實現數據保護條例的一些要求,領英也用到了一些很前端的技術,來確保用戶的隱私不被洩露。另外,領英也十分重視在數據分享方面的問題,並表示會對此加強技術防護。

採訪過程中,許亞多次提到領英的社會責任。今年,一場突如其來的疫情,全球的勞動力市場都受到了不同程度的影響,不論是就業還是工作方式都迎來了一種新常態。領英利用數據優勢,實時展現勞動力市場的趨勢變化,幫助個人更好地應對當下的不確定性。在分析數據時,領英還發現不同分組內的用戶受到的影響程度不一樣,比如剛入職場的新人會受到更大的衝擊,疫情對女性的負面影響可能大於男性。

通過數據觀察到這些問題後,領英數據科學團隊和業務部門迅速溝通,快速響應,針對各個市場及時提供了一系列有針對性的服務來幫助這些人,讓每個人都能在自己能力範圍內獲得平等的工作機會。

“這是領英作為一個職場社交平臺的社會責任。”

Leave a Reply

Your email address will not be published. Required fields are marked *