大數據 – 小科科的春天

百萬人貢獻PC共同分析新冠“摺疊蛋白”，算力=500臺超級計算機

click / 2021-10-23

如果你被隔離在家，陪伴你的只有一臺電腦，你會做什麼？打遊戲、看劇或是在線吃瓜？也許幫助抗擊新冠疫情會更有意義一些，通過一個叫做Folding@Home項目，你可以利用自己個人電腦的空閒運算資源幫助預測SARS-CoV-2蛋白質的3D形狀，從而為尋找可以治療這種疾病的藥物出一份力。 Folding@Home：https://foldingathome.org/ 文摘菌也去助力了一把，下載軟件安裝之後，就是一個簡潔的頁面，可以選擇你支持的研究，文摘菌選擇的是COVID-19，也可以選擇助力的程度，選擇Medium基本不影響電腦使用，但是選擇Full會讓電腦有點卡。參與者可以在家用電腦上幫助“摺疊蛋白” 早在1977年，生物學家Jean和Peter Medawar就提出病毒“只是包裹在蛋白質中的一條遺傳信息”，病毒必須感染進入活細胞才能進行復制和傳播。 Folding@Home的研究人員Greg Bowman表示，SARS-CoV-2病毒的蛋白質主要用來抑制我們的免疫系統和自我繁殖，為了幫助對付SARS-CoV-2病毒，我們需要了解這些病毒蛋白是如何工作的，以及我們如何設計治療方法。那普通人如何能幫助瞭解蛋白質呢？首先我們要知道，蛋白質是由一系列被稱為氨基酸的化學物質組成的，在多數情況下，這些化學物質會自發地“摺疊”成緊密的功能性結構，就像一臺機器一樣，決定蛋白質功能的是蛋白質成分的排列和移動方式。確定蛋白質結構的實驗方法很多，但它們一般只能揭示蛋白質通常形狀的一個特定時刻的形狀，但是蛋白質一般是運動的狀態，在實驗方法中錯失的結構可能是發現新療法的關鍵。就像橄欖球比賽一樣，一般的實驗只能看到剛開場是球員擺列整齊的狀態，而我們需要了解的是整個比賽中所有人的運動狀態。這時候計算機模擬就上場了，我們可以通過計算機模擬來理解蛋白質的運動。計算機模擬蛋白質結構的過程就被稱為“摺疊蛋白”，但是這個計算量是巨大的，蛋白質可以在每個氨基酸之間扭曲和彎曲，所以一個含有數百個氨基酸的蛋白質有可能具有數量驚人的不同結構：數量級是1後面跟著300個零。超級計算機也很難進行這樣的運算，於是Folding@Home就發起了針對SARS-CoV-2蛋白質的分佈式計算項目，普通人在家中可以將自己個人計算機的計算資源貢獻出來，幫助進行“摺疊蛋白”的模擬。目前已有一百萬人蔘加，運算能力=500臺超級計算機該項目如今已得到超過100萬人的響應，根據運作該分佈式計算工作的團隊Folding@Home的說法，3月25日，該計算機的網絡聯合計算能力就達到了每秒操作1,000,000,000,000,000,000次，即1百億億次。這使其功能比目前世界上最快的傳統超級計算機IBM Summit還強大了六倍，到了上週一，該項目的計算能力又翻了一倍還多，刷新了2.4百億億次的新記錄，比前500臺傳統超級計算機的總和還快。 […]

大數據

洞悉2020年數據團隊建設，我們和清華、領英一起搞了個大事情，你也可以參與！

click / 2021-10-23

我的公司是否需要獨立的數據團隊?我該何時、怎麼樣建設自己的數據團隊?數據團隊的價值如何衡量?疫情之下，數據團隊又受到哪些影響？加入我們，一起透析數據團隊建設全景！數據驅動時代，數據團隊作為一家公司的核心競爭力所在，正在受到越來越多高管、從業者和投資人的關注。而目前，相對公司中的財務、運營等已經規模化的組成，數據團隊還是不少公司可有可無的部分，即使是一些已經建立了獨立數據團隊的公司，其運作方式以及與其他團隊的協作仍然處於探索階段。 2017年起，清華數據科學研究院聯合大數據文摘發佈了首份《頂級數據團隊建設全景報告》。《報告》囊括50,000餘條網絡招聘數據分析、1,000餘份問卷調查和10餘位海內外數據團隊負責人深度訪談綜合而成，致力於盤點數據團隊建設現狀，回答數據團隊發展中面臨的問題，力求為行業內數據團隊的組建和高校數據人才的培養提供指導性意見。 2018年9月，第二份《頂級數據團隊建設全景報告》也重磅發佈，調研囊括110,000+條海內外網絡數據分析、1,000+份調查問卷內容，和8位海內外業界大咖深度訪談內容，從數據團隊本身、技術從業者和高校三個方向，給出了一幅頂級數據團隊建設圖景。在之前的課題基礎上，今年，我們將繼續聯合清華數據科學研究院，並邀請領英作為數據合作方，繼續“數據團隊”的話題。除了繼續關注AI轉型浪潮中數據團隊的變革情況，以及數據從業者的自我建設之外，今年的報告也將從疫情、數據團隊全球輸入輸出情況等更多獨特的視角，進一步探索數據團隊的全景建設。如果你是——數據團隊的一員、和數據團隊一起工作，或者希望瞭解其他數據團隊的發展現狀和未來那麼懇請你花費5分鐘時間點擊“閱讀原文”填寫問卷，幫助我們完成這次調研。如果你是——相關領域數據科學團隊負責人：希望分享自己的團隊建設經驗給更多讀者，我們誠摯的邀請您作為深度訪談嘉賓，與我們的記者和研究員就相關話題深入溝通。相關專訪內容將作為重點專題，在《數據團隊建設全景報告》中呈現。請將您的需求和團隊介紹發給我們。問卷參與者將在2個月後，通過郵箱收到2020年《頂級數據團隊建設全景報告》完整版PDF，包含此次問卷全部數據分析、2020年數據類招聘信息分析、頂級機構數據團隊負責人訪談等內容。 *為保證結果儘量準確，我們懇請你認真完成本次調研。*本次調研匿名進行，不涉及任何個人信息，所留郵箱僅用於獲取完整版報告，請放心填寫。接下來，文摘菌將帶你回顧之前兩份《頂級數據團隊建設全景報告》的部分精彩內容：人工智能大背景下的數據團隊建設人工智能正在成為時代重要議題，也對數據團隊建設產生了重要影響。部分數據團隊也已經承擔或者計劃開展人工智能相關工作。據調研問卷結果顯示，人工智能技術已經成為一半以上數據從業者所在機構的戰略性議題。八成以上從業者考慮在未來工作中更頻繁使用人工智能相關技術。在人工智能項目實施上，18%的機構直接由原有數據團隊實施，14%的機構為數據團隊轉型的AI團隊實施，22%的機構新建AI團隊實施項目，10%的機構將這一工作外包出去。 Python為數據從業者使用最多的數據分析工具，但C、C++、JS 含金量最高根據數據相關職位描述中要求的編程語言信息以及相對應的薪資水平，我們計算出了每種編程語言的“技能含金量指數”。從數據分析結果來看，Python可以說是數據從業者中最受歡迎的編程語言，問卷調研的受訪者中，超過 7

大數據

Seraphdb：輕量級圖計算引擎(一) 概述

click / 2021-10-23

隨著圖技術的不斷成熟，與大數據框架的融合也越來越緊密，使得使用圖的場景也越來越廣泛；安全領域裡很多的場景也開始用圖的相關技術來解決實際問題；如雲安全中心利用圖對關聯關係的遍歷能力，實現了基於進程鏈的安全檢測，更大程度的檢測隱藏在正常操作背後的惡意行文，為用戶的主機保駕護航；同時基於多種數據的關聯關係，可以實現安全事件的調查分析、溯源等；基於圖來分析解決安全問題更符合現實場景，也更容易被人理解和接受；但是由於圖數據庫需要龐大的圖存儲、圖計算的資源，因此在專有云場景下，直接使用傳統的圖數據庫或者圖計算引擎，會給客戶帶來巨大的資源壓力；目前公有云上的基於圖的安全檢測、時間調查以及溯源功能，在專有云上是缺失的，而這部分功能對於安全能力又提升明顯，時間調查、溯源能力在護網場景下可以很大提升客戶分析處理問題的效率；所以圖技術落地專有云已經迫在眉睫；為了能夠將圖的能力應用在專有云的安全場景下，我們需要解決三個問題，圖數據的存儲問題，圖計算問題以及定時任務的執行問題，解決了這三個問題，就可以將圖在專有云的安全場景上落地，解決專有云的安全問題；上圖為Seraphdb的結構；作為一個開放的圖引擎，首先在存儲層，我們適配了大多數的存儲介質，比如ES等文檔型的存儲，RDS/MYSQL等關係型存儲以及RocksDB等KV型的存儲，這樣用戶可以基於現有的存儲資源來實現圖的能力； Reader/Model Reader層提供統一的接口，向下對接底層數據存儲，向上提供數據存儲的基本操作，實現圖存儲對於圖操作的透明；而Model層則作為圖引擎與底層數據存儲的樞紐，將圖的基本操作如節點和邊的CRUD，圖的遍歷等以及圖的複雜算法如最短路徑等轉為Reader的操作；Reader層與Model層的結合，讓seraphdb的擴展變的更加輕鬆；當需要對接一種新的存儲介質時，只需要基於Reader層的接口，構建新的實現類即可； Schema Schema層是seraphdb特有的邏輯層，它對於實現輕量級的圖引擎有著重要的意義；在傳統的圖數據庫中，我們需要將數據按圖數據庫預先定義的數據格式寫入到圖數據庫，即便是我們現在的數據格式以及索引已經具備了圖遍歷的能力；而通過Schema層，將圖的邏輯結構映射到底層物理存儲的結構上，不但減少了人工處理數據的流程，同時對於有向圖中的含有來、去向邊，可以基於同一結構來實現，大大降低了圖數據佔用的存儲；計算邏輯層計算邏輯層完全繼承了Tinkerpop的概念， Structure、DSL、Strategy、Step均來自Tinerpop，簡單介紹， Structure主要是用定義圖的基本結構，如Vertex，Edge，Graph， Property等；Process API中的TraversalSource以及Traversal主要是用於定義圖遍歷的邏輯，Strategy則提供了一系列的攔擊方法，用於在遍歷過程中更改執行的邏輯、方向等；而Step則提供了最基礎的執行算子；為了能夠實現輕量級一體化的圖計算引擎，我們基於現有的功能做了一系列的擴展； Steps 為了能夠在gremlin中擴展自己的算子，我們實現了自己的TraversalSource以及Traversal，並基於自身的Traversal提供了一系列數據寫出類的算子，如toJdbc(), toPrint(), toSlS()，toRocketmq()等，滿足圖的遍歷結果直接寫到外部存儲的要求； Strategy Tinkerpop 自有的圖遍歷的邏輯，通常是一步一步的查，將上一步的查詢結果作為下一步查詢的輸入，這對於關係型數據存儲來說，會同時產生大量的數據庫查詢，尤其是對於遞歸遍歷而言，膨脹的查詢會給數據庫造成巨大的壓力；為此我們構建自己的strategy，對在關係型數據庫上的圖查詢做了進一步的優化；我們基於策略，實現了過濾條件提前的方式，這樣將過濾放在數據庫查詢階段，降低了返回的數據量；同時我們對遞歸做了妥協，強制用戶加入遞歸的層數，同時基於用戶的遞歸邏輯，將原來多次執行的簡單查詢做重建，構建為一個複雜的join查詢，大大降低了數據庫的壓力；任務調度 Seraphdb基於quzrtz實現了一個輕量級的分佈式調度系統，可幫助用戶定時調度圖的查詢任務，並將結果寫出，從而解決了專有云上圖任務的調度問題；

大數據

COBOL課程登頂GitHub後，我們找到了這門上古語言“傳承人”：過時語言值得拯救嗎

click / 2021-10-23

先想象這樣一個畫面，60年後，如今最熱的編程語言Python會是怎樣一幅景象？被徹底淘汰？屆時今天這批Python熟練工已經徹底退休，那麼目前被Python編寫的這些基礎設施靠誰維護呢？疫情期間，一門上古編程語言COBOL就面臨這樣的“復活”問題。疫情導致美國申請失業救濟人數激增，各州政府服務器面臨崩潰，其中不少州的主機系統是基於COBOL建立起來的，而在過去幾年甚至幾十年的時間裡，這些系統都沒有更新過。 4月4日，新澤西州州長Phil Murphy在新聞發佈會上明確表示急需COBOL程序員。從四月初美國新澤西州都開始重聘COBOL人才，大批程序員開始重新學習COBOL，相關學習課程登頂GitHub熱榜，這門壽命超過60年的上古語言忽然重回大眾視線。時隔一個月，作為一門“過時”的語言，COBOL的熱度雖然逐漸散去，但是正如網友指出，和所有的編程語言一樣，COBOL現在有兩條路可選，要麼被優化，要麼接受被逐漸取代的命運。當一門語言站在這樣的分叉口，如何權衡抉擇下的箇中利弊？COBOL的現在是否也是其他語言終究會面臨的未來？懷著這樣的關切，文摘菌特意聯繫到了登頂GitHub的COBOL學習項目的開發者之一John Mertic，並跟他聊了聊這個問題。 John Mertic目前是Linux基金會項目管理主任，從2015年加入Linux基金會開始，他就一直致力於發掘優秀的編程人才，其中就包括COBOL。這次他聯合多位社區開發者共同編寫了COBOL學習課程，目前這門課程已經指導了一大批自學成才的年輕程序員，對解決美國COBOL系統問題起到了相當大的推動作用。站在專業COBOL程序員的角度，John指出，對於COBOL人才來說，他們始終充滿了活力和競爭力，公眾對他們的關注永遠不會顯得太遲，同樣，對於企業，能夠確保人才與業務直接相連將是確保業務持續發展的關鍵。談到COBOL語言本身，John也表現得相當樂觀，在他看來，一門語言一旦出現，其生命力就會一直綿延下去，更何況，如今人們對編程熱情不減，這也是十分重要的前提和基礎。成為一名COBOL程序員到底意味著什麼？ COBOL重新火起來之前，在不少人眼中，COBOL程序員可以說是“高大上”的代名詞了，因為他們出沒的往往是銀行、保險公司，但從事相關行業的COBOL程序員表示，事實上他們只能在這些領域進行選擇。比如知乎網友@睿波斯分享了他作為COBOL程序員的工作經驗：從事cobol對日外包一年。說點我知道的，零基礎培訓兩個月就可以跟著老pg做些常規的項目了，工作內容不是很難，繁瑣的是不同的se對提交的工作的形式（包括程序的編寫習慣，文檔的內容詳細程度），會讓你有種“我的工作很多時候不是編程，而是在滿足不同的se的一些不必要的要求”（當然，一些比較厲害的se不算，他們對整個項目有清晰的認識，因此知道殊途同歸這個道理）。工作時間，號稱“彈性工作制”，比較自由，福利待遇一般，初期還好，在同學中屬於中等偏上的，後期的話，漲幅比較固定，知道自己最壞、最好能混成啥樣——壞不到哪去，也好不到哪去。可能跟地域和公司區別吧。說點自己的感受，波瀾不驚，整個公司的氣氛是懶洋洋的，大家開玩笑說“適合養老”。當然也有的組幹勁十足，忙忙碌碌。可是工資差不多，這也就有了基層pg的不定期調動，組裡扛把子的基本不動。想要變成扛把子的，也不是很難，得用心，簡單粗暴的說——根正（所謂的期生），有點能力（當然越多越好），還有時間。https://www.zhihu.com/question/19747089/answer/57567186 如今COBOL程序員以肉眼可見的速度在減少，COBOL學習資料基本靠企業內部分發，系統本身也逐漸落後於時代。大多數銀行也曾萌生過換掉COBOL系統的想法，但在業務支持方面，COBOL的表現還是要遠勝於JAVA、C或者C++。對於COBOL憂喜參半的現狀，John Mertic表現得相當樂觀，他說道，不管是哪一門編程語言，COBOL也好，Java也好，還是Ruby、PHP，精通編程語言的頂尖人才一直都是行業裡的香餑餑，這是恆定不變的。

大數據

AI落地進入Hard模式！氪皮膚不如氪裝備，拼算法不如拼高質量數據

click / 2021-10-23

大名鼎鼎的橫店影視城有著這麼一群人。他們每天穿梭於各大劇組，換上威武的武士服和漂亮的古裝，在滿滿的通告中獲取一份相對穩定的收入。有時運氣好了可以講一兩句臺詞，和大明星合個影，也能自豪地給家裡人講自己風光的一面。如果你看過爾冬升導演的《我是路人甲》，你可能對這幫“群演”的故事不會陌生。隨著《甄嬛傳》《琅琊榜》和《慶餘年》等熱門劇集的影響，橫店的勢頭也步步高昇。然而，2015年隨著“限古令”的公佈，每年來橫店的劇組數量從幾十個銳減至十幾個。以前一天可以跑三四個通告，現在可能兩天才能拿到一個。通告的減少，不少“群演”收入銳減，甚至開始做起了快遞分揀、送外賣的兼職工作。而這其中，有這樣一批“演員”，還能幸運的靠演技謀得一份生路。雖然這次，僱主不再是影視公司，而是和人工智能密切相關的AI數據企業。被作為“自動駕駛”數據採集的這批群演們自稱“車模”，在通過“數據測試”後，他們會被叫到幾輛汽車前，進入規定車輛的駕駛位上做出轉頭、搖頭和拿水杯等動作。半小時的採集工作，可以給他們相當於片場“半個工”（半個工作日）的薪水。這些群演們可能自己都意識不到，自己在做的事情正在為這個智能時代產生巨大的價值。人工智能時代，數據是和算法、算力一樣必不可少的生產力。我們無時無刻都在產生數據，但“數量龐大”這一標準已遠不能滿足這個時代的需要。就如純度高的黃金需要雜質少的原材料，像上面這樣找專業人士獲取特定的、高質量的AI數據的需求，已經成為一種常態。 AI數據的生產模式已經從小作坊，轉向更專業的生產機構。入局這一賽道的，除了BAT、京東等需要滿足自身數據需求的大廠，也有越來越多專業化的超高質量數據服務平臺。那麼，各大人工智能廠商不惜重金、趨之若鶩的AI數據，為什麼這麼重要呢？ “更高更快更強”：助推算法精準度，高質量數據必不可少如果把人工智能研究比作一場奧運比賽，那麼提高深度學習模型的契合度、努力刷新前人的記錄，是研究者們追求的共同目標。對深度學習來說，算法提供了整體的框架，算力提供著訓練的動能，而沒有高質量數據，再怎麼萃取也不會有高質量的精華。行業中，開發人員會戲稱訓練深度學習模型的過程為“煉丹”。想要煉出太上老君的仙丹，光有一口好爐子（算法）和充足的火力（算力）還遠遠不夠，純度高的原材料（數據）萬萬不可或缺。而越是好爐子，對原材料的精細度越是挑剔。近年來，大數據的井噴逐漸推動著算法和算力的發展。有了過硬的算法和算力，相較於數量上的競賽，各大公司爭先恐後地想搞出些“真刀真槍”來進行比拼。在這樣的背景下，為了提升AI的準確性，向產品落地的方向更進一步，企業們已把眼光從之前對數據“數量”的要求轉向對“質量”的要求。作為AI數據服務行業內頭部代表企業，雲測數據總經理賈宇航用簡單的實例為我們解釋了自動駕駛場景下精準數據的重要性，“公司對數據精度的高要求，是由於很多算法落地的過程之中，AI需要達到這樣的精度，才能夠去做到一個相應的運轉。“ “拿自動駕駛為例，如果你的訓練數據中的車都是白車，實際情況中突然出現紅車，基於訓練數據總結出的規律，可能AI就不認為這是一輛汽車。” 在開頭描述的橫店群演們的“車模”新工作，就是雲測數據為自動駕駛客戶提供的基於真實場景的數據採集服務。複雜的場景中，高質量數據拒絕AI的“錯誤”行為人工智能正在進入更加複雜的應用領域，除了對數據精準度的要求，現實場景的複雜度也成為人工智能落地前的痛點，兩者結合對AI數據提出了更高的要求。雲測數據所提供的服務正是解決了當下數據需求痛點。

大數據

一週AI最火論文 | 童年的手繪漫畫有望復興？AI建立草稿到模型映射

click / 2021-10-23

本週關鍵詞：圖採樣、3D結構、增強學習本週最佳學術研究從手繪草稿重建3D形狀研究人員稱，這是首次有關從單視圖手繪重建3D形狀的研究。他們建議使用合成草圖進行訓練，並引入標準化模塊來處理數據不足的問題並豐富草圖的樣式。該模型被證明能夠成功地將不同視圖和不同類別的自由手繪重建為3D形狀。他們希望這項研究可以在基於手繪的3D設計或遊戲等應用中釋放更多手繪的潛力，使大眾更容易使用它們。原文：https://arxiv.org/abs/2006.09694v1 用於圖採樣的Python庫採樣圖是數據挖掘中的一項重要任務。本文的研究人員提供了名為Little Ball of Fur的Python庫，其中包含了二十多種圖採樣算法。他們的目標是使大量專業人員、研究人員和學生可以在一個簡化的框架中使用基於節點、邊緣和探索的網絡採樣技術。他們著重於創建一個具有一致的應用程序公共接口的框架，這個接口具有便利的設計、通用的輸入數據要求以及合理的算法基線設置。本文通過示例性代碼片段詳細概述了框架設計基礎，還通過估算多種社交網絡和網絡圖的全球統計數據，證明了該庫的實用性。實驗表明，Little Fur of Fur 庫可以大大加快節點和整個圖形的嵌入技術，並且只略微降低提煉特徵的預測值。原文：https://arxiv.org/abs/2006.04311v1 3D形狀中可學習的變形 Brain、加州大學伯克利分校和斯坦福大學的研究人員近期聯合發佈的這篇論文提出了一種基於流的模型，名為ShapeFlow模型。該模型可用於學習3D形狀的所有類的變形空間，儘管這些類具有較大類內差異。 ShapeFlow是一種基於流的模型，能夠通過使用變形流來構建高質量的形狀空間。研究人員分析表明，該模型可以避免自相交，並提供多種方式來規範體積、等軸測圖和對稱性等。ShapeFlow可用於對現有模板變形來重新構造新形狀。當前框架的一個主要限制是它沒有用於匹配形狀的語義監督。未來的方向包括通過對相似的矢量場進行分組來分析幾何形狀的零件結構並探索語義感知的變形。此外，ShapeFlow可用於在給出示蹤劑觀測值的情況下推斷螺線管流場的逆問題，這是工程物理學中的重要問題。原文：https://arxiv.org/abs/2006.07982v1

大數據

碼齡5年，17歲香港少年獲蘋果編程挑戰賽獎項，教貧困兒童學編程

click / 2021-10-23

受到疫情影響，今年蘋果的WWDC學生開發者挑戰賽轉為線上進行。6月16日，獲獎名單公佈，共有來自41個國家和地區的350位學生獲得獎項，其中中國大陸地區有23名學生開發者獲獎。 WWDC編程挑戰賽需要學生們在Swift Playground裡創建一個交互式場景，併發揮自己的想象力，運用Swift語言編寫屬於自己的App。Swift Playgrounds是一款適用於iPad的Swift編程教學App，旨在以互動有趣的方式來教你寫代碼。其中有一位名叫Alan Zhang的17歲香港高中生給蘋果高管們留下了深刻的印象。 Alan Zhang發明了一款邊玩邊學代碼的遊戲為啥Alan的作品這麼抓眼球？因為這項作品不僅融合了編程元素，還增加了AR功能，而自從蘋果推出AR Kit（鼓勵AR應用程序創建的開發工具集）設備以來，蘋果就一直關注該功能。 Alan的獲獎作品名為“Cuby的幾何星系穿越之旅”（Cuby’s Journey Back to The Geometry Galaxy），這需要用戶使用預先編寫的代碼塊來引導Cuby（一個立方體形狀的圖形）在現實世界的表面上移動來完成遊戲裡的任務。就像這樣，虛擬的金色硬幣和Cuby通過AR反映在了現實場景中，要想讓Cuby獲得金幣，就先得寫對代碼。這也迎合了蘋果提倡的遊戲化編程。 Alan還打趣的表示，今年很遺憾沒能去到聖何塞感受一下編程比賽的氛圍。不過自己能夠獲獎就已經很開心了。不過好消息是，蘋果公司高層已經表示，他們可能會邀請今年的獲獎者明年一同去往聖何塞。

大數據

起底滴滴數據科學團隊：面對超複雜線下場景，要數據驅動，但拒絕“唯數據論”

click / 2021-10-23

面對疫情這樣的重大社會事件，數據科學團隊能做什麼？ 16萬、37987名、1500萬公里，這是滴滴數據科學團隊在醫護車隊項目中交出的答卷。臘月二十九武漢“封城”，大量醫護人員出行不便，滴滴隨即組建醫護保障車隊，為醫護人員免費提供出行服務，除夕當晚，50輛車投入運營。如今，即使防疫進入常態化，但每次回想起春節期間的醫護車隊項目，滴滴數據科學與智能部高級數據科學總監李偉健還是充滿了感慨。 3個多月的時間裡，共有300多名司機加入武漢醫護車隊，累計為武漢16家醫院近2萬名醫護人員提供了近50萬單服務。而在全國15座城市，共近16萬名司機自願報名加入滴滴醫護車隊，總計服務37987名醫務工作者，行駛總里程超過1500萬公里。能夠在短時間內組織運營醫護車隊，除了高效的線下能力，滴滴多年來積累的出行數據和團隊用數據解決問題的經驗也很關鍵。李偉健介紹道，醫護車隊上線初期主要依靠工作人員手動匹配，為了提高發單效率，滴滴緊急為醫護人員研發了線上產品，第二天，武漢醫護人員就可以在APP線上發單。滴滴數據科學與智能部也在第一時間加入，在訂單級別從數據角度針對醫護人員的用車規律和出行場景進行實時分析。比如，他們發現，早上七點是醫務人員的上下班高峰，很多醫生下班後不會回家，而是前往酒店等。除此之外，對出行高峰、出行熱區等的預判，也能有效幫助業務團隊提前對司機進行調度，更高效地保障醫護人員的出行。整個春節，李偉健都在和同事一起，在相對較小樣本的環境下輸出了大量分析結果，有效地支撐著醫護車隊項目決策的快速迭代。滴滴線下防疫點工作人員在對車輛進行消毒海量數據背後，是滴滴數據科學體系的支持和承接，在大數據文摘採訪幾位負責人的過程中，隱藏在滴滴的數據基因也逐漸顯露出來。數據體系團隊四大模塊，助力業務可持續發展作為一家老牌互聯網公司，數據思維一直貫穿著滴滴各項業務的發展。早在出租車時代的各項服務中，滴滴的數據思維就已經顯現，以司乘規模、供需匹配等交易環節為中心，數據分析評估已經覆蓋到了體驗、司乘生態、城市交通安全等眾多場景。 2017年，滴滴正式組建數據科學部，他們的目標是用數據為滴滴的運營和產品提供洞見，幫助業務在快速的迭代中科學決策，實現“數據驅動”，一方面要重視數據積累，另一方面也要辯證地看待和使用數據。這對滴滴數據科學團隊的後續發展也起到了一定的影響，在數據科學團隊內部，奉行著這樣一條不成文的規律，先找準業務中最需要利用數據的模塊，在這些領域中體現出數據價值後，再將數據決策擴展到其他業務模塊上去。也正是秉承著這樣的傳統，滴滴的數據科學家們也天然地和業務部門很是親近。據滴滴技術副總裁、數據科學與智能部的負責人賴春波介紹道，滴滴的數據體系分為四大模塊，大數據架構、數據平臺、數據治理、數據科學。在職位劃分中，下面三大模塊多為工程師、產品經理、數據開發工程師，數據科學分為數據分析師和數據科學家，他們數量最多，以“嵌入式”的方式，分佈在不同的業務部門中。其中，數據科學團隊，需要在業務形態中實現廣泛的運營智能、產品智能和決策智能，助力業務可持續發展。數據科學：通過系統的數據挖掘和主動深入的業務分析, 看清業務發展方向和要素，提出策略建議，幫助業務實現用戶價值與商業價值；並通過科學的實驗設計和評估，輔助管理層更快更準確地進行業務決策，保證決策質量；數據治理（DG）：通過系統、管理流程、意識提升等手段，體系化治理全公司數據資產，向前賦能，提高數據使用效率，發揮數據生產力；數據平臺（DP）: 通過工具產品，向前提升生產效率、可靠性和可擴展性；大數據架構（Dinf）: 構建穩定可靠、低成本、高性能的大數據基礎設施，賦能業務。 2017年首份《頂級數據團隊建設全景報告》調研瞭解，頂級數據團隊一般具有相似的特徵：所在組織或機構數據驅動戰略明確，數據團隊運作高效；高層需要設置清晰的數據團隊建設目標並將數據納入決策流程；數據團隊的高效運作則需要優秀的團隊領導、合理的組織架構和多樣化的人才。

大數據

開源軟件脫險！Linux硬核迴應美實體清單：已開源軟件屬於全人類，不受制於EAR

click / 2021-10-23

開源技術會被美國管制嗎？這應該是一年來中國技術從業者最關心的問題。隨著中美關係日益緊張，技術圈也受到波及，前兩週，國商務部將哈工大、北航等33家機構納入實體清單，也就是說，凡是在實體清單以內的公司以及機構，如果沒有獲得美國政府的具體批准，將無法使用含有美國技術的產品，之後，Matlab已經被禁止在這些高校使用了。此舉曾引發全民熱議。美國技術輸出，特別是開源軟件目前是國內很多公司主流軟件產品的基石。特別是在大數據領域，基本上所有的數據庫產品，都繞不過使用 MariaDB 、PostgreSQL 和 MongoDB 這一類開源數據庫軟件的核心代碼。去年，美國商務部把包括華為在內的一些技術公司列入了用來管制的 “ 實體清單 ”。實體清單（Entity List），是美國為維護其國家安全利益，設立的出口管制條例。進入該清單的機構、企業和個人，將被剝奪在美國從事貿易的機會。開源技術不受限，程序員們可以鬆口氣了一方面嚴格控制中國企業進入美國市場，另一方面美國還持續擴大《美國出口管理條例》的管轄範圍。《美國出口管理條例》（Export Administration Regulations, EAR）是美國在物項和行為的出口管制方面最為關鍵的法規之一，近年來，其管轄範圍隨著EAR的修改而不斷擴大，管控力度逐步向高新技術領域傾斜。

大數據

“數據科學家”或許不再性感，但“數據團隊”的產業化才剛開始 | 專訪領英全球數據科學團隊負責人

click / 2021-10-23

定下“頂級數據科學團隊”這個研究話題時，我們第一時間想到了領英（LinkedIn）。 2008年，正是在這家公司，DJ Patil建立了全球首個真正意義上的“數據科學團隊”，並開始用“數據科學家”（Data Scientist）這個詞來描述這些Data man們的工作性質。在這之後，“數據科學家”開始被譽為21世紀最性感的工作，也成為全球技術精英們近年來最理想的職位之一。儘管已經過去了十多年，但當我們請領英全球數據科學團隊負責人許亞給數據科學團隊下個定義時，她還是表示，這不容易。領英全球數據科學團隊負責人許亞的確，儘管數據科學在學術領域的概念50多年前就有了，但作為職業，相比業內更多成熟的團隊和路徑，這依然是個相對很新的概念。不同公司和團隊領導人對於“數據科學團隊”的定義範疇大相徑庭：從時間維度來看，當年研發出Hadoop、Kafka的人會稱自己是數據科學家，但是現在這些大數據底層技術都變成了偏基礎設施的內容，在狹義概念上，已經不再屬於數據科學團隊的範圍；隨著這個領域囊括的範圍越來越多樣，數據對於每家公司的重要性也都只增不減，數據科學的“嵌入”性越來越高、邊界也越來越模糊。儘管如此，談及領英這些年“數據科學團隊”的定位和建設，許亞依然有自己非常清晰的思考。 “對於領英來說，數據科學團隊的整體趨勢更加走向專業化，他們的職責不再是建立數據基礎設施或平臺，而是怎樣去使用數據科學和工程來最大化數據的價值。” 這是許亞對數據科學團隊任務的要求。那麼到底如何讓數據的價值最大化呢？從團隊運作方式、商業影響力設定和社會責任等角度，許亞給出了領英的答案。 “嵌入式工作，中心化管理”，數據科學團隊更加“專業化”、“工程化” 和多數互聯網公司一樣，領英的數據科學團隊規模也在近幾年飛速增長。許亞表示，僅是近兩年來，領英的數據團隊擴張了近一倍，從150人增加到目前的300多人。許亞提到的數據團隊是指領英中心化的數據科學部門。如果用一句話來概括領英的中心數據科學團隊的運作方式，那就是“嵌入式工作，中心化管理”。和國內不少互聯網公司將數據分析師歸屬於業務BU、向業務主管彙報不同，領英的數據科學團隊成員由許亞的中心部門統籌。雖然在項目工作上，數據科學家們依然會在工位分佈和職能上與業務部門緊密聯繫，但是從職級從屬上，都直接向許亞彙報，不同領域的數據科學家在工作中會有交集，還會一起開會。其實領英的數據科學團隊的設置也不是一開始就如此，隨著領英數據科學團隊定位的變化，數據科學團隊也從最初的產品組，移到了現在的工程大組。