Palantir的起源
Palantir曾被稱為是美國最神祕的創業公司,因為它的客戶中包括了美國的CIA和FBI等情報部門和反恐機構。非政府客戶中包括了摩根大通、美國銀行、美國證券交易委員會等金融機構。目前Palantir估值在410億美金,預計明年IPO上市。這樣一家明星公司是和大數據相關的,並且通過大數據幫助政府進行安防以及反欺詐的分析。
在2001年11月2日,安然公司宣告破產,這起美國歷史上最大的倒閉事件震驚全球。同時,安然留下的30萬封電子郵件,成為了當時最大規模的公開司法信息數據庫。Palantir通過數據整合,對電子郵件進行自然語義分析,發現近千條郵件提及到Mariner公司,並通過關聯挖掘發現安然CEO David對Mariner公司的公允價值計算虛假高估,同時通過關聯計算髮現David郵件中的人員,有很多人在Mariner公司擔任要職。
在美國安防領域Palantir也扮演了重要的情報分析角色,此前美國政府追捕本拉登行動中,CIA正是依靠Palantir的協助,才找到了本拉登的蹤跡。如今Palantir軟件已經遍佈美國的警務市場,在加州洛杉磯警察局,每天使用Palantir進行辦公已經成為了必備的工具。當然Palantir成立的起因並不是針對警務市場,而是創始人Peter Thiel在早期創業中遇到的實際問題。
Peter Thiel是硅谷創業之父,也是Paypal的聯合創始人,2002年Paypal被eBay收購,他轉變成為投資人,投資了包括:Facebook,LinkedIn,Yelp,Quora等知名互聯網公司。
在Palantir成立之前,Paypal曾經深受欺詐問題的困擾。很多犯罪分子通過Paypal進行洗錢。為了防止可疑的資金轉移,Paypal工程師開發了一套軟件對交易進行一一排查。通過匹配用戶過去的交易記錄,以及正在進行的資金轉移來查找可疑的賬戶行為並進行凍結,避免了數千萬美元的損失。而在Paypal被eBay收購之後,Peter Thiel想到這一反欺詐工具可以為政府提供服務。於是Peter Thiel創立了Palantir,目前為止70%員工是研發人員。這個名字也是他起的,名字來源於《指環王》,它是一個可以穿越時空看到一切的水晶球。
Palantir的業務邏輯
Palantir最早的業務邏輯來在於PayPal的反欺詐系統。這為Palantir平臺奠定了基礎,它可以把人工業務邏輯和強大的數據引擎完美的結合起來。Palantir不僅可以同時處理多種數據來源,並且可以允許用戶通過多種方式快速瀏覽,查找和分析自己想要的信息。當然,Palantir對各種安全問題高度敏感。
在我看來,Palantir是基於知識圖譜技術,提供了數據集成、搜索、知識管理、協作、發現五大板塊的大數據分析平臺。知識圖譜是個非常有用的技術,它可以將數據轉化為信息,進一步處理加工為知識,最後通過更高級別的綜合和預測能力轉化為智慧,對知識進行具體的應用。
基於知識圖譜,Palantir提供了以下的五大支柱能力,我來一一給你講解下:
數據集成:
Palantir提供了許多方法來從不同的數據源中獲取數據,並且可以基於語義網(Ontology)來創建實體
搜索:
Palantir為分析師提供了多種搜索機制,使他們能夠找到匹配的數據,並且挖掘出數據間的關係,從而發揮數據的價值。最令人印象深刻的是它的環形檢索(Search Around),其中最常用最重要的是快速### 搜索(Quick Search)
當然這一切的基礎是需要一個很好的本體。Palantir提供了生成複雜的搜索查詢(布爾邏輯,變音位,模糊值)的能力,同時無需瞭解複雜的查詢語法。
知識管理:
Palantir的所有數據都可以根據其授權級別賦權給其他用戶。
協作:
Palantir允許分析師在私人調查中開始調查,也可以將調查結果共享給其他用戶。同樣,分析師可以選擇接受其他用戶的更新,以便進一步開展工作。
發現:
反欺詐是許多企業面臨的共性需求,在Palantir中通過尋找趨勢的算法來進行聚類預測。
這五大支柱都是Palantir的技術支柱,在實際應用過程中,需求往往是個性化的,包括案件的內容以及破案的邏輯,因此需要人類智慧和大數據產品的結合。我們可以用這個流程圖代表大數據運作的基本原理。首先需要有數據,這裡就需要有數據採集、清洗、集成。然後是建模,建模是高度依賴於任務的,因此也是依賴於人的經驗總結,比如犯罪分子可能存在的行為特徵。最後指導任務的完成,這個過程,當我們把各種數據集成,建立各種模型後,就可以自動化的執行任務。當然我們知道,需求非常多樣化,因此也需要多樣化的任務處理模型,來處理不同的任務。而且任務和任務之間往往是有關聯的。Palantir是個非常龐大複雜的系統,但是基本原理也離不開下面的流程圖。這個是拆分成最小任務單元的流程圖。
Palantir是如何使用知識圖譜進行破案的?
知識圖譜技術可以讓我們從完成從數據端到智慧端的過程,具體實現途徑如下圖所示。
在數據端,一般數據量巨大,我們採用分佈式數據採集系統,可以支持文檔、網頁、視頻、傳感器等採集的數據,先進行清洗存儲,輸出為基礎數據。
在信息端,我們對數據進行語義處理,比如特徵提取、事件識別、文本挖掘等,然後通過實體識別、角色識別、關係識別輸出語義結構化數據。
在知識端,我們對知識進行建模,需要對本體進行建模、映射、存儲,構建知識體系,輸出知識庫。
在智慧端,我們需要業務規則,包括進行圖分析等計算,最後轉化為人機可視化的交互方式方便用戶進行可視化關聯分析、問答、語義搜索等。
我們以Palantir介入安然破產的數據分析案例為例。首先Palantir面臨的問題是:安然公司破產,指控其CEO(David Delaney)與Mariner公司發生內幕交易,缺乏證據。
在數據層:司法將安然內部的30萬封郵件進行了公開
在信息層:Palantir需要對文本進行分類,實體抽取,事件抽取,並對文本中的角色、關係進行識別。發現郵件中指導的人員都是在哪個公司擔任什麼樣的角色。並且對郵件中提到的內容及事件進行識別。
在知識層,Palantir可以發現有近千條提及Mariner公司的郵件中,David發出的3封郵件對其公允價值進行計算。並通過進一步的關聯挖掘,得到相應的知識:
1)David對Mariner公司的公允價值計算虛假高估
2)郵件發出的時間 vs. David出售Mariner公司股票時間同軸匹配
3)全部郵件中的人名抽取,關聯分析David關聯人員
在智慧層,綜合以上的知識,可以得出:
1)David 發出虛估Mariner公司公允價值的郵件時間節點與其出售該公司股票的時間吻合
2)David郵件關聯人員中,有多人在Mariner公司重要部門擔任要職
做別人不擅長的,並提供更高的價值
現如今Palanti公司總共擁有兩大產品線:Palantir Gotham和Palantir Metropolis,分別應用於國防安全與金融領域。我們能看出來,這兩個產品的邏輯都是大數據VS反欺詐。
首先數據量巨大,整個美國國土的數據,以及線上互聯網的公開數據,以及各個渠道可以收集上來的數據都是Palantir的數據源。這樣的數據體量基本上是其他機構沒法獲得,也無法處理的。另外Palantir讓人們記住的還是他能做別人做不來的業務,比如分析出安然CEO的交易內部,本拉登的蹤跡,包括給各大銀行提供用戶反欺詐行為分析。
當然這個過程也不是一蹴而就的,Palantir成立於2004年,到了到了2008 年,也就是公司成立四年後,美國情報機構依然是 Palantir 的唯一客戶。但情報機構的使用,最終成為了 Palantir 進入其它市場的“門票”。賣給政府要花的時間更多,整個流程很長,但是一旦成功切入,你就獲得了非常有價值的客戶。而得到 CIA的背書,大銀行就會非常願意與Palantir合作。
這個漫長的過程,就好比Palantir做大數據收集和分析一樣,不僅僅是個技術活,還是個長期的工作。在長期積累這件事上,Palantir就已經打敗了其他競爭對手,提供了其他公司無法提供的價值,因此也在市場上具有更高的定價權。使用Palantir軟件的費用在500萬到1000萬美金不等,需要預付20%,在使用滿意後再付尾款。並且Palantir是一家沒有市場、沒有公關沒有銷售團隊的公司。這對現在競爭激烈的市場來說,是非常神奇和難得的。