在大數據這個詞出現之前,我們對日常數據的這種處理和分析,常常使用的一些類似SQL server、MySQL、Oracle等等這些關係數據庫,傳統的這些數據庫處理T級別數據量已經是這些數據庫的極限,面對這種P級和E級的數據量,基本上是無能為力。
一直到2005年,提供大數據基礎能力的Hadoop項目出來,從技術層面上搭建了一個對非結構化和複雜數據快速可靠分析,變為現實的一個技術平臺,從這個時候開始,大數據才成為互聯網信息科技裡高頻的熱詞;
不管我們是不是大數據的專業人士,在這個信息時代,我們都要了解一些大數據的概念,小到店家,大到國家都在講大數據,不過真正搞清楚什麼是大數據的人,還不是太多;
對於大數據的概念,我們引用世界著名諮詢公司麥肯錫對它的描述:
大數據是什麼?
麥肯錫的定義:“一種規模大到在獲取、存儲、管理、分析方面大大超出了傳統數據庫軟件工具能力範圍的數據集合,具有4V特徵”
4V是什麼?
Volume海量的規模;
Velocity快速的流轉
Variety多樣的類型
Value低密度的價值
戰略是我們工作的指導,一定有正確的戰略才能做戰術上的執行,戰略錯了,那麼一切戰術都是等於0,這裡總結了大數據的6大戰略;
先了解所在企業的背景狀況:比如企業是民企、國企還是上市公司,規模有多大,有多少員工,大數據僅僅是錦上添花還是已經具體的發揮了它的價值;在決策企業是否上大數據項目的時候,以及投入多少的問題上,這些問題都需要考慮清楚的;
就是企業什麼時候開始投入大數據建設
是自建IDC數據中心、自建私有云,還是選擇阿里雲(騰訊雲等等)共有云這個平臺
就是我們先選擇搭建一個平臺還是先實施一個應用的問題。
一個原則:離錢越近,越要早做;
關於數據是否可再生的問題:就是如何採集數據、如何存儲數據、數據是怎樣應用的,數據安全,用戶隱私安全問題的保障;
無論從幫助企業營銷還是提高效率來看,節約企業成本這個角度來看,大數據有非常大的價值,大數據做好了,可以推動企業的業務突飛猛進的增長;要實現這個大數據的價值,真正讓大數據為企業創造貢獻,那我們首先要積累有大數據,把日常業務和用戶的行為數據收集起來,我們前面說過,有些數據是可再生資源,但更多的是不可再生資源,這就需要我們管理好我們的數據資產,去搭建一個數據平臺,負責數據的採集,規整、運算、存儲、應用、展現等等;
-運維平臺
-數據採集平臺
-大數據分析平臺
-產品應用平臺
運維平臺主要負責大數據平臺的業務調度、任務監控、元數據管理、權限管理等等,主要由圖中所示的系統組成的;二個是數據採集平臺,主要負責把數據採集到大數據倉庫平臺當中,企業這種大數據來源,主要從三個方面去獲取數據,從業務系統、日誌採集系統、外部數據來源採集,每一個方面的來源又包含幾個途徑,如圖所示;
大數據基礎平臺,傳統的也叫大數據倉庫平臺,這部分是整個大數據平臺的核心;
下面是大數據門戶,是集成數據成果一體化的平臺,包括大數據分析平臺,和大數據應用平臺;大數據門戶,作為整個大數據的窗口,所有的數據研究成果,都會展現在這個數據門戶當中,這樣就極大的方便了公司職能人員使用數據;
用戶服務:使用數據的人主要包括管理人員、分析人員、運營人員、產品經理、技術工程師還有企業投資的相關方,或公司對外的數據服務,我們是通過API接口體現出來;
大數據基礎平臺,是整個大數據平臺的核心,是企業大數據加工、計算、存儲的場所,原本非常凌亂的各種各樣來源的數據,進入基礎平臺之後,都會按照一定的標準,一定的規範化進行存儲,處理起來,大數據基礎平臺有三個核心技術點,第一個是主題模型,第二個是層次模型,第三個是計算模型,下面會給大家一些簡單的介紹;
主體模型詳細附件圖表
主體模型設計的注意事項:
大主題可以有若干的子主題構成
主題之間不要有交叉,相同特徵的要放在同一個主題當中;
主體要充分的覆蓋,能夠覆蓋到企業所有的業務,能夠支持所有的應用和分析的需求
層次模型通常由4個層次組成,如下圖:
功能是存放從業務系統之間抽取過來的數據,數據從數據結構,從數據這種邏輯關係上面,都與業務系統基本上是保持一致的,這裡實現了透視字段一些固化的處理,像會員註冊,註冊時間,還有一些少量的基本的數據清洗,比如髒數據的一些過濾,維度的一些處理等等,最終生成了這種增量的數據
該層的主要功能,是基於主題域的劃分來完成數據整合的,提供統一的數據的基礎平臺,在這個層級當中,我們會完成數據的清洗、定義的分類等等的一些功能;
面向應用的,統一的應用接口訪問平臺,客戶統一視圖都在這一層級實現,該層級的重點就在於實現跨主題域的這種數據的關聯計算;在實踐當中,會涉及兩類模型,一類是為了獲取數據更容易,我們會製造一些反規範化的主題模型,我們常常看到的這種寬表模型,另一類就是為了我們實現快速的查詢,分析而建立起來的這種比較規範式的多維分析模型,它是由多個維表進行組成的;
提供差異化的數據服務,以滿足業務方的需求,這一層級我們可以實現一些報表,數據挖掘、產品應用等等需求;
在傳統的數據庫時代,ADL層主要在RAC(ORACLE真正應用集群)中實現的,在大數據時代裡,我們通常會用hbase這一層的數據的存儲;
我們在工作中,為了降低維度大數據平臺的負責度,我們通常把4層壓縮到3層,我們通常把ODL層和BDL層進行合併,原來分別在這兩層當中實現的一些事情,我們合併到一層裡面去實現;如下圖所示:
企業大數據門戶,是企業應用的集成一體化的平臺,大數據門戶,作為企業服務的窗口,除了數據研究成果外,都會展現在大數據門戶中,從而極大的方便了我們企業個只能人員使用、利用這個數據;
企業大數據門戶包含:
主要由精準營銷、個性化推薦等等
負責業務數據的可視化展現,智能報表,臨時取數的分析,還有多維數據分析的一些模型,比如用戶畫像、業務關鍵指標監控,還有數據挖掘模型的一些監控等等。