大數據

【乾貨】RFM分析與客戶聚類

我們諮詢界的前輩傑弗裡摩爾在上世紀就說過:“離開大數據分析的企業又聾又瞎,就像誤入高速的麋鹿,在發展路上迷失了方向”。早在2005年,《市場研究雜誌》(Journal of Marketing Research)就提出了RFM和CLV模型,其中RFM所代表的Recency(最近一次消費)、Frequency(消費頻率)和Monetary(消費金額)至今仍被廣泛認為是客戶數據分析最好的指標。

在這之前,市場分析人員總是拍腦袋來創建客戶分類,比如根據消費偏好,購買力等,但這會帶來兩個問題,首先是時效性問題,我們不清楚什麼時候之前的分類結果需要刷新;其次是完整性問題,如果客戶無法落入之前的任何一個分類中需要如何處理,重構數據模型的代價是巨大的。

儘管市場法則遵循二八定律,20%的核心客戶可以不問緣由地為你的商品買單,但是對於RFM分類後的其他客戶,就算他們目前沒有貢獻多大利潤,為了避免他們快速成為競爭對手的核心客戶,任何企業都會想辦法爭取一下。

1.png

根據RFM分類,針對不同的客群需要匹配不同的營銷策略,譬如價格敏感用戶,他們對商品打折更感興趣,可以通過提高訂單淨值(AOV),例如買二送一來獲取更大利益;再譬如潛在忠實用戶,可以對其擴大品牌宣傳,施以影響力來打動用戶。

2.png

咱們既然是個技術公眾號,那就必須要聊點乾貨,我們知道數據科學家60%-90%的時間在做數據清洗工作,因此在對於客戶數據的學習建模也可以大致分為以下五個步驟:

  • 發現客戶相關數據:包括行為數據和統計數據,有時候我們單看行為數據往往不能洞察客戶的真實購買力(需要結合統計數據中的收入),融合這兩類數據才能更好地分析出客戶的特徵。

3.jpg

  • 關聯、過濾、轉置並清洗數據:這就是前面說的數據科學家最頭痛的一步,在一堆海量數據中提取特徵,然後歸一化以便之後的算法模型可以運算分析。
  • 數據彙總:將特種工程、歸一化後的數據導入到數據開發環境。
  • 分析數據:建立匹配業務場景的數據模型,對歷史數據進行學習,調整模型參數。
  • 行為觀測:在現實環境中對模型持續優化。

完成上述五項工程後,我們最終獲得了客戶畫像,這是一幅沒有“畫像”的畫像,包括個人消費傾向、性格特點、興趣愛好等等。這類評價大多是可量化的,例如外向型、消費衝動型都會用相應的分值表示。
4.png

以人們喜歡的借閱DVD為例,舉這個例子是因為Github上有現成的樣例數據庫(https://github.com/priyank-purohit/PostGUI),樣例包含了不同人群的類型偏好、單次借閱量和開銷等信息。以下是這個樣例數據庫的ER圖。
5.png
在配置環境變量階段,我們加載兩個通用的評分模型:CH評分和Silhouette評分。兩者都是基於K鄰域算法
6.png

然後針對上面所提到的歸一化,我們需要將所有字符串類型的轉換為數值型,例如區域需要將原來的主數據轉換成元數據,比如將原先的居住城市(北京、上海、東京、倫敦等)轉換為新的屬性字段(“是否居住在北京?”,“是否居住在上海?”,“是否居住在東京?”,“是否居住在倫敦?”等),而用1和0表示目標用戶是否住在此。

憑藉對不同維度數據的加總統計,我們可以獲得每個用戶借閱量的信息。
7.png

以及每個用戶最愛的DVD名和分類

8.png
結合單片的價格,以及對群體樣本的統計分析,可以得出客戶消費週期的價值總覽。
9.png

紅框圈出的部分就是為公司創造80%價值的核心/VIP客戶,如何服務好這個人群,使其價值最大化無疑需要繼續深度個性化,回到他們每個人的樣本進行研究分析,而其他用戶可能並不值得公司進行1對1服務,群組定製化就足夠了。

群體統計有好多種分類算法,除了上面說到的K鄰域算法外,還有聚合分群(Agglomerative Clustering)和聚類分群(Birch Clustering)。
10.png
基於上述分類,當有新樣本入庫時,我們可以為新樣本分群的置信度進行打分,以Silhouette評分為例,我們可以看到這個分類算法對於新樣本的類別劃分的可行度並不高(Silhouette分數越高越可信),可能都處在現有群族的交界位置,因此我們可能需要重新考慮適用的分類算法。
11.png
最後,從實際操作上來講,任何一個標籤都需要賦予一個業務加權值。例如我們可能認為用戶是否是本國居民對於他喜歡哪類DVD沒有太大影響,相反用戶有多少空閒時間會影響他對DVD的偏好。
12.png

最後的最後,客戶對於營銷方式可能也是有偏好的,比如有些客戶喜歡圖文推送,有些客戶喜歡電話交流,這也是在後期具體操作的時候需要考量的因素。

Leave a Reply

Your email address will not be published. Required fields are marked *