點擊查看更多ICBU風控算法相關內容 >> ICBU風控算法專題 ,【訂閱專題】第一時間get最新內容。
ICBU風控算法專題,包含如下內容:
1、數據分析思維及其意義:馬老師說數據是新時代的能源,充分理解數據可以幫忙我們由需求交付向價值交付的轉變。
2、如何基於數據和算法驅動解決問題:通過數據和算法賦能業務,其中廣告點擊反作弊paper被WWW 2021 workshop錄用;商品負向治理每天新增1162個AB,504個支付買家。
3、ICBU反作弊技術體系:全面介紹我們是如何解決ICBU各個業務域的作弊問題的,保障平臺生態健康發展、買家和賣家的體驗、對平臺的信任。
4、 ICBU廣告點擊反作弊實踐:深度剖析廣告點擊反作弊的各類問題,paper被WWW 2021 workshop收錄,曾受邀在阿里技術公眾號發表
5、多視角異常檢測,多個視角全方位介紹常用異常檢測方法,曾受邀在阿里技術公眾號發表,英文版也受邀在阿里雲國際社區發表
1、數據分析的意義
現代管理學之父德魯克曾說“You cannot impove it if you cannot measure it”。也就是說我們需要先找到一個衡量業務效果的指標,才能去優化業務效果,比如:PV、UV、CTR。
Google的數字營銷傳播者Avinash Kaushik曾說“All data in aggregate is crap”,即“彙總的所有數據都是廢話”,我理解他想說的是彙總的數據掩蓋了很多問題,即我們需要下鑽分析數據指標,以理解指標的各種取值或者趨勢背後的真正原因(特別是指標取值或者趨勢異常時),以便於優化指標。
早在2014年,馬老師就提出“人類正從IT時代走向DT時代,數據技術時代(Data technology),商業社會將以數據為核心和內在驅動力,推動社會發展的不再是對自然資源的利用(如石油、天然氣等),而是以雲計算、大數據為導向的技術革新,數據資源將會是眾多利益集團必爭的戰略性資源之一,數據資源的理解和使用將影響著農業、工業、第三產業的高層級變革”。
逍遙子說“阿里最大的圖是以數據為驅動的經濟體,所有的戰略佈局和對自己的認識,都回到一個本原,就是兩個字‘數據’。進入到數字戰爭、進入到信息戰,一定是‘運籌帷幄、決勝千里’。前面的小部隊很精銳,能夠接觸到炮火,看到動向,通過數據化、信息化、智能化,把情報傳到中樞大腦,由中樞大腦運籌帷幄以後,‘指哪打哪’,而不是‘打哪兒指哪兒’”。
今天的互聯網滲透率高,人口紅利越來越少,業務進入深水區,需要通過深入分析和理解業務數據,才能實現高質量增長。
ICBU技術部賈讓提出要從需求交付向價值交付轉變,需要先理解數據和業務,然後數據和算法賦能業務。
2、常用分析方法
2.1、什麼是分析方法?
面對問題,通常的想法是零散的。分析方法就是“能將零散的想法整理成有條理的分析思路”的方法。如下圖所示。掌握了分析方法就能快速洞察數據背後的本質原因,以快速精準定位問題。
2.2、宏觀戰略分析
常用戰略分析分析方法有PEST、SWOT和波特五力模型。
2.2.1、PEST
PEST分析是指宏觀環境的分析,P是政治(politics),E是經濟(economy),S是社會(society),T是技術(technology)。在分析一個企業集團所處的背景的時候,通常是通過這四個因素來分析企業集團所面臨的狀況。
2.2.2、SWOT
SWOT即基於內外部競爭環境和競爭條件下的態勢分析,可以對研究對象所處的情景進行全面、系統、準確的研究。分析角度:優勢(Strengths)、劣勢(Weaknesses)、機會(Opportunities)和威脅(Threats)。
2.2.3、波特五力
波特五力即行業中存在著決定競爭規模和程度的五種力量,這五種力量綜合起來影響著產業的吸引力以及現有企業的競爭戰略決策。五種力量分別為同行業內現有競爭者的競爭能力、潛在競爭者進入的能力、替代品的替代能力、供應商的討價還價能力與購買者的議價能力。
2.3、5W2H
5W2H分析法又叫七問分析法,是二戰中美國陸軍兵器修理部首創。簡單、方便,易於理解、使用,富有啟發意義,廣泛用於企業管理和技術活動,對於決策和執行性的活動措施也非常有幫助,也有助於彌補考慮問題的疏漏。
5W是指:what(是什麼)、when(何時)、where(何地)、why(為什麼)、who(是誰)。
2H是指:how(怎麼做)、how much(多少錢)。
2.4、微觀數據分析
由於業務數據指標往往是由多個微觀原因引起的,上面的方法難以定位這類問題(如“訂單量為什麼下降”)的根本原因,這時候就需要運用其他微觀數據分析方法。
2.4.1、邏輯樹分析法
邏輯樹分析方法是把複雜問題拆解成若干個簡單的子問題,然後像樹枝那樣逐步展開。
費米問題是在科學研究中用來做量綱分析、估算和清晰地驗證一個假設的估算問題。例如:北京有多少輛特斯拉汽車?某衚衕口的煎餅攤一年能賣出多少個煎餅?深圳有多少個產品經理?一輛公交車裡能裝下多少個乒乓球?一個正常成年人有多少根頭髮?
回答費米問題,可以用到邏輯樹分析方法,將一個複雜的問題拆解成子問題,然後逐一解決。下面我們就用一個例子來學習下如何解決這類問題。
有人曾經問費米:“芝加哥有多少鋼琴調音師?”什麼是鋼琴調音師呢?為了保持鋼琴的音準,需要定期由專業人員檢查、調整不準確的音。從事這類工作的人被稱為鋼琴調音師。
對於這個問題,可以使用邏輯樹分析方法來拆解。鋼琴調音師數量=全部鋼琴調音師1年的總工作時間/一位調音師每年的工作時間。所以,可以把這個問題拆解為兩個子問題(如下圖):
(1)全部鋼琴調音師1年的總工作時間;
(2)一位調音師每年工作時間。
對於全部鋼琴調音師1年的總工作時間,又可以拆解成3個子問題(如下圖):
(1)有多少架鋼琴;
(2)鋼琴每年要調幾次音;
(3)調一次得多長時間。
現在我們一個個去解決這些子問題。
第1個子問題:有多少架鋼琴(如下圖)?
我們再把它拆分,首先需要知道芝加哥有多少人,其次需要知道擁有鋼琴的人所佔的比例。芝加哥的人口可以通過網絡查出來,大概有250萬人。有鋼琴的人佔的比例是多少?具體數據不知道,但是我們可以猜一下。鋼琴對普通家庭來說比較貴,而且鋼琴佔地較大,不方便放在家裡,所以我們猜家庭擁有鋼琴的比例是1%。為什麼是1%,不是5%呢?因為1%通常表示概率極低,有的機構擁有鋼琴數量比個人多,例如音樂學院,所以我們再猜個數字,大概是2%左右。有了這些數據,就可以算出芝加哥大概有5萬架鋼琴。
下面來看第2個和第3個子問題(如下圖)。
第2個子問題:鋼琴每年要調幾次音?鋼琴調音師屬於稀缺行業,人肯定不多,鋼琴也不像吉他需要頻繁地調音,估計是一年1次。
第3個子問題:調一次得多長時間?大概是2小時。
第4個子問題:一位調音師每年工作多長時間呢(如下圖)?
美國每年有四個星期是假期,一年大概有50個星期。按一週工作5天,每天8小時來算,這三個數相乘,就可以得到一位調音師每年工作時間是2000小時。
但是鋼琴調音師要四處跑,路上肯定要花時間,所以減去20%用在路上的時間,調音師每年大概工作1600(2000-2000×20%)小時。
現在我們把4個子問題彙總一下(如下圖)。
全部鋼琴調音師1年的總工作時間是3個子問題的數字相乘,一共是10萬小時,而調音師每年工作1600個小時,我們用全部鋼琴調音師1年的總工作時間,除以一位調音師每年工作時間,就得到了62.5。再四捨五入,費米預測芝加哥大概有63位調音師。
這個答案準不準呢?後來費米找到了一張芝加哥鋼琴調音師的名單,上面一共有83人,有不少人名還是重複的。所以費米估算出來的結果已經相當準了。
2.4.2、多維度拆解法
假設在每個醫院最近收治的1000例患者中,A醫院有900例患者存活。然而,B醫院只有800例患者存活(如下圖)。這樣看起來,A醫院的存活率更高,應該選擇A醫院。你的選擇真的是正確的嗎?
現在我們使用多維度拆解分析方法來看下。
光看患者整體時,我們可能注意不到“數據構成要素的差異”。現在根據患者的健康狀況,我們將每家醫院入院的總人數拆解為兩組,一組是輕症患者,一組是重症患者(如下圖)。然後我們再來計算患者存活率,會有什麼發現呢?
我們來比較A醫院和B醫院的重症患者組。
A醫院有100例患者入院時是重症患者,其中20例存活。
B醫院有400例患者入院時是重症患者,其中200例被救活了。
所以,對於重症患者,去B醫院的存活率更高,是更好的選擇(如下圖)。
那如果親人入院時是輕症患者呢?用同樣的方法分析,出人意料,輕症患者在B醫院的生存率也超過了A醫院的生存率,B醫院依舊是更好的選擇。
通過多維度拆解數據,我們發現了和一開始截然相反的結論,這種現象被稱為“辛普森悖論”(Simpson’s Paradox),也就是在有些情況下,考察數據整體和考察數據的不同部分,會得到相反的結論。
只看數據整體,我們可能注意不到“數據內部各個部分構成的差異”。如果忽略這種差異進行比較,就有可能導致無法察覺該差異所造成的影響。正如前面的案例,關注數據整體(入院的全部患者)和關注數據內部的不同部分(按健康狀態將患者拆解為兩組數據),就得到了不同的結論。
2.4.3、對比方法
2.4.3.1、什麼是對比方法
數據分析中,我們通過對比分析方法,來追蹤業務是否有問題。例如,我的CTR是4%,你說是高還是低?這個CTR有問題嗎?這時候,就需要用對比分析方法來追蹤業務是不是有問題。正所謂,沒有對比就沒有好壞。
心理學家給這種現象發明了一個術語叫作價格錨定,也就是通過和價格錨點對比,一些商品會賣得更好。
《經濟學人》是美國的暢銷經濟學雜誌,它做過一個訂閱實驗,給用戶以下3個選項進行選擇:
(1)只訂閱電子版,59美元一年;
(2)只訂閱紙質版,125美元一年;
(3)訂閱紙質版+電子版,125美元一年。
第2個選項和第3個選項的價格一樣,但是第3個選項提供的服務更多。
實驗結果顯示,只有16%的人選擇了第1個選項,有84%的人選了第3個選項,也就是有更多的人願意花更多的錢去訂閱雜誌(如下圖)。
如果把第2個選項去掉,對用戶有影響嗎?
去掉第2個選項,選擇125美元(原來的第3個選項)的用戶減少到了32%(如下圖)。
如果沒有之前第2個選項,用戶會和第1個選項對比,發現花125美元不划算。當有第2個選項的時候,用戶就會將比較對象換成第2個選項,這樣才能體現出第3個選項的優惠。
2.4.3.2、與誰比
和誰比一般分為兩種:與自己比,與行業比。
雷軍在小米上市之前做了一個公開承諾:“小米的硬件綜合淨利潤率永遠不會超過5%。如有超過的部分,將超出部分全部返還給用戶。”我們用對比分析方法來分析下這句話背後的真實含義。
(1)、與自己的歷史比
在小米的招股說明書中可以看到,小米2015年的硬件毛利率是-0.3%,2016年是3.4%。淨利潤率=毛利率-其他成本,所以再考慮上其他成本,小米和自己的歷史業績比,硬件淨利潤率肯定小於5%。
(2)、與行業比
遇到問題,想知道是行業趨勢還是自身原因,就可以和行業值對比。作為硬件行業的領頭羊海爾公司,在2017年淨利潤率是4.3%,也達不到5%。
所以,通過對比分析方法可以看出,硬件淨利潤率能達到5%的公司幾乎就沒有,所以雷軍這個承諾其實是一種經過數據分析得出的結論,既不會讓小米陷入無法實現承諾的困境,又可以在用戶心中留下“小米性價比高”的產品形象。
2.4.3.3、如何比較
一般從3個維度比較:數據整體的大小、數據整體的波動、趨勢變化。
(1)、數據整體的大小
某些指標可用來衡量整體數據的大小。常用的是平均值、中位數,或者某個業務指標。
(2)、數據整體的波動
標準差除以平均值得到的值叫作變異係數。變異係數可用來衡量整體數據的波動情況。
(3)、趨勢變化
趨勢變化是從時間維度來看數據隨著時間發生的變化。常用的方法是時間折線圖,環比和同比。
時間折線圖是以時間為橫軸、數據為縱軸繪製的折線圖。從時間折線圖上可以瞭解數據從過去到現在發生了哪些變化,還可以通過過去的變化預測未來的動向。
環比是和上一個時間段對比,用於觀察短期的數據集。例如某數據在2020年12月比2020年11月下降10%。
同比是與去年同一個時間段進行對比,用於觀察長期的數據集。例如某數據在2020年12月比2019年12月下降10%。
2.4.4、假設檢驗分析法
2.4.4.1、什麼是假設檢驗分析法
假設檢驗分析方法分為3步(如下圖):
(1)、提出假設
根據要解決的問題,提出假設。例如警察破案的時候會根據犯罪現場提出假設:這個人有可能是嫌疑人。
(2)、收集證據
通過收集證據來證明。例如警察通過收集嫌疑犯的犯罪數據,來作為證據。
(3)、得出結論
這裡的結論不是你主觀猜想出來的,而是依靠找到的證據得到的結論。例如警察不能主觀地去猜想,然後下結論說這個人是罪犯,而是要通過收集的數據(證據)來證明這個人是不是罪犯。
2.4.4.2、假設檢驗分析方法有什麼用
由於假設檢驗分析方法背後的原理是邏輯推理,所以學會這個方法以後,可以顯著提高我們的邏輯思維能力。
假設檢驗分析方法的另一個作用是可以分析問題發生的原因,也叫作歸因分析。例如是什麼原因導致活躍率下降、CTR下降、訂單量下降等。這類問題就是分析原因,通過找到問題發生的原因,才能根據原因制定對應的策略。
2.4.4.3、如何使用假設檢驗分析方法?
我們可以按用戶、產品、競品這3個維度提出假設(如下圖),來檢查提出的假設是否有遺漏。這3個維度分別對應公司的3個部門:用戶對應運營部,產品對應產品部,競品對應市場部。這3個維度有助於在發現問題原因以後,對應落實到具體部門上,有利於把問題說清楚。
從這3個維度,我們可以提出3種假設:
(1)、假設用戶有問題:可以從用戶來源渠道這個維度來拆解分析,或者畫出用戶使用產品的業務流程圖來分析原因;
(2)、假設產品有問題:可以研究這段時間銷售的產品是否符合用戶的需求;
(3)、假設是競品導致的問題:可以看競品是不是在搞什麼優惠活動,用戶跑到競爭對手那裡了。
我們還可以從4P營銷理論出發來提出假設。什麼是4P營銷理論呢?
4P營銷理論產生於20世紀60年代的美國,它是隨著營銷組合理論的提出而出現的。營銷組合實際上有幾十個要素,這些要素可以概括為4類:產品、價格、渠道、促銷。
(1)、產品:公司提供給目標市場的有形或無形產品,包括產品實體、品牌、包裝、樣式、服務、技術等;
(2)、價格:用戶購買產品時的價格,包括基本價格、折扣價格、付款期限及各種定價方法和定價技巧等;
(3)、渠道:產品從生產公司到消費用戶所經歷的銷售路徑。
(4)、促銷:是指企業利用各種方法刺激用戶消費,來促進銷售的增長。包括廣告、人員推銷、營業推廣等。例如買一送一、過節打折等。
為了尋找銷售業績下降的原因,可以利用4P營銷理論從4個維度提出假設(如下圖)。
4P營銷理論是從公司角度出發研究產品的。還可以從用戶角度出發去研究產品,也就是從用戶使用產品的業務流程來檢查提出的假設是否有遺漏。
例如,某線上店鋪最近給新會員的折扣券的領取率降低,原因是什麼呢?可以先畫出業務流程,根據業務流程,提出以下假設(如下圖):
假設1:進入店鋪的用戶減少?例如流量減少或者推廣引入了大量低質的用戶。
假設2:想領取會員卡的用戶減少?例如店鋪增設了不用領卡就能領取的其他折扣券,分散了用戶的注意力。
假設3:成為會員後,想領折扣券的用戶減少?例如折扣券需要達到某個門檻才能使用,門檻設置太高對用戶失去吸引力。
從業務流程提出假設,這裡其實是用到了我們之前講過的多維度拆解分析方法。
下面通過一個案例來看下如何使用假設檢驗分析方法來查找問題發生的原因。
解讀報表裡數據的波動是數據分析的基本功。下圖的表格是一家公司App的一週日活躍率,從數據中你看到了什麼問題?你覺得背後的原因是什麼?
下來怎麼分析呢?你可能會說,發現了一個問題,週六數據下降了。之前我們講到對比分析方法的時候,說到沒有對比,就沒有好壞。週六的數據和這週數據比較是下降了,那麼有沒有可能是這個App本身每週六就不活躍,因為週末放假大家想休息?所以,為了更好地對比分析,對於報表解讀問題,你還要分析前幾周的數據是怎樣的,這樣可以從整體上看出數據在一個較長時間範圍內是怎樣變化的。同時,可以看出數據變化是規律的,還是真的有問題。
通過和前幾週數據對比,發現這個App的規律是每週末的活躍率都有稍微的下降。但是這週六和前幾周的週六相比,下降更明顯。我們可以計算出前幾週週六的平均日活躍率,和這週六的日活率比較,假設發現本週六的日活率下降了5%。
所以,我們把問題明確為:本週六的日活率比前幾週週六的平均日活躍率下降了5%。那麼,本週六日活率為什麼突然下降了呢?如何查找問題發生的原因呢?這時候假設檢驗分析方法就派上用場了。
假設檢驗分析方法的第1步是提出假設。如何提出假設呢?我們可以使用前面講到的方法,從用戶、產品、競品這3個維度提出假設。
對於這個案例,問題是與前幾週週六相比,本週六的日活躍率下降了5%。我們提出了3個假設,為了驗證假設,我們需要收集證據。
對於假設1的用戶問題,我們需要從用戶數據中找出證據。
對於假設2的產品問題,我們需要從產品數據中找出證據。
對於假設3的競品問題,我們需要從競品數據中找出證據。
也就是說,要找什麼數據,是與你要驗證的假設有關係。根據第2步收集的證據,我們得出第3步的結論。
這張圖就像我們走路的地圖一樣,不管我們後面分析到哪裡,都可以從這張地圖上清楚地看到我們位於地圖的哪個位置。
我們先來看第1個假設:用戶有問題。
如果是用戶方面的問題,那我們可以找到對應的用戶數據。將活躍用戶數按渠道維度拆解,發現來自渠道B的活躍用戶數出現了明顯的下跌(這裡按渠道拆解,用到了我們之前講過的多維度拆解分析方法)。
最後可以得出結論,獲取用戶的渠道B有問題,從而導致了本週六的日活躍率下跌(如下圖)。
我們再來看第2個假設:產品有問題。
這時候就需要找相關部門瞭解情況,一起去排查問題了。例如,服務器是不是崩潰了?最近是否上線了產品新版本,其中新功能有問題?或者是沒有處理產品版本問題導致?甚至可以去問客服,最近是不是有大量投訴,投訴原因是什麼?還可以查看用戶對產品滿意度方面的數據。假設最後經過調查,產品沒有問題。
我們再來看假設3:日活躍率下降是競品問題導致的。
競品問題是指競爭對手有什麼大動作,例如競爭對手在搞活動促銷,用戶都跑到競爭對手那邊了。通過調研發現,競品最近沒有搞大的活動。最後得出結論:沒有競品問題。
整個分析思路如下圖所示:
那麼分析到這裡就結束了嗎?當然不是,我們需要多問幾個為什麼:為什麼渠道B的數據下跌了?這時候可以跟負責渠道推廣的同事瞭解情況,例如發現渠道B的投放活動在週六那天正好結束了,導致App的新用戶少了,從而導致了日活躍率下降。
綜上,假設檢驗分析方法有3個步驟:提出假設,收集證據,得出結論。得出結論以後,分析還沒有停止,要多問幾個為什麼,然後用數據去驗證可能的原因。不斷重複假設這個分析過程,直到找到問題的根源。
在假設檢驗裡面我們還要用到其他分析方法,例如剛才的案例在提出問題部分,使用了對比分析方法;在蒐集證據的過程中,使用了多維度拆解分析方法對用戶按渠道進行拆解。
2.4.5、相關分析
2.4.5.1、什麼是相關分析法
時候我們研究的問題只有一種數據,例如人的身高;但是,還有另外一些問題需要研究多種數據,例如身高和體重之間的關係。當我們研究兩種或者兩種以上的數據之間有什麼關係的時候,就要用到相關分析。如果兩種數據之間有關係,叫作有相關關係;如果兩種數據之間沒有關係,叫作沒有相關關係。
我們看一個例子。某個地區的用戶在搜索引擎裡搜的信息,和這個地區房價有什麼關係呢?
谷歌首席經濟學家哈爾·瓦里研究發現,如果更多人搜索“八成按揭貸款”,或者“漲幅”“漲價的速度”,這個地區的房價就會上漲;如果更多人搜索“快速賣房的流程”或者“按揭超過房價”,這個地區的房價就會下跌。也就是說,用戶在搜索引擎裡搜的信息和這個地區的房價有相關關係。
2.4.5.2、相關分析方法有什麼用?
相關分析的作用有以下三點:
(1)、在研究兩種或者兩種以上數據之間有什麼關係,或者某個事情受到其他因素影響的問題時,可以使用相關分析,以量化兩個量的相關性。例如,對於微信讀書這款產品,評估“想法”這個子模塊的用戶留存對整體產品留存的影響度。這時候就可以使用相關分析,研究子產品和整體產品有什麼關係。
(2)、在解決問題的過程中,相關分析可以幫助我們擴大思路和找到優先級,將視野從一種數據擴大到多種數據,擴展經驗之外的因素,另外就是找到問題後可以根據相關性找到各個影響因素的重要性,進而先解決相關性高的主要問題。舉個例子,在分析“為什麼銷量下降”的過程中,可以研究哪些因素和銷售量有關係,例如產品價格、售後服務等。使用相關分析,可以知道哪些因素影響銷量,哪些對銷量沒有影響,從而快速鎖定問題的原因。
(3)、相關分析通俗易懂。這在實際工作中很重要,因為數據分析的結果需要得到其他人的理解和認可,所以要方便大家溝通。很多分析方法看上去很高端,但是沒有相關知識的人不容易理解。而相關分析通俗易懂,你不需要向對方解釋什麼是“相關”的含義及分析結果的意義,對方也能夠理解。
2.4.5.3、相關係數的含義?
相關係數數值的正負可以反映兩種數據之間的相關方向,也就是說兩種數據在變化過程中是同方向變化,還是反方向變化。
相關係數的範圍是-1~1,-1、0和1這三個值是相關係數的極值(如下圖),下面解釋一下相關係數的3個極值。假如有兩種數據a和b,把這兩種數據畫在散點圖上,橫軸用來衡量數據a,縱軸用來衡量數據b。
如果相關係數=1,數據點都在一條直線上,表示兩種數據之間完全正相關,兩種數據是同方向變化。也就是數據a的值越大,數據b的值也會越大。
如果相關係數=-1,數據點都在一條直線上,表示兩種數據之間完全負相關,兩種數據是反方向變化。也就是數據a的值越大,數據b的值反而會越小。
如果相關係數=0,表明兩種數據之間不是線性相關,但有可能是其他方式的相關(例如曲線方式)。
如果相關係數>0,說明兩種數據是正相關,是同方向變化,也就是一種數據的值越大,另一種數據的值也會越大;如果相關係數<0,說明兩種數據是負相關,是反方向變化,也就是一種數據的值越大,另一種數據的值反而會越小,如下圖所示。
相關係數的數值大小可以表示兩種數據的相關程度,相關係數的絕對值越大,說明兩種數據的相關程度越高;相關係數數值的正負可以反映兩種數據之間的相關方向。
2.4.5.4、如何計算相關係數
其中,Cov(X,Y)為X與Y的協方差,Var[X]為X的方差,Var[Y]為Y的方差。
2.4.5.5、如何應用相關分析解決問題?
如下圖所示,通過假設檢驗我們找出了A、B、C這3個可能影響分析目標的原因。然後分別計算出A、B、C和“分析目標”的相關係數,通過觀察這些相關係數的大小,得知哪些因素對“分析目標”影響更大。公司資源有限,一個階段只能集中解決一個問題,通過相關分析,優先解決那些影響大的因素。
2.4.5.6、區別相關關係和因果關係
使用相關分析的注意事項:相關關係不等於因果關係。在使用的時候注意這一點,可以提高分析的質量。什麼是因果關係?因果關係的意思是A的發生會導致B,B的發生是因為A。
例如,學校和孩子的成功有相關關係,學校越好,這個學校的孩子將來也越成功。那麼,你能說學校和孩子成功有因果關係嗎?根據法國一個社會學研究結果,學校在一個人的成長過程當中只有15%的作用,它跟孩子的成長、成功只有相關關係。唯一和孩子成功成長有因果關係的是家庭。這裡家庭就是存在的第3方因素,家庭教育越好,孩子越成功。
何判斷兩種數據之間是相關關係,還是因果關係呢?可以使用“單變量控制法”,也就是控制其他因素不變,只改變其中一個因素,然後觀察這個因素對實驗結果的影響。例如,每天早上公雞一打鳴,太陽就會升起。如果我們把公雞殺掉,太陽還是會升起,完全不受公雞的影響。所以,“太陽升起”和“公雞打鳴”是相關關係,而不是因果關係。
2.4.6、群組分析
2.4.6.1、什麼是群組分析法
群組分析方法”(也叫同期群分析方法)是按某個特徵,將數據分為不同的組,然後比較各組的數據,說白了就是對數據分組然後來對比。比如按時間劃分新用戶、按職責劃分人群。
2.4.6.2、群組分析的作用
產品會隨著時間發佈新的版本,產品改版的效果如何?版本更新後用戶是增長了,還是流失了?像這類問題,就需要將用戶按時間分組,然後比較不同組的用戶留存率。所以,群組分析方法常用來分析用戶留存率(或者流失率)隨時間發生了哪些變化,然後找出用戶留下或者離開的原因。
留存問題中如何對用戶分組?通常是按用戶開始使用產品的月份來分組,例如用戶註冊的那個月或者第1次購買的那個月。
分組後,考察每組用戶的留存率隨著時間發生了哪些變化,例如1個月後留存率是多少,2個月後留存率是多少(如下圖)。對留存率高的用戶組,分析他們為什麼留存;對留存率低的用戶組,分析他們為什麼流失。
2.4.6.3、如何使用群組分析方法
視頻平臺的用戶是按月付費成為會員才能看某些電視劇。用戶可以在任意月份取消訂購,這類取消訂購的用戶就是流失用戶。為了分析用戶為什麼流失,我們可以使用群組分析方法。
下表是某視頻平臺的新增用戶數,表格的第1列“分組”是按新用戶註冊的月份分組,每一行是對應組之後各個月留存下來的用戶。
我們來看1月份組這一行,當月也就是1月份新增用戶數是150人,1個月後這個群裡有140人留存下來,2個月後這個群裡有130人留存下來。
2月份組這一行,當月也就是2月份新增用戶數是180人,1個月後這個群裡有172人留存下來,2個月後這個群裡有160人留存下來。
現在來計算這個表格裡的留存率。拿“1月份組”這一行來說,1個月後的留存率=留下的人數(140)/1月份組總人數(150)=93.33%,2個月後的留存率=留下的人數(130)/1月份組總人數(150)=86.67%。按照這樣的方法,可以把每一行的留存率計算出來,就得到了下表的數據。
當群組分析表格裡的數據較多,直接分析比較困難。這時可以把各個組的數據繪製成折線圖,這樣就可以很容易地發現數據隨時間發生了哪些變化。
把每個組的數據繪製成一條折線,橫軸是時間,縱軸是留存率,然後比較各個組的折線。因為9月份組和10月份組的數據很少,所以沒有繪製到圖上。從下圖中可以發現,當1、2、3月份組的折線趨於平穩時,4、5、6月份組的折線還在繼續下行。
上圖的折線太多,可以把1月份組和4月份組單獨拿出來比較,見下圖,可以看出兩組的留存率差別很大。
通過群組分析方法,我們發現留存率低的是4、5、6月份組。接下來就可以繼續分析為什麼這3個月的用戶留存率下降。例如,有可能是下面幾種原因:
(1)公司最近上線了新功能,但是這些新功能並不適合新用戶;
(2)公司最近推廣活動帶來了新用戶,但是公司的產品對這些新用戶沒有價值,導致用戶流失。
這時就可以使用前文的假設檢驗、相關分析等方法來進一步研究,找到問題發生的原因。
最後我們覆盤下用戶流失分析這個案例。第1步,使用群組分析方法,找到留存率低的組;第2步,分析為什麼這些組留存率低,可以使用假設檢驗、相關分析等方法進一步研究(如下圖)。
2.4.7、漏斗分析法
2.4.7.1、什麼是漏斗分析法
業務流程起點開始到最後目標完成的每個環節都會有用戶流失,因此需要一種分析方法來衡量業務流程每一步的轉化效率,漏斗分析方法就是這樣的分析方法。例如,在淘寶上一款商品的瀏覽量是300、點擊量是100、訂單量是20、支付量是10,在業務流程的每一步都有用戶流失,如下表所示。
環節轉化率=本環節用戶數/上一環節用戶數,是為了衡量相鄰業務環節的轉化情況。例如,上表的業務流程中第1環節是瀏覽,第2環節是點擊,那麼點擊環節的轉化率即為100(點擊用戶數)/300(瀏覽用戶數)=33%。
整體轉化率=某環節用戶數/第1環節用戶數,是為了衡量從第1環節到該環節為止總體的轉化情況。例如,上表的業務流程中第1環節是瀏覽,第4環節是支付,那麼支付環節的整體轉化率為10(支付用戶數)/300(瀏覽用戶數)=3%。
把上表做成下圖,就是常見的漏斗分析圖。因為它的形狀像漏斗,所以叫作“漏斗圖”。
2.4.7.2、漏斗分析法有什麼用
漏斗分析的作用是“定位問題節點”,即找到出問題的業務環節在哪。漏斗分析常用於用戶轉化分析或者用戶流失分析,所以漏斗分析中要關注兩個指標:用戶轉化率和用戶流失率。
經過各個業務環節轉化下來的用戶,會產生更大的價值。因為這部分用戶更加忠誠,更認可業務的流程。隨著轉化用戶的不斷增加,留存用戶的規模也在不斷增大,產品的盈利規模也會隨之增加。
流失的用戶數量在每個業務環節都不同。可以分析用戶主要流失在哪個業務環節,以及為什麼流失,是因為業務流程過於複雜,還是產品特性無法完全展現,或是其他原因,最終的目的都是不斷減少用戶流失率。
2.4.7.3、如何使用漏斗分析方法?
下面看一個電商案例。某線上店鋪本週的銷量降低嚴重,從上週的1000單掉到了680單,那麼是中間哪個業務環節出了問題?如何改善這種情況?這需要向前探索,去分析用戶從瀏覽商品到最後下單需要經歷的步驟是什麼,再看這些步驟中,哪一個是薄弱環節,影響了訂單的整體轉化率。
該案例的業務流程是:瀏覽商品、點擊商品、加購物車、提交訂單、支付訂單。業務流程確定後,使用對比分析方法將本週和上週的數據進行比較,然後用漏斗分析方法來分析,算出各周的環節轉化率,如下圖所示。
在兩週數據的對比分析中,可以發現“點擊-加購”的環節轉化率明顯降低(從20%降為13%),這意味著用戶點擊商品後,卻不願意將商品加入購物車。
與業務人員溝通後發現,店鋪在本週更換了商品的介紹頁,用戶看到本期的商品介紹後,加購的意願卻降低了,導致最後訂單量降低。
找到原因後,就可以針對性地對商品介紹頁進行調優和改善,例如與上期的介紹頁結構保持一致,色彩優化等,從而提升運營效率和轉化率。
3、基於數據分析驅動解決問題的流程
下圖為基於數據分析驅動解決問題的流程。
3.1、定性分析以發現問題
先通過上述數據分析方法找到異常指標,然後抽樣異常指標的樣例,可視化的查看其數據,以發現問題。比如我們電商場景中“虛假價格會導致下單到支付的轉化率較低”,其定性分析的過程為先通過漏斗分析法、對比分析法、邏輯樹分析法等發現“下單到支付的轉化較低”,然後抽樣“下單到支付的轉化較低”的商品,並查看商品的價格(比如華為P30原價3k+,如果商品標的價格是300則是虛假價格)。
3.2、定量分析影響面
當定位到具體問題後,我們抽樣人工評估摸底問題的影響面。以上述“虛假價格“商品為例,我們可以隨機抽樣商品,然後人工評估虛假價格商品的比例,並計算全量商品中的虛假價格商品的數目。
3.3、預計解決問題後的業務效果
在上一步定量計算出問題的量級後,折算在模型不同召回率下業務核心指標的效果。
3.4、調研業界和集團的算法方案
根據上述定性分析發現的問題,調研業界和集團內部解決這個問題的算法方案。
3.5、設計我們場景下的算法方案
根據上一步調研的算法方案,再結合業務特點(B類或者C類,國際英文或者國內中文或者多語言)設計我們的業務場景下的算法方案。
3.6、編碼實現方案
設計好算法方案後,使用集團內的平臺、開源代碼、深度學習平臺等實現上述算法方案。
3.7、A/B實驗得出上線效果
3.7.1、什麼是A/B實驗
做過App功能設計的讀者朋友可能經常會面臨多個設計方案的選擇,例如某個按鈕是用藍色還是黃色,是放左邊還是放右邊。傳統的解決方法通常是集體討論表決,或者由某位專家或領導來拍板,實在決定不了時也有隨機選一個上線的。雖然傳統解決辦法多數情況下也是有效的,但A/B測試可能是解決這類問題的一個更好的方法。
簡單來說,A/B測試就是為同一個目標制定兩個版本,這兩個版本只有某個方面不一樣,其他方面保持一致。例如兩個版本只有按鈕的顏色不一樣,讓一部分用戶使用A版本(實驗組),另一部分用戶使用B版本(對照組)。試運行一段時間後,分別統計兩組用戶的表現,然後對兩組數據進行對比分析,最後選擇效果更好的版本正式發佈給全部用戶。
3.7.2、A/B後上線
分析A/B實驗後的效果數據,看模型是否能帶來預期的正向效果,如果是則可以上線。同時下鑽分析A/B實驗各個維度的數據,是否有一些其他結論。
3.8、上線後分析數據看問題的解決程度
看上線後的定量分析數據,問題是否有所解決。
4、一些數據分析的維度
核心點就是結構化拆解維度,類似於上述第2部分的邏輯樹分析法。以下以電商場景為例
4.1、買家和賣家
4.1.1、買家視角
買家的流量來源、買家的端型、買家的國家或者地區、買家的年齡、買家的性別
4.1.2、賣家視角
賣家的主營類目,賣家的品類
4.2、產品相關人
用戶需求、產品功能、競品功能
4.3、產品鏈路
電商產品鏈路主要包括:曝光、點擊、註冊、登錄、溝通、下單、支付,可以從上述指標的鏈路轉化漏斗分析。
5、致謝
感謝DA@知洐和BI@筱芊@十音提的寶貴建議
6、參考文獻
《數據分析思維:分析方法和業務知識》
《精益數據分析》