閒魚技術-仝輝
背景
閒魚的業務在發展過程中,伴隨著大量的活動和各種各樣的實驗。一般運營活動前期需要對市場進行調研,瞭解用戶群體;中期進行活動設計和活動實驗,根據實驗效果調整活動方案;後期則進行復盤工作,整理相關數據,進行總結和分析。

然而,伴隨著閒魚體量的增長,原先定性的問題分析變得難以快速而準確的洞悉業務的真實狀況。例如,在拉新場景下,如何引導用戶、如何承接用戶和如何提升權益,這些都需要做深入的數據分析。

痛點
當遇到相關的數據問題時,運營需要跟數據工程師提出需求,然而隨著閒魚業務越來越複雜,相關的需求也越來越多,例如需求1、需求2、需求N。這些需求的時間週期通常會比較長,無法很好的滿足各類業務訴求。

因此,我們希望通過納米鏡引入實時數據分析能力,來解決此類的業務痛點問題。
解決思路
解決思路:數據科學平民化。通過搭建閒魚人貨場數據體系,將數據採集、數據清洗和模型開發都封裝成接口,提供動態切面下鑽、智能切面分析和指標預測的能力。

數據搭建
閒魚人貨場數據體系的搭建,將人群數據、商品數據和策略數據的標籤和指標全部彙總,為後續分析打下數據基礎。

此外,一些在標籤庫以外所需要的數據,我們通過自定義DSL的方式從客戶端埋點獲取。

功能
動態下鑽
步驟:
1)先選擇一個特定活動和特定指標
2)選擇一個比較感興趣的切面做二次分析,選擇下鑽按鈕,例如選擇敏感人群切面
3)再分析得到敏感人群+用戶性別切面的情況

人貨場的切面非常多,選擇切面需要對這些切面有比較深入的理解。那麼,如果運營不知道選哪些切面如何處理?引入智能切面分析。
智能切面分析
目的:
找到指標提升效果最顯著的人群切面組合,幫助運營快速找到較合理的子人群, 從而做進一步的干預。
內容:
智能切面分析包含了兩個部分:
1)活動指標切面分析: 找出活動本身效果最好的切面組合
2)AB桶效果切面分析: 找出實驗桶和對照桶差異最大的切面組合
方法:
結合相關分析、波動分析和決策樹的思路,包含了以下兩個部分:
1)活動指標切面分析: 找出活動本身效果最好的切面組合
2)AB桶效果切面分析: 找出實驗桶和對照桶差異最大的切面組合
活動指標切面分析
活動指標切面分析目的是找出活動本身效果最好的切面組合,給出的分析結果:
1) 獲取效果最顯著的人群切面組合,並給出每個人群切面下的指標結果
2) 給出每個切面下最小樣本量,小於最小樣本量則結果有一定的偶然性和不確定性
獲取這些分析結果的具體步驟如下:
1)分析數據:輸入幾十個切面和單個分析指標。切面:例如性別、年齡、職業等,指標:例如購買率、發佈率、次留率等。
2)相關分析:分析切面和指標,切面和切面的相關性,剔除一些強相關的切面。例如7天內購買數量和14天購買數量這兩個切面如果存在強相關性只需要留一個就可以了。
3)聚類分析:將切面的連續型數值通過聚類算法聚類成離散的類別。
4)信息增益率計算:計算信息增益率最大的切面,並在這個切面的基礎上遞歸獲取最大信息增益的切面。
5)剪枝:小於人數和增益率的閾值,則剔除子節點。
6)獲取最佳切面:分析切面有效性,計算最小有效樣本量。

我們會從幾十個切面,例如職業、點擊數、性別、年齡、消費水平等等幾十個切面中進行切面分析,得到指標最優的切面組合。給出的結論如下所示(考慮到數據安全,以下數據非真實數據,僅供參考):
活動命中人數1000000,活動整體(是否當日新購買)指標為5%, 其中年齡區間=20~30歲,性別=女性,人群切面的活動效果最佳(該切面人群數量為200000,最小樣本量為10000,指標值為10%),後續可以根據人群切面的效果做策略調整。

AB桶效果切面分析
AB桶效果切面分析目的是找出受到活動印象最大和最小的切面組合。基於AB實驗的人群切面數據差異對比,我們可以對正向影響人群做放大投放,對負向影響人群減少投放。
例如,活動指標切面分析購買率最高的切面:年齡區間=20~30歲,性別=女性,人群切面的活動效果最佳。這時候只能證明這個活動切面是購買意願最強的,不能證明是否是活動帶來的增量。例如在活動指標切面分析中發現年齡區間=20~30歲,性別=女性的切面效果是最好的,但是不是活動帶來增量最大的切面,帶來活動增量最大的切面是年齡區間=30~40歲,性別=女性。

AB桶效果切面分析具體步驟與活動指標切面分析類似,具體如下:
1)分析數據:輸入幾十個切面和單個分析指標。切面:例如性別、年齡、職業等,指標:例如購買率、發佈率、次留率等。
2)相關分析:分析切面和指標,切面和切面的相關性,剔除一些強相關的切面。例如7天內購買數量和14天購買數量這兩個切面如果存在強相關性只需要留一個就可以了。
3)聚類分析:將切面的連續型數值通過聚類算法聚類成離散的類別。
4)選取合理的切面組合:選取切面組合,計算最小有效樣本量,設置閾值剔除人數過少和不滿足最小樣本量的切面組合。
5)獲取最佳切面:獲取差異最大和最小的切面組合。

通過以上的AB桶效果切面分析,我們就能拿到活動給各個人群切面帶來的正負向影響。對切面30~40歲,性別=女性人群加大投放,對於沒有明顯提升效果的人群減少投放。
指標預測
之前提到的動態下鑽和智能切面分析都是在實驗後做的分析,那麼能否在實驗前做一些預測,來加快實驗的迭代時間呢?我們引入了指標預測功能。

結果
納米鏡現在可以分析閒魚線上已有的活動,包括222、紅包、導賣活動等。運營只需要輸入活動ID和對應分析的時間,即可通過交互界面分析得到相關的結果.考慮到數據安全,已經隱去了相關敏感字段, 分析結論示例如下:
活動指標切面分析結論:
活動命中人數xxx,活動整體(是否當日新購買)指標為4.77%, 其中用戶年齡=xxx人群切面的活動效果最佳(該切面人群數量為xxx,指標值為5.71%)
AB分桶效果切面分析結論:
是否當日新購買指標在以下3個切面的提升最大,分別是:
1、桶xx(人數xxx 指標值5.62%)相比桶others(人數xxx 指標值4.86%)在切面是否敏感人群=1,30天內買家身份互動過的天數=xxx提升了0.76%(該置信度最小人數為xxx)
2、桶xx(人數xxx 指標值5.72%)相比桶others(人數xxx 指標值4.91%)在切面是否敏感人群=1,是否當天新會員=0提升了0.81%(該置信度最小人數為xxx)
3、桶xx(人數xxx 指標值5.73%)相比桶others(人數xxx 指標值4.91%)在切面最近30天的訪問天數=x,是否敏感人群=1提升了0.81%(該置信度最小人數為xxx)
指標預測分析結論:
在預熱階段就準確預測了閒魚222活動當天的購買率,為後續及時調整運營調整素材爭取了時間。

展望
後續,我們希望可以通過利用已有的知識,搭建閒魚知識庫並仿真運營結果,幫助運營降低運營成本和減少活動迭代週期。