畫像分析體驗總結
整體分為兩個部分
標籤管理
1、配置對應的數據源,將數據源表定義為“實體”,字段定義為標籤
2、配置同步計劃和任務,進行數據的同步管理
3、類似於數據的映射,將技術語言與業務語言通過實體,關係,標籤進行映射。
群體畫像
1、主要是關注業務上每個字段的篩選,過濾條件,組合出滿足業務要求的分析場景
2、提供了群體計算、群體分析、群體對比、相似度分析,使得從業務的角色能更快速、更靈活、更主觀的操作數據
3、通過多種圖表方式展現圈定的結果。
體驗前後的差異對比
沒有使用阿里產品前的實現方式
每一次業務規則的調整,都需要修改代碼,重新執行,才能得到最新的結果
使用阿里產品的實現方式
只需要在界面上重新配置過濾規則,然後執行篩選,就能得到最新的結果,並能通過多種圖表方式直觀 的呈現出來。
特點
省去了重新修改代碼的環節,從業務的角度調整規則即可實現畫像分析。隨著多種圖表展現形式對結果的反饋,可以不斷的完善規則,從而提高了畫像分析的準確性和時效性。
適用場景
基礎的標籤(指標)數據生成好後,提供給業務人員,進行業務角度的數據分析使用,可以快速的將群體方案直接發佈為API對外提供。
目標與操作過程
本次目標
1、嘗試用這份數據找分析出,高壓力中年油膩男,單身帶娃,無父母補貼,低學歷,高年齡
2、嘗試用這份數據找分析出,單身女強人,單身無娃,有父母補貼,高學歷,中低年齡
前提條件 -- 數據準備
一、準備數據源
1、建立數據表
CREATE TABLE `test_data_quotient_person_info` (
`person_id` varchar(32) DEFAULT NULL COMMENT '人員ID',
`id_card_number` varchar(32) DEFAULT NULL COMMENT '身份證號',
`person_name` varchar(32) DEFAULT NULL COMMENT '姓名',
`person_sex` varchar(32) DEFAULT NULL COMMENT '性別: 1-男 2-女 3-不詳',
`marry_tag` int(10) DEFAULT NULL COMMENT '婚姻標籤:0-未婚 1-已婚',
`children_number_tag` int(10) DEFAULT NULL COMMENT '孩子個數標籤',
`education_tag` int(10) DEFAULT NULL COMMENT '學歷標籤:0-初等學歷 1-中等學歷 2-高等學歷',
`person_age` int(10) DEFAULT NULL COMMENT '年齡',
`parent_number_tag` int(10) DEFAULT NULL COMMENT '父母存活個數標籤'
) ENGINE=InnoDB DEFAULT CHARSET=utf8;
2、配置數據
二、配置dataworks數據同步
1、按照數據源的方式建表,然後選擇對應的同步信息
2、配置調度
與本文描述內容無關,此處省略
畫像分析 -- 標籤管理
三、雲計算資源
1、配置外部的雲計算資源,類似於“數據集成”中的數據源管理。
2、配置好外部雲計算資源後可以查看對應的庫表信息
四、標籤中心
1、新建標籤模型實體
** 關係模型還未體驗 **
2、實體綁定標籤數據表
綁定表的時候需要先”更新緩存表“更新成功後,才能看到新加入的源數據表。
3、選擇綁定表後,先點擊主字段,綁定為主標籤,再綁定所有字段
4、我的標籤--快查功能
任務同步成功後,才能使用到畫像分析的雲計算資源分析引擎,對標籤數據進行探查與分析
可靈活的選擇標籤字段,查看數據,通過圖表(柱狀圖、餅圖、折線圖)展現,數據的聚合(最大、最新、均
值、求和、次數)情況
五、標籤同步
1、配置同步計劃
不能配置已經上線的標籤,標籤需要先下線,才能配置同步
目標雲計算資源需要選擇,mysql;選擇odps,在群體畫像--群體列表中將無法找到雲計算資源
2、同步計劃配置完成後點擊啟動,將數據同步到畫像雲計算資源中
3、可在同步任務中查看同步狀態,和進行重跑操作,以及查看錯誤日誌
六、API服務
與dataworks的數據服務功能類似
畫像分析 -- 群體畫像
七、配置群體
1、新建群體
2、選定實體後可以添加標籤的邏輯
3、目標場景的圈定條件為
一、中低學歷奶爸
性別:男 : 1
孩子個數 : 大於0 : 1-2 或者 >0
學歷: 中、低學歷 : 0-1 或者 <2
二、高年齡奶爸
性別:男 : 1
孩子個數 : 大於0 : 1-2 或者 >0
年齡: 大於30 : >30
4、圈群完成後,可以查看圈選結果,對結果不滿意可以重新圈定,確認結果後必須發佈群體,才能生效
5、發佈成功後可以在群體列表中看到發佈的群體
6、群體計算,可以將圈定的群體再次通過(交、並、差)的計算髮布成一個全新的群體
使用交集發佈成新的群體“高齡低學歷奶爸”
八、分析
1、群體分析
選擇分析對象(群體)和度量方式,分析維度(每個維度對應一幅圖)後,可展現多種類型(柱狀圖、餅圖、折
線圖、面積圖)的圖形報表
2、對比分析
對比分析:可以選擇兩個群體,按照不同的度量方式,選擇不同的分析維度,展現不同的圖表
相似性分析:可以查看兩個群體的相似度,以及每個標籤的覆蓋人數
九、全流程體驗
源數據中的樣本數據無滿足“單身女強人”標籤的用戶,從源數據中新增一個,然後看出如何同步的畫像分析中
1、配置目標群體
2、源數據中增加一條“單身女強人”用戶
3、執行dataworks同步數據到ODPS中,在運維中心使用重跑調度,重跑成功後日志中顯示的記錄數位101。
4、在同步任務中選擇任務,進行重跑調度,重新更新數據。
5、同步任務執行成功後,即可在群體列表中,單擊指定群體,看到群體的詳情
大環節的操作流程:1、修改源數據;2、執行dataworks重跑調度;3、執行畫像分析同步任務;4、群體 畫像中看結果。