一、用戶畫像—計算用戶偏好標簽
下面介紹如何計算用戶的偏好標簽。
在上一篇寫用戶畫像的文章 “用戶畫像—打用戶行為標簽”中,主要講了如何對用戶的每一次操作行為、業(yè)務(wù)行為進行記錄打上相應(yīng)的標簽。在這篇博客中,主要講如何對這些明細標簽進行計算以及偏好的產(chǎn)品、內(nèi)容的類目。
關(guān)于用戶標簽權(quán)重的計算,在這篇文章里面講過了:
用戶畫像之標簽權(quán)重算法
這里再詳細介紹一下:
用戶標簽權(quán)重 = 行為類型權(quán)重 × 時間衰減 × 用戶行為次數(shù) × TF-IDF計算標簽權(quán)重
公式中各參數(shù)的釋義如下:
行為類型權(quán)重:用戶瀏覽、搜索、收藏、下單、購買等不同行為對用戶而言有著不同的重要性,一般而言操作復(fù)雜度越高的行為權(quán)重越大。該權(quán)重值一般由運營人員或數(shù)據(jù)分析人員主觀給出;
時間衰減:用戶某些行為受時間影響不斷減弱,行為時間距現(xiàn)在越遠,該行為對用戶當前來說的意義越?。?/p>
行為次數(shù):用戶標簽權(quán)重按天統(tǒng)計,用戶某天與該標簽產(chǎn)生的行為次數(shù)越多,該標簽對用戶的影響越大;
TF-IDF計算標簽權(quán)重:每個標簽的對用戶的重要性及該標簽在全體標簽中重要性的乘積得出每個標簽的客觀權(quán)重值;
為計算用戶偏好標簽,需要在用戶行為標簽的基礎(chǔ)上計算用戶行為標簽對應(yīng)的權(quán)重值,而后對同類標簽做權(quán)重匯總,算出用戶偏好的標簽。關(guān)于用戶行為標簽如何打,在這篇博客里面有介紹過了
用戶畫像—打用戶行為標簽
下面介紹如何在用戶行為標簽表的基礎(chǔ)上加工用戶偏好標簽:
1、用戶標簽權(quán)重表結(jié)構(gòu)設(shè)計
字段定義:
用戶id(user_id):用戶唯一id;
標簽id(tag_id):圖書id;
標簽名稱(tag_name):圖書名稱;
用戶行為次數(shù)(cnt):用戶當日產(chǎn)生該標簽的次數(shù),如用戶當日瀏覽一本圖書4次,則記錄4;
行為日期(date_id):產(chǎn)生該條標簽對應(yīng)日期;
標簽類型(tag_type_id):在本案例中通過與圖書類型表相關(guān)聯(lián),取出每本圖書對應(yīng)的類型,如《鋼鐵是怎么煉成的》對應(yīng)“名著”;
用戶行為類型(act_type_id):即用戶的購買、瀏覽、評論等操作行為,在本例中通過預(yù)設(shè)數(shù)值1~7來定義用戶對應(yīng)的行為類型。1:購買行為,2:瀏覽行為,3:評論行為,4:收藏行為,5:取消收藏行為,6:加入購物車行為,7:搜索行為;
2、在用戶行為標簽基礎(chǔ)上加工權(quán)重表
加工標簽權(quán)重表時,需要根據(jù)用戶不同行為對應(yīng)的權(quán)重建立一個權(quán)重維表:
向維表中插入數(shù)據(jù):
3、對每個用戶偏好的每個標簽加總求權(quán)重值,對權(quán)重值做倒排序,取top N
二、用戶畫像—數(shù)據(jù)指標與表結(jié)構(gòu)設(shè)計
本段文章介紹一下畫像中需要開發(fā)的數(shù)據(jù)指標與開發(fā)過程中表結(jié)構(gòu)的設(shè)計。
首先介紹畫像開發(fā)的數(shù)據(jù)指標,畫像開發(fā)過程中通用類的指標體系包括用戶屬性類、用戶行為標簽類、用戶活躍時間段類、用戶消費能力類、用戶偏好類等
數(shù)據(jù)指標體系
用戶屬性指標
用戶屬性指標根據(jù)業(yè)務(wù)數(shù)據(jù)來源,盡可能全面地描述用戶基礎(chǔ)屬性,這些基礎(chǔ)屬性值是短期內(nèi)不會有改變的。如年齡、性別、手機號歸屬地、身份證歸屬地等
用戶登錄活躍指標
看用戶近期登錄時間段、登錄時長、登錄頻次、常登陸地等指標
用戶消費能力指標
看用戶的消費金額、消費頻次、最近消費時間。進一步結(jié)合用戶登錄活躍情況,可以對用戶做RFM分層。
用戶流失層級
根據(jù)用戶的活躍度及消費情況,判斷用戶的流失意向??杉皶r對有流失趨向的用戶做營銷召回
用戶年齡段劃分
在做營銷活動或站內(nèi)推送時,可對不同年齡段做針對性運營
用戶行為標簽
記錄用戶在平臺上每一次操作行為,及該次行為所帶來的標簽。后續(xù)可根據(jù)用戶的行為標簽計算用戶的偏好標簽,做推薦和營銷等活動
表結(jié)構(gòu)設(shè)計
對于畫像數(shù)據(jù)的存儲,除了用戶屬性這種基本上短期不會有變化的數(shù)據(jù),其他相關(guān)數(shù)據(jù)的更新頻率一般都比較高,為周更新或日更新
畫像數(shù)據(jù)更新較為頻繁,通常使用分區(qū)來將數(shù)據(jù)從物理上轉(zhuǎn)移到離用戶最近的地方。
一般對日期字段進行分區(qū),當然事實上分區(qū)是為了優(yōu)化查詢性能,否則使用數(shù)據(jù)的用戶也不需要關(guān)注這些字段是否分區(qū)。
例如說創(chuàng)建一個用戶行為標簽表:
CREATE TABLE userprofile( user_id string, tag_id string, tag_name string, cnt string, act_type_id string, tag_type_id string ) PARTITION BY (date_id string);
分區(qū)表改變了Hive對數(shù)據(jù)的存儲方式,如果沒做分區(qū),創(chuàng)建的這個表目錄為:
hdfs://master_server/user/hive/warehouse/userprofile
創(chuàng)建日期分區(qū)后,Hive可以更好地反映分區(qū)結(jié)構(gòu)子目錄:
hdfs://master_server/user/hive/warehouse/userprofile/date_id='2018-05-01'
在userprofile表下面,每個日期分區(qū)的數(shù)據(jù)可以存儲截止到當日的全量歷史數(shù)據(jù),方便使用者查找。
-
數(shù)據(jù)分析
+關(guān)注
關(guān)注
2文章
1472瀏覽量
35031 -
標簽
+關(guān)注
關(guān)注
0文章
146瀏覽量
18252
原文標題:用戶畫像—計算用戶偏好標簽及數(shù)據(jù)指標與表結(jié)構(gòu)設(shè)計
文章出處:【微信號:AI_shequ,微信公眾號:人工智能愛好者社區(qū)】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。
發(fā)布評論請先 登錄
基于偏好不一致熵的偏好決策方法
基于用戶QoS偏好的WEB服務(wù)灰色關(guān)聯(lián)分析方法
面向評分數(shù)據(jù)中用戶偏好發(fā)現(xiàn)的隱變量模型構(gòu)建

基于偏好矩陣遺傳算法求解長期車輛合乘問題
基于用戶行為偏好的服務(wù)選擇策略

從偏好數(shù)據(jù)庫中挖掘Ceteris Paribus偏好

基于時間衰減協(xié)同偏好獲取方法
基于用戶偏好的協(xié)同過濾算法
基于標簽主題的協(xié)同過濾推薦算法研究

什么是用戶畫像?用戶畫像的四階段
內(nèi)容中心網(wǎng)絡(luò)中基于用戶偏好的協(xié)作緩存策略

一種基于用戶偏好的權(quán)重搜索及告警選擇方法

評論