作者:京東零售 申磊
自LLM在自然語(yǔ)言處理等領(lǐng)域取得了矚目成就之后,學(xué)術(shù)界積極探索生成式模型對(duì)搜廣推系統(tǒng)的增強(qiáng)或改進(jìn)方式[1],現(xiàn)有工作大體可以分為兩類[2]:(1)用大模型做數(shù)據(jù)和知識(shí)增強(qiáng)、提取表征、通過(guò)prompt將推薦轉(zhuǎn)成對(duì)話驅(qū)動(dòng)的任務(wù)等,本質(zhì)上沒(méi)有修改LLM,屬于信息增強(qiáng)和補(bǔ)充方法,無(wú)法直接建模海量協(xié)同信號(hào)。 (2)修改LLM直接建模搜廣推海量數(shù)據(jù)中的協(xié)同信號(hào),對(duì)輸入輸出范式改造,通過(guò)預(yù)訓(xùn)練/微調(diào)等過(guò)程建模海量數(shù)據(jù),讓模型同時(shí)擁有通用的世界知識(shí)和垂直領(lǐng)域海量協(xié)同信息。是能實(shí)現(xiàn)搜廣推大模型scaling的前提,需要更復(fù)雜的工程架構(gòu)支持。第一類工作層出不窮,第二類工作是搜廣推值得探索的前沿方向之一。2024年至今,業(yè)界在第二類工作中也有一些相關(guān)進(jìn)展和成果,例如,GR(Meta)[3]、HLLM(字節(jié))[4]、NoteLLM(小紅書)[5]、NoteLLM-2(小紅書)[6]、OneRec(快手)[7]。
CPS算法組也在生成式推薦方向上進(jìn)行了一系列工作,在探索前沿技術(shù)的同時(shí)提升業(yè)務(wù)效果。關(guān)于生成式推薦系統(tǒng)、CPS聯(lián)盟廣告、以及第一階段的工作內(nèi)容介紹可以參考我之前撰寫的文章: 生成式推薦系統(tǒng)與京東聯(lián)盟廣告-綜述與應(yīng)用。下面,我將介紹在此文章發(fā)布之后的近期工作進(jìn)展。本文進(jìn)一步梳理了業(yè)務(wù)需求,并以此總結(jié)出核心技術(shù)點(diǎn),針對(duì)CPS廣告的特點(diǎn),對(duì)前鏈路的用戶意圖和后鏈路的多目標(biāo)進(jìn)行感知和建模,從而進(jìn)行推薦全鏈路優(yōu)化。
二、業(yè)務(wù)需求&核心技術(shù)點(diǎn)
CPS廣告推薦主要針對(duì)站外用戶進(jìn)行多場(chǎng)景推薦。業(yè)務(wù)需求包括精準(zhǔn)感知用戶意圖、進(jìn)行多目標(biāo)優(yōu)化以兼顧收益與用戶活躍度,以及利用和兼容多種場(chǎng)景和任務(wù)數(shù)據(jù)。圍繞這些需求,我聚焦于顯式意圖感知的可控商品推薦、推薦效果的多目標(biāo)優(yōu)化、One4All生成式推薦框架這三項(xiàng)核心技術(shù),分別對(duì)應(yīng)生成式模型的指令遵循微調(diào)階段、偏好對(duì)齊階段以及數(shù)據(jù)到模型的全流程范式。
CPS廣告推薦業(yè)務(wù)需求與核心技術(shù)點(diǎn)的關(guān)系
CPS廣告推薦的核心技術(shù)點(diǎn)與生成式推薦框架
三、顯式意圖感知的可控商品推薦
顯式意圖感知的可控商品推薦示意圖
背景介紹
現(xiàn)有方案匯總
落地頁(yè)商品推薦是站外廣告很重要的一種形式,對(duì)應(yīng)的研究課題是觸發(fā)誘導(dǎo)推薦(Trigger-Induced Recommendation, TIR),現(xiàn)有方案包含如下三類:
?基于歷史行為序列隱式建模用戶意圖;
?利用觸發(fā)項(xiàng)進(jìn)行I2I召回或通過(guò)sku2query生成搜索詞再進(jìn)行商品檢索;
?通過(guò)三個(gè)網(wǎng)絡(luò)來(lái)分別表示觸發(fā)項(xiàng)、建模用戶歷史行為和預(yù)估權(quán)重來(lái)融合前兩者,例如,DIHN、DIAN、DEI2N和DUIN[8、9、10、11]。
一些觸發(fā)誘導(dǎo)推薦方案
業(yè)務(wù)需求&現(xiàn)有方案局限性
顯式意圖感知的可控商品推薦業(yè)務(wù)需求與現(xiàn)有方案局限性
解決方案
(1) 通過(guò)傳統(tǒng)推薦數(shù)據(jù)自動(dòng)化地生成豐富的意圖描述,以意圖文本+歷史商品語(yǔ)義ID序列作為輸入,目標(biāo)商品語(yǔ)義ID作為輸出的方式 (2)重構(gòu)觸發(fā)誘導(dǎo)推薦的任務(wù)范式,利用 (3)生成式指令遵循微調(diào)的方式實(shí)現(xiàn)對(duì)歷史行為和觸發(fā)項(xiàng)的感知和動(dòng)態(tài)調(diào)控。
自動(dòng)化意圖生成和評(píng)估
?輸入“用戶行為數(shù)據(jù)+目標(biāo)商品”;
?基于Few-shot Prompting和CoT策略,通過(guò)言犀-81B模型對(duì)用戶行為數(shù)據(jù)進(jìn)行總結(jié)、推理,并預(yù)測(cè)當(dāng)前意圖;
?輸出“總結(jié)-推理-預(yù)測(cè)”的三元組數(shù)據(jù);
?利用Self-Verification的方式對(duì)生成的顯性意圖進(jìn)行評(píng)估。
輸入輸出范式+指令遵循微調(diào)
?將數(shù)據(jù)組織成“Input: [Prompt]. Output: [Response]”的形式,在序列推薦的基礎(chǔ)上增加三類任務(wù),其輸入輸出數(shù)據(jù)定義如下:
顯式意圖感知的可控商品推薦任務(wù)定義及輸入輸出示例
方案效果
?離線效果:意圖感知的可控模型在HitRate和NDCG指標(biāo)上,相比非意圖感知的模型可提升2~3倍,并且表現(xiàn)出較好的可控能力。
?線上效果:SKUCTR提升3%+,SKUCVR、同店訂單和同店傭金也獲得顯著提升。
樣例展示1
樣例展示2
四、推薦效果的多目標(biāo)優(yōu)化
推薦效果的多目標(biāo)優(yōu)化示意圖
背景介紹
現(xiàn)有方案匯總
非LLM方法
?Shared Bottom、MMOE、PLE:通過(guò)共享和獨(dú)立網(wǎng)絡(luò)平衡多個(gè)任務(wù)[12、13];
?ESMM:通過(guò)全空間建模解決樣本選擇偏差問(wèn)題[14]。
一些多目標(biāo)優(yōu)化的非LLM方法
LLM方法
?MORLHF和MODPO:基于RLHF和DPO改進(jìn),對(duì)多個(gè)獎(jiǎng)勵(lì)函數(shù)的線性加權(quán)[15、16];
?Reward Soups:對(duì)多個(gè)LLM的權(quán)重進(jìn)行插值[17]。
?
?
一些多目標(biāo)優(yōu)化的LLM方法
業(yè)務(wù)需求&現(xiàn)有方案局限性
推薦效果的多目標(biāo)優(yōu)化業(yè)務(wù)需求與現(xiàn)有方案局限性
解決方案
整合行為和價(jià)格數(shù)據(jù),提高點(diǎn)擊到購(gòu)買的轉(zhuǎn)化率,并最終提升廣告收益。
基于DPO的偏好對(duì)齊算法
?基于點(diǎn)擊商品預(yù)測(cè)模型,對(duì)“購(gòu)買”偏好進(jìn)行建模f(點(diǎn)擊->購(gòu)買);
?以“點(diǎn)擊且購(gòu)買”商品作為正例,“點(diǎn)擊未購(gòu)買”商品作為負(fù)例,將數(shù)據(jù)組織成“Input: [Prompt]. Output1: [Response+]. Output2:[Response-]”的形式。
?劣勢(shì):DPO[18、19]僅考慮了f(點(diǎn)擊->購(gòu)買),且是正負(fù)例間的相對(duì)關(guān)系,需要將數(shù)據(jù)組成三元組的形式,沒(méi)有利用到獎(jiǎng)勵(lì)值。
基于RiC (Rewards-in-Context) 的偏好對(duì)齊算法
RiC框架圖
?離線訓(xùn)練:把行為和收益相關(guān)的多種獎(jiǎng)勵(lì)融入數(shù)據(jù)進(jìn)行監(jiān)督微調(diào),讓模型學(xué)習(xí)不同獎(jiǎng)勵(lì)組合下的策略
?數(shù)據(jù)形式:“Input: [Prompt]r1r2 ...rN”;
?獎(jiǎng)勵(lì)設(shè)計(jì):針對(duì)點(diǎn)擊、購(gòu)買、價(jià)格、傭金獎(jiǎng)勵(lì)進(jìn)行設(shè)計(jì),并歸一化。
?在線訓(xùn)練:通過(guò)在帕累托前沿上的增強(qiáng)數(shù)據(jù)來(lái)改善數(shù)據(jù)稀疏問(wèn)題
?產(chǎn)生隨機(jī)提示:在帕累托前沿附近分配獎(jiǎng)勵(lì),即除一維度外均賦最大值;
?離線SFT模型生成結(jié)果,獎(jiǎng)勵(lì)模型評(píng)分,多目標(biāo)拒絕采樣過(guò)濾樣本。
?推理階段:利用偏好到獎(jiǎng)勵(lì)的映射,自由適應(yīng)多樣化的用戶偏好
?優(yōu)勢(shì):(1) 僅通過(guò)監(jiān)督微調(diào)就能實(shí)現(xiàn)LLM策略的對(duì)齊;(2) 同時(shí)利用正面和負(fù)面反饋,提升對(duì)獎(jiǎng)勵(lì)機(jī)制的理解;(3) 擴(kuò)展性非常強(qiáng),覆蓋多種獎(jiǎng)勵(lì)組合下的多樣化表現(xiàn)[20、21、22]。
RiC獎(jiǎng)勵(lì)設(shè)計(jì)方案
偏好到獎(jiǎng)勵(lì)的映射函數(shù)
方案效果
?離線效果:HitRate@1在多個(gè)數(shù)據(jù)集上提升10%+;
?線上效果:SKUCTR提升1.5%+,SKUCVR提升7%+,同店訂單和同店傭金也獲得顯著提升。
五、One4All生成式推薦框架
背景介紹
業(yè)務(wù)需求
?CPS廣告推薦涉及多樣的業(yè)務(wù)場(chǎng)景,需要強(qiáng)化系統(tǒng)的跨場(chǎng)景適應(yīng)性;
?需要優(yōu)化框架中的模型更新策略,提升系統(tǒng)實(shí)時(shí)性與靈活性。
解決方案
設(shè)計(jì)可擴(kuò)展框架兼顧行為和語(yǔ)義的理解與生成,提升推薦系統(tǒng)的泛化能力;同時(shí)優(yōu)化模型更新策略,確保系統(tǒng)能夠靈活適用于不同任務(wù)和場(chǎng)景。
可擴(kuò)展框架設(shè)計(jì)
One4All生成式推薦框架示意圖
線上模型更新策略
線上模型更新策略
線上模型更新策略示意圖
線上例行化更新信息
方案效果
?完成了線上例行化的開發(fā),支撐CPS廣告每天1000w+UV的在線實(shí)時(shí)推理;
?基于One4All生成式推薦框架,在現(xiàn)有序列推薦主任務(wù)的基礎(chǔ)上兼容更多的行為和語(yǔ)言理解的任務(wù),推動(dòng)召排一體化、搜推聯(lián)合建模、用戶行為總結(jié)、個(gè)性化意圖推斷等技術(shù)的探索。
六、總結(jié)和未來(lái)展望
?交互式推薦系統(tǒng)(搜索推薦聯(lián)合)
?現(xiàn)有方案仍未更大限度激發(fā)生成式模型的效果和能力,交互式應(yīng)用是值得嘗試的方向,同時(shí)需要配合上下游進(jìn)行產(chǎn)品形式的重構(gòu)。
?多模態(tài)信息理解與生成
?前鏈路中有豐富的圖片和視頻信息,對(duì)多模態(tài)信息進(jìn)行高效地理解和內(nèi)容組織,可以增強(qiáng)推薦效果和提升展示形式的豐富程度。
最后打個(gè)小廣告:
歡迎對(duì)生成式推薦系統(tǒng)感興趣的同學(xué)聯(lián)系我(erp: shenlei20)一起交流討論,也歡迎加入我們CPS算法組共同探索下一代交互式搜廣推系統(tǒng)!
七、參考文獻(xiàn)
1.Xu L, Zhang J, Li B, et al. Prompting large language models for recommender systems: A comprehensive framework and empirical analysis[J]. arXiv preprint arXiv:2401.04997, 2024.
2.知乎《一文梳理工業(yè)界大模型推薦實(shí)戰(zhàn)經(jīng)驗(yàn)》. 2024
3.Zhai J, Liao L, Liu X, et al. Actions speak louder than words: trillion-parameter sequential transducers for generative recommendations[C]//Proceedings of the 41st International Conference on Machine Learning. 2024: 58484-58509.
4.Chen J, Chi L, Peng B, et al. Hllm: Enhancing sequential recommendations via hierarchical large language models for item and user modeling[J]. arXiv preprint arXiv:2409.12740, 2024.
5.Zhang C, Wu S, Zhang H, et al. Notellm: A retrievable large language model for note recommendation[C]//Companion Proceedings of the ACM Web Conference 2024. 2024: 170-179.
6.Zhang C, Zhang H, Wu S, et al. NoteLLM-2: multimodal large representation models for recommendation[J]. arXiv preprint arXiv:2405.16789, 2024.
7.Deng J, Wang S, Cai K, et al. OneRec: Unifying Retrieve and Rank with Generative Recommender and Iterative Preference Alignment[J]. arXiv preprint arXiv:2502.18965, 2025.
8.Ma J, Xiao Z, Yang L, et al. Modeling User Intent Beyond Trigger: Incorporating Uncertainty for Trigger-Induced Recommendation[C]//Proceedings of the 33rd ACM International Conference on Information and Knowledge Management. 2024: 4743-4751.
9.Shen Q, Wen H, Tao W, et al. Deep interest highlight network for click-through rate prediction in trigger-induced recommendation[C]//Proceedings of the ACM web conference 2022. 2022: 422-430.
10.Xia Y, Cao Y, Hu S, et al. Deep intention-aware network for click-through rate prediction[C]//Companion Proceedings of the ACM Web Conference 2023. 2023: 533-537.
11.Xiao Z, Yang L, Zhang T, et al. Deep evolutional instant interest network for ctr prediction in trigger-induced recommendation[C]//Proceedings of the 17th ACM International Conference on Web Search and Data Mining. 2024: 846-854.
12.Ma J, Zhao Z, Yi X, et al. Modeling task relationships in multi-task learning with multi-gate mixture-of-experts[C]//Proceedings of the 24th ACM SIGKDD international conference on knowledge discovery & data mining. 2018: 1930-1939.
13.Tang H, Liu J, Zhao M, et al. Progressive layered extraction (ple): A novel multi-task learning (mtl) model for personalized recommendations[C]//Proceedings of the 14th ACM conference on recommender systems. 2020: 269-278.
14.Ma X, Zhao L, Huang G, et al. Entire space multi-task model: An effective approach for estimating post-click conversion rate[C]//The 41st International ACM SIGIR Conference on Research & Development in Information Retrieval. 2018: 1137-1140.
15.Zhou Z, Liu J, Shao J, et al. Beyond One-Preference-Fits-All Alignment: Multi-Objective Direct Preference Optimization[C]//Findings of the Association for Computational Linguistics ACL 2024. 2024: 10586-10613.
16.Li K, Zhang T, Wang R. Deep reinforcement learning for multi-objective optimization[J]. IEEE transactions on cybernetics, 2020, 51(6): 3103-3114.
17.Rame A, Couairon G, Dancette C, et al. Rewarded soups: towards pareto-optimal alignment by interpolating weights fine-tuned on diverse rewards[J]. Advances in Neural Information Processing Systems, 2023, 36: 71095-71134.
18.Rafailov R, Sharma A, Mitchell E, et al. Direct preference optimization: Your language model is secretly a reward model[J]. Advances in Neural Information Processing Systems, 2023, 36: 53728-53741.
19.Wu J, Xie Y, Yang Z, et al. beta-DPO: Direct Preference Optimization with Dynamic beta[J]. Advances in Neural Information Processing Systems, 2025, 37: 129944-129966.
20.Lin X, Chen H, Pei C, et al. A pareto-efficient algorithm for multiple objective optimization in e-commerce recommendation[C]//Proceedings of the 13th ACM Conference on recommender systems. 2019: 20-28.
21.Hu J, Tao L, Yang J, et al. Aligning language models with offline learning from human feedback[J]. arXiv preprint arXiv:2308.12050, 2023.
22.Yang R, Pan X, Luo F, et al. Rewards-in-context: multi-objective alignment of foundation models with dynamic preference adjustment[C]//Proceedings of the 41st International Conference on Machine Learning. 2024: 56276-56297.
審核編輯 黃宇
-
AI
+關(guān)注
關(guān)注
87文章
33554瀏覽量
274198 -
大模型
+關(guān)注
關(guān)注
2文章
2941瀏覽量
3683 -
LLM
+關(guān)注
關(guān)注
1文章
316瀏覽量
641
發(fā)布評(píng)論請(qǐng)先 登錄
相關(guān)推薦
評(píng)論