COBRA详解
Swift Lv6

这是一篇生成式推荐用于召回场景的工作,其建模范式仍旧是输入端根据用户行为序列构造prompt,输出端预测next item。该工作巧妙地将稀疏ID与稠密向量表征级联融合起来,达到了SOTA水平。

传统方法对比

方案类型 核心技术 局限性
纯文本+LLM 直接使用广告文本特征 输入过长,资源消耗大
短语表征 关键词压缩表达 信息丢失严重
稠密表征+对比学习 端到端向量编码 建模复杂度高,缺少兴趣探索
稀疏ID生成 RQ-VAE量化技术 信息损失导致细粒度捕捉弱

COBRA介绍

稀疏ID可以唯一表示item,有很好的区分性,但丧失了对item的细粒度信息刻画。纯文本可以准确可以item属性,但构造成prompt太长,套入到LLM中会导致资源消耗过大。那么如何结合两者的优点呢?

COBRA首先根据codebook生成item的稀疏ID,该ID可以理解为item的大类别。既不过于精细,像unique id,又不过于宽泛。然后将ID序列输入到Transformer Decoder中预测稠密向量。

model

离线训练

两个预测任务的损失函数如下:

ID预测就是经典的多分类任务,dense vector就是经典的对比学习任务。

在线推理

  1. 稀疏ID生成:decoder根据beam search生成top $M$个ID,每个ID有其得分
    id gen

  2. 稠密向量生成:根据每个稀疏ID继续生成dense vector,然后检索出同一个ID下的跟vector相似的top $N$个候选item
    vector gen

  3. 最终召回候选集生成:为了兼顾多样性(即不同ID)以及准确性(即同一ID下的候选item),联合打分取top $K$个item召回
    recall

在离线实验结果

offline

在公共数据集上,离线指标提升很明显。在A/B实验上,转化率和收入也在咔咔涨,就不细说了。


参考

Powered by Hexo & Theme Keep
Unique Visitor Page View