召回和排序的样本构造问题
Swift Lv6

简单介绍一下搜广推系统中的正负样本构造问题。

精排

  • 正样本:曝光点击
  • 负样本:曝光未点击

粗排

  • 正样本:曝光点击
  • 负样本:如果只复用精排的负样本,粗排模型对精排模型的拟合就会出现比较大的偏差。因为粗排打分高的item可能会被精排打低分,导致不能下发曝光。而精排的正负样本量很少,粗排只见到了精排的样本,对于自己打分高的item,并不知道其正负属性,在下一次打分中,可能仍然会对其打高分。因此除了精排的负样本,仍然需要从精排未下发的item中负采样一部分,作为粗排的负样本。

召回

  • 正样本:曝光点击
  • 负样本:曝光未点击+全库随机负采样。召回线上面临的环境,是从全库良莠不齐的物料中找到用户可能感兴趣的item,而如果只拿曝光未点击做负样本训练会导致样本选择偏差。全库随机负采样可以模拟线上这一分布,大部分物料是跟用户打不着的。具体的采样策略可以见:拿随机采样做负样本

参考

Powered by Hexo & Theme Keep
Unique Visitor Page View