百度推荐排序技术的思考与实践( 五 )


百度凤巢 CTR 3.0 精排跟重排联合训练项目,就非常巧妙地利用模型同时训练避免打分耦合的问题 。该项目将精排子网络的隐层及内部打分,都作为重排子网络的特征,然后 , 将精排与重排子网络拆开,分别部署于各自模块 。一方面可以很好地复用中间结果,不会出现打分耦合带来的波动问题,同时对于重排的精度又会有百分位的提升 。这也是当年百度最高奖的子项目之一 。
另外 , 注意该项目并不是 ESSM,ESSM 是 CTCVR 建模 , 是多目标建模,而 CTR3.0 联合训练主要解决打分耦合和重排模型精度的问题 。
此外 , 要对召回和粗排做解耦合,因为新队列加入进来 , 对于新队列可能会不太公平 。因此,提出了随机掩码的方式 , 即随机 mask 掉一部分特征,使得耦合度不会那么强 。
3、稀疏路由网络

百度推荐排序技术的思考与实践

文章插图
最后再来看一下部署在线上的过程 。模型参数规模都是千亿到万亿量级 , 目标也非常多,直接进行线上部署开销是非常大的 , 不能只考虑效果,不考虑性能 。有一种比较好的方式就是弹性计算,类似于 Sparse MOE 的思想 。
粗排接入了非常多的队列,有数十个甚至数百个队列 。这些队列对线上的价值(LTV)是不一样的,由流量价值层来计算不同召回队列对线上点击时长的价值 。其核心思想是召回队列整体的贡献度越大,越可以享受更复杂的计算 。从而使得有限的算力能够服务于更高价值的流量 。所以我们也没有采用传统的蒸馏的方式 , 而是采用类似 Sparse MOE 的思想来做弹性计算,即策略跟架构 co-design 的设计,使得不同的召回队列能够使用最适合的资源网络进行计算 。
 
五、未来计划众所周知 , 现在已经进入 LLM 大模型时代 。百度对下一代基于 LLM 大语言模型的推荐系统的探索将会从三个方面来展开 。
百度推荐排序技术的思考与实践

文章插图
第一方面是希望模型从基础的预测升级到能够做决策 。比如经典的冷启资源高效率探索,沉浸式序列推荐反馈 , 以及从搜索到推荐的决策链等等重要的问题,都可以借助大模型来进行决策 。
第二方面是从判别到生成 , 现在整个模型都是判别式的,未来会探索生成式推荐的方式,比如自动生成推荐理由,对长尾数据基于 prompt 来做数据自动增强 , 以及生成式的检索模型 。
第三方面是从黑盒到白盒,传统做推荐系统 , 大家常说神经网络是炼丹术,是黑盒的 , 是否有可能向白盒化方向探索,也是未来的重要工作之一 。比如基于因果,探究用户行为状态迁移背后的原因 , 推荐公平性方面做更好的无偏估计,以及 Multi Task machine Learning 的场景上能够做更好的场景自适应 。




推荐阅读