815888.com 主页 > 815888.com >

回忆Facebook经典CTR预估模型

发布时间:2019-03-08

GBDT+LR 模型结构

这里是「王喆的机器学习笔记」的第九篇文章,今天咱们重读一篇经典的 CTR 预估范围的论文,Facebook 在 2014 发表的「Practical Lessons from Predicting Clicks on Ads at Facebook」。

用户场景

在这篇文章中,Facebook 提出了经典的 GBDT(Gradient Boosting Decision Trees)+LR(Logistics Regression) 的 CTR 模型结构,可能说开启了特征工程模型化、自动化的新阶段。此外其在五年前就采用的 online learning,online data joiner,negative down sampling 等技能时至今日也有极强的工程意思。下面我们就一起回忆一下这篇当时红极一时,当初仍常看常新的论文吧。

盘算广告方向的同学应该都对 GBDT+LR 这个模型有所理解,这一点也无益是这篇文章最大的贡献。诚然文章其余部分的价值丝毫不逊于该模型,但再次回想该模型,清楚知道其技巧细节还是必要的。

文章的用户场景是一个标准的点击率预估的场景,需要强调的只有一点,因为咱们需要利用 CTR 打算精准的出价、ROI 等主要的后续预估值,因此 CTR 模型的预估值须要是一个存在物理意思的精准的 CTR,而不是仅仅输出广告排序的高低关系。所以文中不仅把 CTR calibration 作为重要的评估指标,更是在最后介绍了模型校正的相关方法。

简而言之,文章提出了一种应用 GBDT 主动进行特点筛选跟组合,进而生成新的 feature vector,再把该 feature vector 当作 logistic regression 的模型输入,猜测 CTR 的模型构造。

这里需要强调的是,用 GBDT 构建特色工程,跟利用 LR 预测 CTR 两步是独破训练的。所以自然不存在如何将 LR 的梯度回传到 GBDT 这类复杂的问题,而利用 LR 猜想 CTR 的过程是显然的,在此不再赘述,我们着重讲一讲如何利用 GBDT 构建新的特征向量。

模型结构

雷锋网 AI 科技评论按,本文作者是硅谷高级工程师王喆,原文发表在微信民众号/知乎专栏 王喆的机器学习笔记上,雷锋网获授权转载。