|计算广告系统的机器学习应用技术之探讨

在计算广告系统中 , 用户在最终转化或购买广告商品之前 , 往往会浏览一系列来自不同渠道的广告商品曝光(impression) 。 有三位用户分别浏览了展示广告、搜索广告或来自多个渠道的推荐商品 , 其中用户2产生了最终的转化 。 对于用户接触一次广告曝光的行为 , 我们称之为广告触达(touch) 。 对于广告主来说 , 准确估计用户在网上浏览过程中不同的广告触达 , 对于用户最终转化行为的贡献值十分重要 。 这不仅有助于分析广告投放过程的投放效率 , 更能通过分析帮助指导后续广告投放的策略 。
1. 转化归因建模技术计算广告中 , 转化归因通常通过某些基于规则的方法计算 , 例如第一次点击或最后一次点击 , 然后根据获得的归因结果计算不同广告投放渠道的投资回报率(ROI) , 这可能会导致一些偏差 , 因为实际上用户的最终转化一般由多次不同的广告触达共同作用影响 。
近年来 , 有很多基于多触达转化归因(multitouch conversion attribution)的工作发表 , 用于对各种广告投放渠道中的一系列触达点进行归因 。 第一个基于数据驱动的多点归因模型将用户浏览的广告信息输入分袋逻辑回归(bagged logistic regression)模型 , 预测用户转化率 。 其他一些工作主要基于简单分布假设的概率模型 。
另一类多点归因模型基于“时间一事件”模型与生存分析理论 , 它将不同时刻的用户转化行为事件建模为预测目标 , 并在考虑删失数据影响的同时 , 估计特定时间转化事件发生的概率 。 在最近的一些工作中 , 基于深度神经网络的注意力机制的模型被提出并用于建模转化归因与广告预算分配 。
【|计算广告系统的机器学习应用技术之探讨】这些工作利用数据驱动的方法 , 将用户最终购买转化更加合理地归因于用户在平台的一系列广告触达序列上 , 这将极大促进广告主接下来的预算分配与广告投放策略的优化 。
2. 计算广告中的反欺诈技术由于互联网广告中的特定付费模式可能存在作弊获利的漏洞 , 计算广告平台的反欺诈技术在领域内一直有很高的关注度 。 例如 , 针对CPM展示付费模式 , 媒体方可以用程序生成大量的虚假用户访问媒体页面 , 请求广告展示 , 从而赚取广告费用;针对CPC点击付费模式 , 作弊者则可以通过提交虚假搜索并点击竞争对手的搜索广告 , 从而快速耗尽其广告预算 。 这些作弊或欺诈行为将降低计算广告的投入产出比 , 损害整个计算广告市场的发展 。 如果一个广告平台的欺诈流量过多 , 则将会失去大量优质的广告主资源 。 根据IAB的报告 , 美国互联网广告市场2015年总量596亿美元中有46亿美元的广告预算被浪费在“无效浏览”上 , 其中70%都是诸如CPC、CPA的效果广告 , 30%是基于CPM的展示广告 。
一般人工的反欺诈手段很难有效抑制不断更新升级的欺诈策略 , 机器学习技术成为了反欺诈的一个有力手段 。 由于个体的浏览、点击行为是否来自机器人是很难被精准标注的 , 计算广告的反欺诈技术主要来自无监督学习 。 例如美国的Dstillery广告技术公司研制出一种由媒体之间访问用户的覆盖率构成的共同访问网络(co-visit network) , 来鉴定哪些媒体使用了机器人网络来骗取广告展示 。 该工作的基本假设是 , 一般正常用户在媒体网站之间的访问是随机的 , 这样两个媒体网站的共同访问用户的比例是很低的 。 而网络机器人由于来自为数不多的一些源头 , 所以使用了大量网络机器人作弊的媒体之间的共同访问用户比例就会不自然地提高 。 通过使用图聚类算法可以找到这样的作弊媒体群 , 从而加入广告投放的媒体黑名单中 。
对于有监督学习技术 , 相比于用户或IP级别 , 媒体层面的人工标注要可行得多 。 例如2012年的手机端广告欺诈检测竞赛(FDMA)提供了一个基于新加坡媒体和广告平台BuzzCity的媒体广告欺诈分类标注数据 , 其中健康流量媒体被标注为“正常” , 被检查到可能刚开始使用机器人流量从而使流量统计偏离寻常区间的媒体被标注为“观察” , 已经被确认使用了机器人流量的媒体被标注为“欺诈” 。 该竞赛旨在寻找一种有效的机器学习方案来给出媒体层面的欺诈检测 。 最终该竞赛的前几支队伍使用的模型为比较常见的支持向量机(Support Vector Machine , SVM)、神经网络、梯度增强机(Gradient Boosting Machine , GBM)等 。 值得注意的是 , 不少重要的机器学习数据特征被挖掘出来 , 例如媒体访问的前序网址的统计、用户使用设备日活跃用户数量(Daily Active User , DAU)的统计、用户地域分布等特征 。
计算广告作为互联网生态的核心经济引擎 , 其稳定发展的重要性不言而喻 。 本文讨论了机器学习技术在计算广告领域的多方面落地 , 助力计算广告成为当今世界的第一大广告形式 。 展望计算广告的未来发展 , 我们认为以下几个结合机器学习技术的发展方向对于计算广告经济生态十分重要 。
更全面的顾客旅程(customer journey)数据收集助力公平的转化归因 , 促进生态健康发展:当前大部分采用的最后触达归因(last touch attribution)机制导致了很多接近欺诈的广告展示策略 。 要让用户从品牌感知到商品消费的整个顾客旅程的每一环广告都健康发展 , 一个公平的归因机制是基础 , 而每个广告触达环节的数据收集对最终转化的归因至关重要 。
多智能体强化学习和博弈论助力更优的市场机制的探索:对于广告主而言 , 每次广告出价是决策;对于媒体而言 , 每一次广告位拍卖的保留价设置是决策;对于用户而言 , 每次点击、购买是决策 。 多方的长期决策优化可通过多智能体强化学习技术结合博弈论均衡理论来分析和模拟市场的动态演化 , 探索更好的市场机制设计 。
远程监督和弱监督学习助力更加自动化、高效率的反欺诈技术:基于大量标注数据的有监督学习的方法无法应对日新月异的广告欺诈行为 , 而基于其他维度数据的远程监督学习技术和极少量标注样本的弱监督学习技术有望达成高度自动化的、数据利用效率高的欺诈行为检测 , 从而全面解决这一问题 , 改善计算广告的整个生态 。
推荐阅读
- 系统性红斑狼疮|盘点:系统性红斑狼疮治疗药物研发进展
- 系统性红斑狼疮|荣昌生物泰它西普获批,60年来第二款系统性红斑狼疮新药
- 宇航员|把女宇航员送月球生活,一个月要花多少钱?NASA计算?结果惊人
- 沙尘|警惕,秦岭防线可能失守!超级计算机:沙尘或携泥雨入侵四川盆地
- 南美白对虾|南美白对虾混养各种鱼,生态系统稳定,养殖成功率提升明显
- 生态系统|研究揭示荒漠生态系统对气候变化响应
- 人工智能|人工智能系统一秒内算出震源机制参数
- uc浏览器|UC、360 深夜回应央视点名虚假医疗广告问题|丁香早读
- 微生物|微生物分泌系统【T6SS】知识介绍
- 降温|确定,南方要倒春寒!超级计算机:闽粤降温剧烈江南山区或有霜冻
