神经网络模型在广告归因上的应用梳理与展望

目前深度学习研究方法分类

1.纯深度学习模型（一般是直接使用attention机制归因）

LSTM模型：

1 Deep Neural Net with Attention for Multi-channel Multi-touch Attribution（ADKDD2019）

模型： DNAMTA 模型（ LSTM 模型）

模型示例：

方法：使用LSTM模型来拟合用户的浏览路径（即为观测到的广告序列），同时引入时间衰减的注意力机制，训练得到每个广告触点的权重，同时将用户的个人信息用全连接神经网络训练，纳入整体的训练模型中。

结论：使用LSTM相较于传统数据驱动模型准确率大幅提高，同时考虑到了广告触点的时间和顺序依赖性。

思考（优缺点）： 首先就是给注意力层中加了一个时间衰减层，这个作用究竟大不大？还有只是将用户的信息单独训练作为全连接神经网络纳入模型学习中，没有考虑到用户特征对于广告归因效果的具体影响。

输入数据： 没有考虑到印象和点击的区别

2. Learning Multi-touch Conversion Attribution with Dual-attention Mechanisms for Online Advertising（CIKM2018）

模型： DARNN模型 （ RNN 模型）

模型示例：

方法：将广告序列中的印象序列作为encoder，点击序列作为decoder，建立印象——点击的RNN训练模型，同时使用2个注意力机制分别得到印象层和点击层的权重，从而进行转化率预测。

效果：不仅捕捉到广告路径的顺序依赖性，同时区分了印象级和点击级用户行为。

模型数据集 ：Criteo

输入数据： 广告的印象数据（用户的特征）/广告是否被点击的数据 输出数据 ：用户是否被转化

思考：就是将广告的 印象数据和点击数据 分别纳入网络中训练，同时用两个注意力机制来处理权重，这里将广告的印象数据和点击数据区分开来，是一个比较有新意的方式，但是本文也没有考虑到用户的静态特征影响，同时没有考虑到广告的成本因素。

3. Interpretable Deep Learning Model for Online Multi-touch Attribution （ArXIV2020）

模型： DeepMTA （ Phased LSTM ）

方法：考虑到广告的时间序列衰减效应，将基础的LSTM模型换为phased LSTM模型进行拟合用户的浏览序列，同时使用shapley值的方法进行信用分配。

结果： 捕捉到了广告序列的时间序列依赖性，达到了良好的分类效果。

思考： 本文没有做对比实验，归因质量难以验证，是否得到更好的转化预测效果还不好说。

2.因果估计深度学习模型（使用因果估计的方法归因）

1. Causally Driven Incremental Multi Touch Attribution Using a Recurrent Neural Network（Arxiv2019）

模型： 双向LSTM模型+shapley值

模型示例：

方法：使用 双向LSTM模型 训练用户的浏览旅程数据（响应建模），然后使用 shapley值 来计算广告的增量影响（信用分配）。

结果：本模型捕捉了广告强度、时间、竞争和用户异质性的影响，同时满足了分配的公平性。

思考：这里由于数据集不明，不太好比较，就是将注意力机制换成了shalpy值来进行分配。

2.CAMTA: Causal Attention Model for Multi-touch Attribution（ICDM2020）

模型： CRN （causal recurrent network）

模型示例：

结果：最小化了由于时间步长和广告序列所导致的选择偏差，相比于传统模型具有较高的 预测性能 。

优缺点：这篇文章的创新点就在于引入一个新的深度 反事实递归网络 来处理由于时间和触点顺序导致的选择偏差（采用的是MINMAX原理），采用注意力机制来进行归因，此外采用点击（预转换）来预测归因，同时考虑到了成本的影响，但是这里没有对这种混淆因素做具体的分类及处理。

3.CausalMTA: Eliminating the User Confounding Bias for Causal Multi-touch Attribution （KDD2022）

模型： Causal MTA （就是建立在上面论文模型上的改进）

方法： 在上面论文模型的基础上，具体地对用户特征对于转化预测的影响作为细分，从 静态属性和动态浏览 特征两块分别采用重新生成序列和重新赋权的方法来消除用户偏好对于广告归因的影响。同时考虑到了成本的影响。

结果： 对已有的数据归因模型做了一个全部的对比：

优缺点： 属于目前准确率最高的转化预测模型，模型仍然是基于RNN为主要框架。

静态属性 ：用户的兴趣

动态特征 ：先前访问的广告与停留时间

方法： journey reweighting and causal conversion prediction

1. journey reweighting :使用VRAE学习纯信道行程的生成概率，并根据基于用户人口统计的密度估计，计算用于权重计算的随机分配信道的可能性（消除了静态特征与广告曝光之间的关联）。

具体操作 ：

Generation model for channel sequences :使用VRAE生成纯的信道序列，然后将纯信道序列与受用户偏好影响严重的序列对比，将近似随机分配的行程在转换预测训练中具有更高的权重。从而实现对于静态特征的剔除。

2. causal conversion prediction ：梯度反向建立在每个时间步长的输出上，以确保模型无法预测下一个广告渠道（从而消除了 动态特征和广告曝光 之间的关联）

具体操作：通过建立一个特殊的 RNN模型 实现。

1.目前已有的模型都是以转化预测效果作为最后的评判标准，转化预测好的模型一定具有更好的归因性能吗？有没有一种衡量归因效果的指标。

2.目前改进转化预测效果的思路：

优化响应模型（还是得从用户特征入手，思考是完全消除用户特征，还是将用户特征纳入模型训练中；有没有别的方式能够训练到广告的额外特征，提高预测的精度？）

——思考2：通过阅读来深化思考：

用户特征是如何被消除的？ 因果分析 方法是如何体现的？

因果 深度学习 模型与传统 深度学习 模型的区别？

查一查有没有kdd的代码？

模型选择：DNN（在基础的RNN/LSTM模型上优化）/GNN（换GNN模型来做）

模型需要引入的因素：以往归因论文里的一些因素（时间序列/反事实/夏普利值/因果