建模框架

无偏建模（理想建模）

T-Learner

在实验组和对照组分别基于假定特征分布一致的用户特征训练一个实验组response预测模型和一个对照组response预测模型，然后在要预测的样本中做差值计算uplift值，这个uplift值往往是概率差

这种学习方式下，实验组和对照组的模型隐含了treatment和control的信息，适用于执行策略和不执行策略两种场景下 Pasted image 20241016165120.png 缺点：对照组和实验组分别建模，两个模型完全隔离，之后再做差，会导致误差叠加，且间接建模，对微弱的uplift信号不敏感优点：原理简单，易用，可以套很多种模型，因此可以作为baseline 注意⚠️：uplift值预测出来后往往是基于排序使用，比如有预算Budget，按排序从高到低依次发券，直到发完为止 Pasted image 20241016165737.png

S-Learner

将对照组数据和实验组数据放在一起建模，使用一个模型，将实验分组（干预项） 作为一个单独的特征和其他特征一起放入模型中对用户response进行建模，例如：在特征维度进行扩展，引入干预信号相关特征T（T为0代表干预组，否则为非干预组，T同样可以扩展为0-N，建模multiple-treatment问题，比如优惠券的不同额度，广告的不同素材）

优点：模型训练时数据利用更充分，建模更加简单，只需要一个简单的逻辑回归或树模型(随机森林、Xgboost、Lightgbm)，避免双模型打分误差积累，能对处理变量或者其他变量进行强制的单调约束，双模型无法做到这一点缺点：本质上还是对response建模，也就是还是间接表示uplift

X-Learner

Pasted image 20241016170837.png

Uplift Tree

提升树的分裂准则为找到使分裂前后Control组和Treatment组Response分布差异最大化 [https://mp.weixin.qq.com/s/RrbA_hZ_C254MCog1RANPg?token=100729752&lang=zh_CN] ❓为什么提升树也和使用信息增益相关的决策树一样，面临倾向于多值特征的问题？ 💡使用信息增益作为分裂准则的决策树的根本问题是，它只关心对熵的减少，没有想到熵的减少可能是由每个节点上的样本量规模急剧减小得到的，极端一点来说，每个样本都分到一个子节点上，这样熵会特别小，但是这样没有任何学习的意义。提升树也是一样，如果存在多值特征，在这组特征上进行分裂，分裂后每个子节点的样本数可能较小，小样本中的随机波动更显著，可能由于这种情况从而使模型选择多值特征进行分裂

⚠️：uplift tree以及引申的因果森林等模型，可以在可观测的协变量维度上通过节点分裂的方式实现一定程度上的纠偏和同质化，但是如果存在未观测到的confoundness，则无法完全去偏，需要结合RCT、PSM等方法

去偏建模

Pasted image 20250116151951.png 当我们在基于 observational data 在进行因果效应（ATE or CATE）估计的时候，一个绕不开的问题就是 confounding bias，即在真实场景下总会存在某些 confounder W （同时影响样本的干预结果 T 以及最终结果 Y )，使得进入实验组和对照组的样本分布存在差异。基于这样的样本得到的因果效应估计结果自然也是有偏的

IPW

基于倾向性得分一定程度上解决混杂问题和偏置问题，在一个理想的纯随机实验（randomized trial）环境下，每个样本落入实验组的概率均为0.5。但是在真实的观测数据中，因为 X 中混杂着一些 confounder W ，导致不同样本 Xi 落入实验组的概率 p(Ti=1|X=Xi) (i.e. 也即倾向性得分 π(Xi) ) 各不相同。有的样本被施加干预的倾向性高就更容易落在实验组中，而有的相对较低的则更可能落在对照组中。而 Inverse-propensity weighting 所做的就是基于倾向性得分 π(Xi) 对不同的样本设置不同的样本权重 wi 来试图将实验对照组的样本分布还原到一个随机实验的状态 每个样本的权重如下：

w_i=\frac{T_i}{\pi(X_i)}+\frac{1-T_i}{1-\pi(X_i)}

道理也是类似的。从直觉上 IPW 似乎非常合理，但是其是否真的就能起到 debias 的效果呢？我们以计算 ATE 为例来简单证明一下。

=E[E[Yi(1)|Xi]−E[Yi(0)|Xi]] =E[E[Ti|Xi]E[Yi(1)|Xi]π(Xi)−E[1−Ti|Xi]E[Yi(0)|Xi]1−π(Xi)] =E[E[TiYi(1)|Xi]π(Xi)−E[(1−Ti)Yi(0)|Xi]1−π(Xi)] =E[TiYiπ(Xi)−(1−Ti)Yi1−π(Xi)]$$ 其中上述推导的第4步依赖的就是 **unconfoundedness** 假设，即 Y(1),Y(0)⊥T|X 。通过上面的证明，我们可以证明基于 IPW 的样本加权方式得到的 [estimator](https://zhida.zhihu.com/search?content_id=248840472&content_type=Article&match_order=1&q=estimator&zhida_source=entity) 是 ATE 的一个[无偏估计](https://zhida.zhihu.com/search?content_id=248840472&content_type=Article&match_order=1&q=%E6%97%A0%E5%81%8F%E4%BC%B0%E8%AE%A1&zhida_source=entity)。 ### Doubly Robust Learning IPW的问题在于，其无偏性依赖于倾向性得分模型$\hat{\pi(x)}$的预估准确性，如果其预估不准，尤其是PS出现在分母上，当其出现某些接近于0的极端情况时，非常容易被带偏 DRL要做的，就是构建**同时包含 potential outcome 的预测模型$\hat{\mu}(x)$以及倾向性得分的预测模型$\hat{\pi}(x)$**，这两个模型只要有一个预测的准，整体的鲁棒性就足够强 ![[Pasted image 20250110171349.png]] ![[Pasted image 20250110171421.png]] ![[Pasted image 20250110171452.png]] ![[Pasted image 20250110171557.png]] ![[Pasted image 20250110171948.png]] ### DML https://zhuanlan.zhihu.com/p/401010271 # 数据获取 常见的因果推断领域的数据分为ob数据和rtc数据两种 rtc数据为随机分流实验得到的数据，理论上可以满足因果推断的CIA假设，即避免confoundness，如果流量的协变量一致或实验本身就是进行了PSM的，那么CATE/ATE可以直接由实验组和对照组对比得出，数据质量也比较高，可以直接用于训练一些有强假设的uplift模型（T-learner、S-learner），但是需要专门设计实验，获取成本比较高 ob数据是对日常业务活动中发生的干预和结果的观察，而非进行实验设计，这种情况下，treatment存在受到confoundness干扰的可能，设计uplift模型时，需要考虑纠偏问题，但是毕竟不需要专门设计实验，因此数据获取成本较低