定义 在某个条件下的两组数据,分别讨论时都会满足某种性质,但一旦合并考虑,却可能得到相反的结论
悖论原因 实验组和对照组的样本特征分布不一致
例1:
例2:
实验流量越大,则越容易发生辛普森悖论
举个例子说明:如果只是拿100人做试验,50人一组随机分配,很可能是28男22女对22男28女,每个性别只是相差6个人而已。如果是拿10000人做试验,5000人一组随机分配,很可能是2590男2410女对2410男2590女,每个性别就差了180人,而这180人造成的误差影响就可能很大。
如何规避辛普森悖论?
- 在试验设计上,如果某两个变量对试验结果都有影响,那么我们应该把这两个变量放在同一层进行互斥试验,不要让一个变量的试验动态影响另一个变量的检验,如果我们觉得一个试验可能会对新老客户产生完全不同的影响,那么就应该对新客户和老客户分别展开定向试验,观察结论
- 在试验实施上,对试验结果我们要积极的进行多维度的细分分析,除了总体对比,也看一看对细分受众群体的试验结果,不要以偏盖全,也不要以全盖偏。一个试验版本提升了总体活跃度,但是可能降低了年轻用户的活跃度,那么这个试验版本是不是更好呢?一个试验版本提升总营收0.1%,似乎不起眼,但是可能上海地区的年轻女性 iPhone 用户的购买率提升了20%,这个试验经验就很有价值了