Propensity Scores:用于刻画用户or样本受到的概率,本质上是用于描述选定为实验组和对照组的样本除了外其他特征是否可认为是一致的,我们可以将倾向性得分看作是在特征空间上执行某种降维操作。它将X中的所有特征压缩到一个Treatment倾向上,具体见下面的例子
假定Brad Pitt有一个双胞胎的哥哥,兄弟俩哪都一样:Brad1和Brad2一起起床,吃一样的事物,进行同样强度的体能锻炼等等。有一天,Brad 1 碰巧从街上的促销员那里得到了最后一打Soylent饮料,但Brad 2没有这样的好运气。所以Soylent只出现在了Brad1的食谱上。在这种情况下,可以认为,双胞胎此后出现的任何行为差异就是这个饮料造成的。
将这种情景带入现实世界,我们用下面的方法来估计Soylent对健康的影响:
-
对于每一个喝Soylent的人来说,找到一个各方面都比较接近他的不喝这个饮料的人。比如我们会将喝Soylent的Jay-Z和不喝Soylent的Kanye当做一组,或者喝Soylent的Keira 配对不喝Soylent的Knightley这样。
-
接下来我们就观察二者的不同之处来量化soylent的影响。
然而,在实践时找到两个非常相近的双胞胎是很困难的,如果Jay-Z比Kanye平均多睡一个小时,那么怎么保证二者真的很接近呢?
Propensity modeling(倾向建模)就是这种双胞胎匹配过程的简化。我们并不是根据所有的变量来匹配两个个体,而是根据一个简单的数字来匹配所有用户-----他们喝soylent的可能性(“倾向”)