control confounding in study

最新推荐文章于 2025-04-04 23:24:57 发布

BrownWong

最新推荐文章于 2025-04-04 23:24:57 发布

阅读量967

点赞数

分类专栏： DataMining & MachineLearning 文章标签：混淆变量

DataMining & MachineLearning 专栏收录该内容

15 篇文章

订阅专栏

本文介绍了判断两个现象间是否存在因果关系的三个步骤：首先确认两者之间的关联性；其次验证其中一个现象是否能够预测另一个现象的发生；最后排除其他可能影响结果的混淆变量。文章还详细解释了如何通过实验设计来排除混淆变量。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

如何判断两个现象的因果关系

著作权归作者所有。
商业转载请联系作者获得授权，非商业转载请注明出处。
作者：程毅南
链接：https://www.zhihu.com/question/20532054/answer/15399462
来源：知乎
简化版：1. 两件事（A与B）相互关联（Association）2. A的发生可以预测B的发生（Prediction）3. 排除其他可能的混淆变量（Excluding Confounding Variable）所以可以看出，判断因果其实是个逻辑过程。———————————————————————————————————详细版1. 证明因果，首先要证明两个事件有关联（Association）。这种关联一般来说是粗浅、朴实、简单的一种现象，比如常常有人说“穷人的孩子早当家”、“有钱就是爷”、“量小非君子”、“帅哥往往很有领导才能”等等。关联现象不一定意味着因果关系，但却是一个很好的起点。如果A与B两个事件有关联，往往会吸引研究者的注意，去发掘其中的可能存在的因果关系。证明关联的方法有很多种，比如证明统计学上的相关（Correlation），通过数据分析可以看出A和B是否存在正相关和负相关。不存在关联就不存在因果。（不过统计数据有时候有局限性，因为样本过大后干扰因素变多，不过这么专业的问题不在这儿探讨了，有时间大家可以查查关于吸烟与肺癌的关系的辩论）2. 证明关联后，一般会产生一个假设（Hypothesis），该假设会对阐述A和B的先后关系的推测（Direction of Causation）。如果假设A导致B，那么需要证明A在B前，A的出现要能预测B的出现（所以有时间上的顺序）。这是单向的预测。反过来的另一个方向需要再单独证明。3. 之后要去除掉其他可能的混淆变量（confounding variable）。所谓混淆变量，就是发生在A以外的其他事情导致了B。因为我们想要证明的是 A导致了B，可如果其他的东西导致了B，这个因果关系就不成立了。比如，冰淇淋销量和溺水率是正相关，但事实上这两个都是由“气温”这个因素共同导致的，气温高使冰淇淋销量升高，同时增加了游泳的人数和相应的溺水率。常见的去掉混淆变量的方发是：实验组/对照组设计（Control Group design，也被称为Experimental Manipulation）实验组，这一组样本中做处理A（treatment）。对照组，不做处理A，放置。然后观察两组现象的差别。要证明因果，就是需要实验组出现现象B，而对照组不出现B。这样在相同的实验条件下，实验组因为做了A而出现现象B，对照组没有做A而没有出现B，就能证明，A的加入导致B，而没A不能导致B。例如，铁加稀硫酸产生氢气。实验组是把铁放入稀硫酸，对照组是放置稀硫酸。如果实验组出现氢气，而对照组没出现，那么证明把铁加入稀硫酸可以产生氢气，而不加铁不会自然产生氢气。再如，上面举到的冰淇淋的例子，假设某年夏天冰淇淋销量没有上涨，而溺水率还是那么高，那么就说明冰淇淋不是造成溺水率升高的因素。多说一句，实验组/对照组的设计是整套方法论中非常关键的一环，往往决定了整个实验的成败。样本一致性。一般来说，实验组和对照组要完全一样，才能证明是处理（Treatment）造成了结果的差异，而不是样本本身的差异造成的结果的差异。这个在自然科学的实验中相对简单（只要保证两组样本质量、浓度、所用物质、堆放方式等等物理条件相同就行了），但在社会科学的实验中，因为涉及到人这个复杂的东西，所以会有一些特别的设计，来保证样本一致性，这里介绍两个。随机抽样/随机分组设计这个设计一般出现在涉及人的社会实验。随机抽样和随机分组是为了保证实验组和对照组两个样本没有显著差别，以排除由两组人的不同导致的现象差异。因为人是随机分配的，所以可以假设两个组的人员构成、各种心理特点整体上是相同的。例如，探究粉红色对人情绪的影响。如果实验组都是男人，而对照组都是女人，实验结果的差异就可能是由男女差异带来的，而不是颜色带来的差异。实验前测量设计这个设计是为了在随机分组不可能的情况下，验证两组样本整体相同的办法。简言之，就是在实验前对两组人做一个测试，整体平均数和标准差一样的话，就证明两组人一样。当然，实验后也要测量，证明两组不一样了。最好用类似或者相同的方式测量，以避免由于测量工具不同造成的系统误差。例如，实验前量水温，实验后量水温。风险，设计到人的实验，可能他会在实验中学习，比如先做了一遍习题，再做一遍同样的成绩会升高。所以有的时候测量也需要讲究一定技术和方法，有时候也需要做一些善意的欺骗=_=排除尽可能多的第三方因素后，我们就可以比较有信心地说，是我们的处理（treatment）A导致了B，而不是什么其他的东西导致了B。另一种说法是我们的manipulation（操纵）是有效的。总结：如果这个实验（通常是一系列的各种实验和研究过程）证明了关联和先后，并排除了可能的第三方因素，那么就可以说这个因果关系在某个确定的条件下（你的实验条件）是可信的，成立的。

深入阅读
How to control confounding effects by statistical analysis
Control of Confounding in Study Design