天涯书库 > 逻辑思维:拥有智慧思考的工具 > 第11章 实验经济学 >

第11章 实验经济学

你是否发现,汽车销售员给女人提出的报价比给男人提供的报价要高?

教室的大小会影响学习吗?

复合维生素是否对你的健康有好处?

一位雇主是否会对长期失业的人抱有偏见,只是因为他们自己曾长期失业?

绝经后的女性是否应该接受激素替代疗法以减少患心血管疾病的概率?

针对上述的每个问题都有许多不同答案。有些答案基于错误的方法论而产生的错误研究结论。有些答案则正确无疑,那是因为采取了准确的科学方法。

本章将会展示3个理解科学发现和如何证实其真伪的重要方面。

1.那些依靠来自科学事实的相关性研究很少会产生错误——即使那种相关性来自于非常复杂的“控制”了多项变量的分析——“多元回归分析”。

2.那些对比某两种疗法(或其他事物)的实验,如果人(或其他实验对象)是随机分配的,通常比基于多元回归分析的研究更有说服力。

3.因为涉及人类行为的假设通常会出差错,因此有必要在任何可能情况下进行实验以验证那些有关重要行为的假设。

多元回归分析

本章开头的所有问题都是在问一些自变量或预测变量(一个输入值或是一个推断的原因)是否影响了一些因变量或结果变量(一个输出值或一个效果)。实验能控制自变量;而相关性分析只能测量自变量。

一个可用于相关性分析的工具是多元回归分析,在这个分析中,多元自变量彼此间同时具有联系(或者是有序列上的联系,当然这里我们不探讨多元回归分析的多样性),并且与因变量之间也具有联系[1]。相关的预测变量和其他被当作控制变量的自变量一起被检验。检验的目的是为了证明变量A影响了变量B,而除A之外的其他任何变量都不会产生这种效果。这就是说,A与B两者之间的关系会始终存在,即便那些控制变量对因变量的效果也被考虑在内。

来看下面这个例子。吸烟和较高的心血管疾病发病率有关。人们会倾向于认为吸烟引发了心血管疾病。问题在于还有大量其他事物与这二者皆有联系,例如年龄、社会阶层、肥胖。年迈的吸烟者比年轻吸烟者吸烟年头久,因此我们需要把年龄因素排除在吸烟与患病的关系之外。否则,我们就会认为是年纪大和吸烟这两项因素与患心血管疾病有关。这样就合并了两个变量。我们只想知道吸烟和患心血管疾病之间的关系,这个人究竟有多大年纪我们并不关心。我们需要“控制”年龄的影响,把年龄-患病的关系剔除出吸烟-患病的关系。这样我们就可以说,实际上,吸烟和患心血管疾病间的关联在各个年龄层都能看到。

对于社会阶层这个因素来说,以上逻辑同样有效。在其他因素相同的前提下,一个人所处的社会阶层越低,他吸烟的可能性越大;一个人所处的社会阶层越低,则他患心血管疾病的风险越高,同时这不受其他风险因素支配,比如吸烟。对于肥胖这个因素也是同理。这些同吸烟和患心血管疾病的概率都有关联的变量需要剔除出去,这样才能看到吸烟和患心血管疾病之间的真正联系。

多元回归分析背后的原理是,如果你控制了一切与自变量和因变量都有关系的因素,将它们从交错的混合影响中抽离,那么你就能得到预测变量与结果变量之间真正的因果关系。实际上,会有许多因素妨碍这一理想分析状态实现。

首先,我们如何能确定我们辨认出了所有可能的混淆变量——那些与自变量与因变量皆有关的变量?我们几乎不可能宣称认清了所有变量。我们只能测量那些我们认为可能重要的变量,并且不考虑无穷多的我们认为不重要的变量。然而“假设可能是错的”随时存在。因此这场战役通常会输掉。

其次,我们如何正确地测量每个可能的混淆变量?如果我们对一个变量测量得不准确,那么我们对它的控制就达不到要求。如果我们对一个变量测量得太糟糕以至没有任何效度,那么我们就无法控制任何变量。

有时候,对于测量一些有趣和重要的问题,多元回归分析是唯一可用的研究工具。比如说,宗教信仰和实践是否与较高或较低的生育率有关。我们无法进行一个实验来检验这个问题,无法随机分配人们去信仰什么或是不信仰什么。我们只能利用像多元回归分析这样的检验相关性的方法。实际上,宗教因素和生育率是有关联的,不论是在个人层面上,还是在国家和文化层面上。将收入、年龄、健康状况等个人因素控制起来,将所属族群这个因素控制起来,将国家这个因素控制住,那么宗教信仰越深,则生育率越高。然而,可能只是因为我们不知道,宗教信仰和生育率之间的因果联系可能并不存在,实际上是有未知的第三变量对两者皆有影响。因果关系甚至有可能体现在相反方向上:有了太多的孩子可能会让人们去寻求宗教支持和指引!不过,相关性的发现很有意思,知道这些便可能得出一些真实世界中的推论。

我很清楚,并不是所有相关性研究或者多元回归分析都是没有价值的。我自己经常使用多元回归分析法,即使是在我用实验探索因果关系的时候。如果我知道有一种特定的事物间的关联存在于生活中,而不只是存在于实验室中或是某种非典型的生态环境中时,我会十分开心。

另外,我们总能聪明地让我们确认自己发现了一些因果关系。国家的富裕和国民的智商水平之间的联系,这里的因果联系是怎样的?这种联系本身充满争议。很多事情都和二者皆有关联,比如身体健康。“健康,富裕和睿智”并不仅仅是种表述,这三者之间关联极深,而其中又涉及许多潜在的因果变量。并且,国富与民智之间的因果联系可以从两个方向上来看。如果国民更聪明,那国家也更富有,这是因为有更多先进和复杂的方式可以采用,让生活变得更加容易。如果一个国家更富裕,那它的国民更聪明,因为财富通常可以提升教育质量。

但是,有时候我们也会看到一种被称作“滞后相关”的因果关系,即一个自变量(假定的原因)与另一个变量(假定的结果)的关系会在一段时间之后体现。例如,如果一个人因为教育水平提高而变得更聪明,那么他在将来的某个时候会更富有吗?的确会更富有。几十年前,爱尔兰在提升其教育体系上获得了综合性的高度成功,尤其是成功提高了高中、职业学校和大学的教学水平。大学入学率在较短时间内就提升了50%。经过30年的发展,那个曾经国民智商测验得分远低于英国的爱尔兰(据英国的一些心理学家称,这是基因导致的)的人均国内生产总值竟然超出了英国。芬兰同样从几十年前开始努力,显著提升了国民的受教育水平。芬兰主要的关注点在于保证那些最贫穷的孩子也能获得和最富有的孩子一样的受教育机会。到2010年,芬兰人在国际学术成就测验中取得的成绩超过其他任何国家的人,其个人平均收入取得了极大增长,一举超过日本和英国,紧随美国居次。那些在近些年中没有在教育提升方面取得长足进展的国家则在国民人均收入上有所跌落,比如美国。这样的数据之间仍存在相关性,而它们表明当一个国家开始打破其教育方面的困局时,它就会变得更富裕。当一个国家在教育方面停滞不前时,与其他保持进步的国家相比,它会失去其财富。这一点相当有说服力。

许多其他情境也可以极大地提升相关性研究的说服力,使其几乎可以与自然实验,甚至是与随机控制实验的说服力相比肩。例如,纯粹对于效果的度量有时候会让我们感到这肯定不仅仅是人为控制的,而是存在相关变量。我们有时候也会对一种情况表现出确信无疑的态度,即如果效果是有“剂量依赖性”的,那么产生这种效果的特定治疗方法便是真实的。换句话说,使用某种治疗方法的频率越高,则效果显示得越明显。比如,那些一天抽两包烟的人比一天吸一包烟的人更有可能在心血管方面出现问题。这更容易让人们相信,吸烟真的会让心血管的健康状况恶化,而其实单纯的吸烟数量与发病率并无关联。

然而,因为多元回归分析常被采用,所以关于它确实存在一些严重的问题。我必须要明确指出这些问题,因为媒体总在持续报道基于错误方法而得出的研究结论,而一些重要的政府决策就是基于这些报道而来。流行病学家、疾病研究者、社会学家、心理学家和经济学家都会用到多元回归的工具。它会引发严重的错误,而这种方法的拥护者宣告他们发现了所谓的因果关系其实是虚假的。

在许多情况下,多元回归分析向人们揭示了某种因果关系,而真正的随机控制实验给出了另外的结论。在这种情形下,我们应当相信实验的结果。

你会认为一个班级中孩子的数量对孩子们的学习成绩有影响吗?看上去似乎是有影响的。然而,有许多备受尊敬的调查学者进行的大量多元回归分析告诉我们,去除学区里的孩子所在家庭的平均收入、学校规模、孩子在智商测验中的表现、城市规模和地理位置这些因素,班级的学生数量与学生的成绩并没有关联。推论是:我们现在知道了并不需要浪费钱缩小班级的规模。

然而,田纳西州的科学家针对班级规模进行了一次随机实验。通过掷硬币,研究者将幼儿园三个年级的孩子随机分配在小班(13~17人)或大班(22~25人)中。这个研究发现小班中的孩子在标准化考试中的成绩提高了0.22个标准差;而且少数族裔孩子的成绩提升效果比白人孩子更明显。另外还有三个关于缩小班级规模对孩子成绩影响的实验,这些实验的结果几乎都和田纳西州的实验相同。这四个实验并不只是关于班级规模和学生成绩关系的附加实验。它们替代了所有有关班级规模的多元回归分析。这是因为对于这类问题,我们会更信赖实验的结果。

为什么通过多元回归分析会得出班级规模不重要的结论呢?我也不知道。但是,我们也不必非要知道一个有关班级规模是否重要的强力观点。

当然,这四个实验也留下了许多悬而未决的问题。我们并不知道对于一个国家的不同地区、城市化程度不同的地域、不同的社会阶层而言,班级的规模是否重要。我们不知道那些产生了不同教学效果的班级究竟发生了什么。这些问题的答案可以通过进一步实验来寻找。而对于每个应用不同于现在已有方式来检验不同人群的实验来说,如果有了积极发现,那么我们会更加确信规模大的班级更有利于学生提升成绩。

缩小班级规模是否是进行教育投资的最佳着力点则是另一个问题,寻找这个问题的答案需要的成本不低。芬兰并没有特别的小型班级,最终教学水平提高更多地是因为向教师支付了更高的薪酬,并且主要从大学班级最优秀的学生中挑选教师,就像美国现在做的一样。不过,无论在什么情况下,一个国家都不可能只根据一个X因素给Y因素带来了有益影响就制定出一个政策。在政策出台过程中,还是需要完备的成本–收益分析的。

那些基于多元回归分析或相似分析方法的相关性研究所存在的问题是,它们明显会受到自我选择的错误影响。各类样本——人、班级或农田——有着千百种不同。长期吸烟者并不只是吸烟的时间久,他们还会被各种与吸烟有关的因素影响,比如更大的年龄、更低的社会阶层和肥胖。A班的教室比B班的大,然而可能仍然存在一些研究者无法控制的其他变量。A班可能有一位更好的老师,这是因为校长认为可以管理好大班的老师更优秀。B班的学生可能有更好的学业成绩,即便它比A班的学生多,因为校长认为更多有能力的学生在一起会不易受到外界因素干扰。这样看来,并不能通过简单地增加教室或控制变量来解决问题。

在那些样本是在实验情境下随机分配的研究中,教室存在的多样性在其他层面上也会存在。然而,重要的是,实验中是由研究者选定具体条件的。这意味着,平均而言,实验教室和控制教室有着同样好的老师,同样有能力和积极主动的学生,同样的资源。这些教室并不是自己“选择”了它们所属的水平,而是研究者选定的。那这两类教室唯一的区别就在于相关变量了,即班级的规模。那么,像这样基于班级规模的实验便不会得出确定性的结论。教师和管理者在此不是双盲的。他们知道每个班级的规模,这可能会影响他们的教学方式,包括他们对工作投入多大的精力。这就是那些涉及自我选择的问题中的缺陷。

医学乱象

你是否知道摄入大量橄榄油可以让你中风的概率下降41%?你是否知道如果你患上了白内障并对其进行手术,则在未来15年中你的死亡率会比未进行手术的人低40%?你知道耳聋会导致痴呆吗?你知道怀疑他人会导致痴呆吗?

如果你对上述说法感到怀疑,那是很自然的。然而,这类所谓的发现不断出现在媒体的报道中。它们通常是基于流行病学研究而得出的结果。(流行病学是针对患病群体类型和病因的研究。)大量的流行病学研究都是依赖多元回归分析而进行的。流行病学家们通过多元回归分析“控制”诸如社会阶层、年龄和病人曾经的健康状况等因素。可是,他们无法避免自我选择带来的问题。有条件采取特定治疗方法的只是一类人,能消费大量特定食品的只是一类人,能摄取特定维生素的也只是一类人。这些人跟没有条件做这些事的人有着诸多不同。

让我们来看那项声称摄入更多橄榄油能降低中风概率的研究,在此研究中剔除的控制因素包括“社会经济背景、体育运动、身高体重指数、中风的风险因素”。那些“频繁”摄入橄榄油的人比从不食用橄榄油的人中风的概率降低了41%。然而,可能并不是摄入橄榄油本身这件事降低了中风概率,而是某种和消费橄榄油相关的事造成的影响。比如说,种族的原因。意大利裔美国人是消费橄榄油的一大群体,而非洲裔美国人则几乎不会消费橄榄油。意大利裔美国人的预期寿命比黑人要长得多,而黑人则刚好更容易中风。

在流行病学研究中最大的潜在“捣乱分子”通常是社会阶层。如果不是其他大多数医学方面的原因的话,阶层应该是最明显的造成不同人群中风概率不同的因素了。富人和我们不同。他们有更多的钱。更有钱的人便能消费得起橄榄油,而不是玉米油。更有钱的人会有条件进行更广泛的阅读,与他人交流阅读体会,从而相信橄榄油比其他油类更健康。更有钱的人能享受更好的医疗服务。更有钱的人——那些处于更高社会阶层的人,无论是通过教育水平、个人收入,还是职业声望来衡量都会享有更好的生活。

在流行病学研究中控制不了社会阶层因素而带来一个后果是无法找到一种特定疾病的病因。假设研究者尝试控制社会阶层变量,那么该如何操作呢?有些人使用的收入指标,有些人用的教育水平,有些人用的职业声望。哪一种最好?还是说你最好把三者结合起来?真实的研究中其实会使用其中一种,或者都用,或者另择其他变量。这样做的结果就是媒体上各种“医学发现”让你感到混乱迷茫。(油脂对你无益。不,油脂有益。红肉好。不,红肉不好。抗组胺剂可以有效减轻一般感冒。不,抗组胺剂没什么用。)产生这些不同的结论就是因为研究者采取了不同的方法去定义社会阶层,或者甚至是根本没有考虑这个因素。

然而,社会阶层只是大量潜藏于多元回归分析研究中的干扰因素之一。几乎所有在此类研究中与预测变量和结果变量都相关的因素最终都能用来解释那两个变量的关联。

在市场中,有上千种食品补充剂。多元回归分析研究有时能发现某一种补充剂对另一种有益。媒体继而就向公众传达了相关信息。不幸的是,一般读者通常无法判断究竟是否应该对一个基于多元回归分析的特定研究给予较多关注,或者一个真正的实验是否能够传达应当予以注意的重要信息。信息的传达者,即便是那些专业的保健信息传达者,通常也无法完全理解两种研究方法之间的重要区别。

有众多事例可以表明多元回归分析研究发现的是一件事,而实验发现的是另一件事。例如,多元回归分析研究表明摄入维生素E补充剂可以降低患上前列腺癌的概率,而科学家们在全美多地进行了一项针对维生素E补充剂的随机实验表明,摄入维生素E补充剂竟然让人们患此癌的概率提升了一点点。

维生素E不是唯一存疑的补充剂。有大量实验研究表明,摄入复合维生素——这是一半美国人都在做的事——没有明显益处,甚至大量服用某种维生素实际上会给人带来伤害。现在几乎没有什么证据可以证明市面上除了维生素E之外的其他5万多种食品补充剂的作用。我们得到的大多关于特定补充剂的证据都证明它们并没有用,有些还有害。糟糕的是,在补充剂生产者的游说下,国会让那些补充剂得到联邦规章的豁免,这些生产者不必通过实验证明那些补充剂的实际效用。结果便是,每年人们在这些无用甚至会伤人的“万灵药”上浪费数十亿美元。

在只能用实验解决问题时误用多元回归分析

一个人待业的时间越久,他再找到工作的难度越大。在本书写作之时,美国短期(14周或者更短)待业的人数只比历史上“大萧条”时期之前的人数稍微少一点。但是,长期待业的人数比那时高200倍。一些雇主是否对长期待业者抱有偏见呢?有些人根本不被考虑,是否仅仅因为他们长期待业呢?多元回归分析并不能告诉我们,在其他条件一致的情况下,雇主们是否会对长期待业者表现出不公正。长期待业者可能有糟糕的就业记录,或者对找工作一事表现得怠惰,又或者对其所做的工作极其挑剔。政客们在“大萧条”时期总会以这些陈词滥调作为说辞,然而你依然不能利用多元回归分析来证明这些解释是否正确。即使控制再多的变量也无法避免自我选择的影响,你无法辨别是否存在聘任偏见。

唯有实验方能回答此问题。经济学家兰德·加亚德和威廉·狄更斯向600个开放职位投了4800份虚构的申请资料。在申请的其他条件都一样的情况下,那些短期失业的虚拟申请人获得面试的机会比长期失业者多两倍。实际上,这些短期失业者并不比那些长期失业者更符合岗位要求。

有些问题的确只能借助实验,而一些科学家始终感觉通过多元回归分析才能更好地解答。

许多实验研究表明,非洲裔的美国人在申请工作时会遇到下述情形,在两个申请人其他条件都相同的情况下,如果申请人的名字听上去像是黑人(比如D’Andre或Lakaisha),则其获得面试机会的可能性比名字不像黑人(比如Donald或Linda)的人低。名字听着像白人的申请人获得的面试机会比名字听着像黑人的人多50%。有一个听着像白人的名字在找工作中获得的好处几乎等于8年的工作经验。德高望重的经济学家罗兰·弗莱尔和史蒂文·莱维特对黑人姓名是否真正导致了更低的经济产出感到怀疑,于是他们利用多元回归分析检验听着像黑人的名字和各种经济产出之间的关系。他们研究的人群是出生于加利福尼亚州的非西班牙裔黑人女性,她们在成年后依然在加州工作生活。因变量不是找工作的成功率,收入或是职业声望,而是评定生活状况的一些间接指标,比如不同区域的女人的平均收入,以及她们是否有私人健康保险。研究者声称他们使用的变量是“衡量她的当前工作质量的最佳指标”。(对于研究者而言的确是最好的,不过这真的是一个对于职业成就所进行的相当粗糙的评定。)

弗莱尔和莱维特发现,名字听着像黑人的女人在代表职业成功的指标上表现得远不及名字听着像白人的女人,正如我们基于实验所做出的预测。然而,当他们控制了以下变量例如这个女人出生的医院里黑人婴儿的出生率、她出生的镇里黑人婴儿的出生率、她的妈妈是否生于加利福尼亚州、她的妈妈生育她的年龄、爸爸当时的年龄、孕期长度、她是否生于一家镇医院、她出生时的体重、她自己生的小孩数量、她是否是单亲妈妈……两位学者发现名字的类型和职业成就之间的关系消失了。

两位学者注意到了这种分析存在的问题。他们承认“这种实证研究方法的明显缺陷是如果有关于某个女人的未被观察到的变量与生活质量和她的名字本身都有关联,那么我们的评定将会存在偏差”。的确如此。

然而,两位学者进一步研究发现,在控制了其他因素的情况下,某个女人的名字听起来像黑人的程度如何和生活质量之间并无关联。“我们发现……在控制了一个女人出生时的相关状况变量后,有一个明显的黑人名字和之后的生活质量之间没有负面关联。”当然,还有大量的变量可以用来公正地检验这个结论,其中有许多是比弗莱尔和莱维特所用的变量更有效的指标。(当有相当大数量的变量被检验时,其中的许多都会与因变量有更强的联系,而且这种联系的强烈程度超过了变量与最根本的相关性之间的联系,结论因此也就不可靠了。)

弗莱尔和莱维特两人暗示,父母在给孩子起一个听着像是黑人的名字时,并不会担心这在未来可能会对孩子的职业生涯带来什么负面影响。而从实验研究的角度来看,没有负面影响几乎是不可能的。

凯瑟琳·米尔克曼和她的同事最近所做的一项研究表明,一个听着像是黑人的名字会成为一个人申请入读研究生院的明显障碍。许多教授每周都会收到一封由一个信心十足的学生发来的请求面试、寻求科研机会的邮件。研究表明,如果这个学生的名字听着像是白人,那他得到面试机会的可能性要多12%。这种差异会对研究生入学带来明显的影响。是否能获得研究生院导师的青睐并得到第一次面试机会深深影响着申请人未来的职业生涯。

为什么弗莱尔和莱维特情愿相信多元回归分析研究比实验研究更有效且准确呢?我猜想这可能源于法国人所谓的“专业误信”(deformation professionelle),即倾向于采用同专业的人都使用的工具和观点。对于经济学家进行的大多数类型的研究而言,多元回归分析都是唯一可用的工具。经济学家们并不能控制美联储设置的利率水平。如果你想了解在“大萧条”时期究竟是紧缩还是刺激性的财政政策能帮助国家经济走出困局,你可以将经济紧缩的程度与经济恢复的程度相联系,然而你无法做到将不同国家随机分配到那种紧缩的境况下。

经济学家们在专业训练中学到,多元回归分析是研究的主要统计工具。然而,没有人教给他们一种本应当具有的对于多元回归分析的批判性态度。莱维特在与记者史蒂芬·都伯纳合著的一本书中提到一项基于美国教育部数据的分析,即幼儿教育纵向研究。他们测量了一些学生从幼儿园到五年级的学术成就,同时还辅以其他变量,如父母收入和受教育水平、作为研究对象的孩子家中有多少书籍、这些孩子阅读了多少、他们是否是被收养的等。莱维特基于这种多元回归分析得出了一系列变量和学术成就之间的关系。他总结,在剥离了许多变量的(包括家中的藏书量)影响之后,“读书并未影响孩子在幼年时期的考试分数”。多元回归分析并不能简单地告诉我们,读书对孩子的智力发展不重要。只有通过实验才能验证这件事。莱维特还做过一项额外的研究,在剥离了许多变量(包括父母为孩子读书)的影响之后,家中的藏书情况对于考试分数有重要影响。因此,家中藏书多会让孩子更聪明,但是为他们读这些书并没有效果。莱维特对于多元回归分析的执着信念让他坚持尝试在这类事情上找出因果联系。

莱维特犯得更重要的一个错误是,家庭环境对于孩子的智力发展有相对较小的影响。他得出此结论的研究是基于一些被收养的孩子展开的。“研究表明,一个孩子的学术能力更多地受到其生身父母的智商水平影响,而非养父母。”然而,这种关联是基于错误的数据得出的。我们需要看由自然实验得出的结果,即把被收养的孩子和由亲生父母抚养的孩子进行对比,请注意,亲生父母往往处于低得多的社会经济地位。通常情况下,由养父母创造出的成长环境在很多方面都远强于亲生父母所能给予的环境。实际上,那些被收养的孩子的学业表现得分要比其未被收养的兄弟姐妹高出半个标准差,而前者的智商水平测试得分也要比后者高出一个标准差。养父母所处的社会阶层越高(即平均下来能提供的智力环境更好),被收养的孩子的智商水平测试成绩越好。家庭环境对于智商水平的影响事实上是相当大的。

在莱维特为自己所做的辩解中,他没有给出自己关于收养环境影响的错误结论。在近几十年中,行为科学家和遗传学家常会用相关性数据做研究,从而得到一些关于环境对于智力水平影响力的错误结论。

有一些知名经济学家似乎一点儿也没意识到实验的重要价值。经济学家杰弗里·萨克斯在非洲的一部分村落中推广了一个极有野心的项目,涉及健康、农业和教育等方面,旨在提升人们的生活质量。这个项目花费巨大,因此被其他发展专家严厉批评。

尽管萨克斯项目中的一些村子的居民的生活条件得到了改善,但那些没有得到萨克斯帮助的相似非洲村落似乎改善了更多。如果萨克斯能采取随机实验,便能反驳那些批评,即让相似的村庄分别用他的方法和放任自流,而最终证明他的项目的确效果更好。然而,萨克斯拒绝进行实验,认为其中涉及“道德原因”。当这些项目可行时,对其进行实验是不道德的。萨克斯花费了不少别人的钱,然而我们并不知道那些钱是否有效改善了人们的生活,并且比那些花费较少的项目要好。

不过,已经有越来越多的经济学家开始采用社会心理学的研究方法,进行随机控制实验。最近的一个例子是由经济学家塞德希尔·穆莱纳森和心理学家埃尔达尔·沙菲尔进行的一系列令人印象深刻的实验,结果表明缺乏资源会给每个人的认知功能带来不良后果,无论是农民还是企业的首席执行官都无法避免。如果你让人们去想象,如果他们突然需要拿出几千美元的预算去修理汽车,然后再让他们进行智商水平测试,你会发现贫穷者的得分大幅下降。同时,那些收入不错的人的得分则不会因为这个思想实验而受影响。(如果是只花费几百美元的修车场景则对贫穷者和富人都没有影响。)

经济学家拉吉·切迪是推动经济学家们采取自然实验的方式检验经济学假设的领导者。从长远来看,教师素质真的重要吗?我们可以通过实验来探究这个问题,让一位高水平的教师和一位资质较平庸的教师来带某一个班级,看看这个班级学生的平均成绩如何,即两位教师轮流带班(高水平的教师或者资质平庸的教师先带班皆可)之后的成绩变化情况。例如,某一所学校每一届的三年级学生可能都会得到差不多的平均成绩,直到有一位优秀的老师到来之后学生们的成绩就提高了(先前的老师离开可能是因为身体原因)。如果在这位优秀的老师在职期间,学生们的成绩得到了很大提升并维持下去,我们便可以看到学生们相应的学术成就的提升,大学入学率的提高和工作后收入的增长。所有这些由教师的好资质对所有变量带来的影响都是显著的。这样的研究近似于实验,因为我们可以把新教师任职前学生们的表现情况大体上看作控制组。问题在于老师们布置作业的情况不是随机的,但是当老师们能实现布置作业完全是偶然条件时,这就是一个相当完美的自然实验了。

经济学家进行的一些重要的干预教育过程的实验是由罗兰·弗莱尔设计实施的。他进行了许多极有价值的教育实验,证明了许多猜想,比如经济激励对于少数族裔学生的学术成就的影响特别小。经济激励对教师的表现也影响较小,除非是出于损失厌恶的考虑,即在学年初给教师们经济激励,并告诉他们如果学生的成绩没有提高,那么就将收回这项激励。这个发现也恰好证明了我们在第5章中所讨论的,潜在损失的效果要大于潜在收益。弗莱尔同样也为哈莱姆儿童区实验做出了贡献,参与这个项目的非裔美国孩子在学术成就上获得了较大提升。

固执的心理学家

恐怕现在我不得不承认,心理学家也像其他行为科学家一样要对自己误用多元回归分析而感到惭愧。

我们经常可以看到下面一些所谓的发现。那些可以从公司获得充足产假福利的员工比没有这种福利的员工对工作的满意度更高。这种关联可以由多元回归分析来支持,研究表明更好的休假制度会让员工对其工作更满意,而这种关联甚至在“控制”了公司规模、员工薪酬、同事的满意度、直接上级的受欢迎程度等变量之后,仍然是成立的。然而,这种分析存在三个问题。第一,研究中测量的变量是有限的,如果对其中一个或多个变量的测量不准确,或者存在某个未被测量的变量并且其和休产假制度与员工的满意度都有关联,那么它可能会成为解释休产假制度与员工满意度关联的变量。第二,单独把休产假从员工对于公司的整体体验中剥离出来分析实际上没有任何意义。在这一方面表现得慷慨的公司可能在其他各方面都有积极的表现。从一个公司复杂的系统中抽出一个方面来分析,并“控制”住极为有限的几个相关变量,可能并不能保证我们不犯错误。第三,这种分析很有可能让我们陷入第3章中讨论过的成见效应的陷阱。那些喜欢自己工作的人会发现公司的卫生间更干净,同事们的仪表更好,每天通勤的过程不会枯燥。爱是盲目的,在爱中思考有时候并不是那么有效。

如果将这些问题放在人格研究中来看,可能会更容易明白。从一个人身上挑出一个性格特点,并假定这一点和他的其他特征联系不大,这是没有什么意义的。心理学家经常会谈诸如此类的发现,比如“在控制了外向性格、自我控制的变量和抑郁倾向等变量后,自尊会和学术表现有关联”。然而,低自尊和其他负面性格特征,比如抑郁,通常都会被发现是有关联的:当你心情低落时,你会看轻自己;当你认为自己不够好时,你的情绪会更低落。将自尊看作一个变量,单独分析它与抑郁的关联,这是武断的。这样的关联并不可信,因为很多人会说,“我简直糟透了,我实在是抑郁,都看不到前路在哪里”,或者说“我再也不会快乐起来了,我真是太愚蠢了”。这些都是可能的,然而这类句子形成的循环结构反映了一个事实,那便是自尊和抑郁往往缠绕在一起。它们是相关的,不可能被割裂开来。

我的许多心理学家朋友可能要对我坚持的原则感到郁闷了:下面的情况都不能以多元回归分析来解释——在控制了抑郁这个变量后,去看学术成就是否受到自尊的影响;在控制了神经敏感度这个变量后,兄弟会成员的受欢迎程度是否受到外向性格的影响;在控制了年龄、受教育程度、社交活动的频率和其他一些变量之后,一个人每天接受拥抱的次数是否能预测其对传染病的抵抗力。由自然联系起来的那些东西,多元回归分析是不能将其分割的。

没有相关性不意味着没有因果

有相关性并不能证明存在因果关系。然而,相关性研究存在的问题比这一点更糟糕。没有相关性不能证明就不存在因果关系——这样的错误和反过来的错误,人们都会经常犯。

多元化的训练项目是否提升了女性和少数族裔职员的聘任率呢?我们就这一问题对美国700个组织机构的人力资源经理进行访问,询问其组织是否有多元化训练项目,并且查看了美国平等就业机会委员会的相关档案,以确认这些组织的多元化聘任情况。结果是,公司具有多元化训练项目和“在管理层中有白人女性、黑人女性、黑人男性”这一点并无关联。研究者因此认为,多元化训练并不会影响对少数群体的聘任情况。

但是,且慢。是否有多元化训练项目这件事本身,便是一个自我选择变量。一些公司虽然聘任了推行多元化计划的训练师,但公司本身对于聘任女性和少数族裔的人员就没有太大兴趣,甚至还不如另一些积极寻找其他方式增加聘任多样性的公司。实际上,这些公司可能只是应用这种项目来掩盖其真正的招聘意图。有些没有开展多元化培训的公司反倒可能在聘任女性和少数族裔上成效卓著,它们会利用诸如强制多元化一类的方式来实现,就像美国军队做的那样,成功提升了少数族裔在上级军官那里得到的评级。要证明多元化训练是否有效需要进行随机实验。我们需要警惕一种结论,即A与B之间不相关,因而A不可能是B发生的原因。

歧视:看统计数据还是在会议室装上窃听器?

尽管我们在讨论有关歧视的问题,但你不可能通过统计学的方法证明哪个组织或是社会中有歧视现象。你可能经常读到一些新闻,比如女性在特定领域中遇到“玻璃天花板”,一些学校有意限制男生或少数族裔的比例。这些都在暗示我们——不,就是直接控诉,有歧视现象存在。然而数字本身是无法解释整个故事的。我们不知道有多少女性和男性一样,有成为律师事务所合伙人或是公司高管的资质和渴望。我们有充分理由相信女孩和男孩在一些违反学校规定的行为上不会有相同的表现。

就在不久之前,人们还是经常会把研究生院和教员中女性比例低归咎于歧视。的确,是有歧视存在。我曾和负责招收女性进入研究生院和教师队伍中的人私下里聊过。“还是要这个男人吧;女人们太容易中途放弃学业了。”这种私密的聊天能够证明一些简单的数据(比如招收人员的男女比例)无法证明的事情。

然而,现如今,研究生院中60%的学生是女性,她们还是法学院、医学院以及人文学科、社会科学和生物科学专业的主要组成部分。在我任教的密歇根大学,有2/3的助理教授为女性(这和男性拿到终身教职的比例是相同的)。

那么这些统计数据能证明存在对男人的歧视吗?不能。而且我也可以向你保证那些私密的聊天不能支持这样的观点,至少在我的学校里不能。相反,我们经常面临的境况是,在有意识放松对于男性录取条件的情况下(或许我们会在潜意识下做这样的事),我们还是招收了更高比例的女性。

即便是有这样的研究生教育统计数据,一些人仍坚持声称在物理科学领域存在对女性的歧视。在我最近阅读的一本书中,作者就宣称女人被物理学“排除在外”。除了纯粹的统计数据之外,并没有其他证据,这样的断言可谓不公正。

然而,我们并不能依靠在会议室外监听来证明存在歧视。实验可以帮助我们。汽车推销员会向女性和少数族裔给出比白人男性更高的汽车价格吗?分别向一个白人男性,一位女性和一个少数族裔的成员推销一辆家用汽车,然后看看他们分别会听到什么价位。研究表明白人男性确实被告知了最低的价格。

外表好看的人会在生活中交到更多好运吗?许多研究都证明事实如此。在一份犯罪记录文档上贴上一张事主的照片,然后让本科生来“审定”应该给予什么样的处罚。如果那个犯错的孩子好看,人们就会认为他将来会成为一个好公民,并建议给他相对较轻的处罚。如果那个孩子长相丑,那么人们会建议给予重罚。

“生活是不公平的。”约翰·肯尼迪如是说。实验是一种最佳工具,它能够帮助我们分辨这个世界对不同人群的不公平程度究竟有多深。

小结

多元回归分析检验的是自变量和因变量之间的关系,当然在检验时会控制自变量和其他变量的关联,以及因变量和其他变量的关联。这种方法能告诉我们因果关系的情况,前提是所有可能的变量都被辨识且测量了,在信度和效度上都达到标准。实际上,这样的情况很难碰到。

多元回归分析中存在的根本缺陷在于自我选择,这在其他所有相关性研究方法中都存在。研究者不能为每一个主体(或样本)选择自变量值。这意味着有许多和自变量相关的变量都会牵涉其中。在大多数情况下,我们不能辨别出所有这些变量。在行为学研究中,可以确定的是,我们完全不能保证分辨出所有看似合理的相关变量。

尽管存在上述问题,多元回归分析其实还是有不少用途的。有时候,想要控制自变量是不可能的。你不能改变一个人的年龄。即便是我们做了实验,多元回归分析也能让我们对自然状态中存在的被实验证明了的关联有更强的信心。多元回归分析一般要比实验花费更低,它可以帮我们辨识出一些关联,然后我们可以通过实验去证实。

当一个完备的实验告诉你某些事物间的特定关联,而多元回归分析却告诉你了另一种结果时,你应该选择相信实验结果。当然了,糟糕的实验能告诉你的不比多元回归分析多,但这不常发生。

多元回归分析存在的另一个基本问题是,它总是假定自变量是建成大厦的砖石,而且在逻辑上认为每个变量都可以独立拿出来解释结果。然而事实并非如此,至少对于行为学研究的数据而言就不是这样。自尊和抑郁是内在相互联系的。认为其中一个变量会独立地对因变量产生影响是完全武断的。

就像相关性不能证明因果关系一样,没有相关性也不能证明就不存在因果联系。当使用多元回归分析方法时,可能会出现假阴性结果,就像出现假阳性结果一样,这是因为我们没能分辨出隐藏的因果关系网。

[1]“回归”这个术语在这里略显令人困惑,因为在检验一组自变量与因变量之间的关系时,“向均值回归”的概念似乎是完全不适用的。针对不同的目的而使用同一词语是因为卡尔·皮尔逊率先用这种方法检验一些变量的相关自变量之间的关系(有一种检验相关性的工具就是以发明者皮尔逊命名的)。父亲身高和儿子身高的相关性常常会呈现出一种向均值回归的状态。通常高个的父亲可能会有较矮的儿子,个矮的父亲反而通常会有较高的儿子。一种相关性是有关两个变量关系的一种简单的回归分析。多元回归分析是检验一组变量中的每两个变量之间的关系。