数字陷阱.pdf
http://www.100md.com
2020年2月18日
![]() |
| 第1页 |
![]() |
| 第6页 |
![]() |
| 第16页 |
![]() |
| 第28页 |
![]() |
| 第35页 |
![]() |
| 第106页 |
参见附件(6782KB,175页)。
数字陷阱是作家李凯写的关于数字研究的书籍,主要讲述了风险中的数字陷阱,回归分析的陷阱,广告中的数字陷阱,互联网的数字陷阱等等相关内容。

数字陷阱内容提要
数字在生活中随处可见,似乎与我们如影随形,它给生活带来了便利,同时也埋藏了重重陷阱。数据洪流凶猛无情,把我们淹没在茫茫信息海洋,我们在其中四处飘荡,莫名地感到恐慌。数据信息并不都是真诚的,它也有虚假的面具。我们身在其中,有必要看穿它的本来面目。本书全面介绍了数字陷阱的各种类型,并通过详细而生动的案例进行了剖析,在*后列出了几项避免数据陷阱的妙招,帮助大家在工作、读书学习、购物等日常生活中更好地识别数字陷阱,避免深受其害。
数字陷阱作者简介
李凯:北京大学数学与应用数学专业,高级软件工程师,目前就职于度在线网络技术(北京)有限公司,担任过数据分析师、项目经理等职务。主要从事大数据环境下的商业数据分析,设计酒店、金融证券、建筑和移动通信等多个行业。
数字陷阱章节预览
第一章
数字也会说谎//001
一、数字并不是你看起来那么庞大//003
(一)互联网上的“大数字”//004
(二)教育中的“大数字”//004
(三)生活中的“大”数字//005
(四)缺乏对比,数字大小未可知//006
二、这些数字是捏造出来的//009
(一)互联网造假//009
(二)票房造假//010
(三)胡乱预测//011
三、看穿数字中的“假精确”//012
(一)广告中的“假精确”//012
(二)生活中的“假精确”//013
四、数字真实,包装后也会认不出//014
(一)你看到的,都是对我有用的//014
(二)指鹿为马,无效的比较//019
(三)改一改,数据变了样//021
五、拙劣的数字谎言//026
(一)广告中的数字谎言//026
(二)互联网中的数字谎言//027
(三)投资中的数字谎言//027
(四)所谓的“公式”//028
目录
数字陷阱
VI
第二章
风险中的数字陷阱//031
一、虚假的“小”风险//033
(一)科学中的“小”风险//033
(二)金融中的“小”风险//034
二、虚假的“大”风险//035
(一)科学上的“大”风险//035
(二)生活上的“大”风险//036
三、风险也分相对与绝对//036
(一)科学上的风险//036
(二)生活上的风险//037
四、科学谣言扎根于数字陷阱//038
(一)“大”数字//038
(二)风险“相对论”//038
(三)关联不是因果//039
(四)毫无意义的比较//039
(五)离开剂量谈毒性?请不要耍流氓//040
第三章
注意:回归分析也有陷阱//041
一、数字相关≠因果联系//043
(一)医学上的数字陷阱//044
(二)互联网上的数字陷阱//045
二、A和B,哪个是因?哪个是果?//046
(一)科学界的因果倒置//046
(二)经济上的因果倒置//047
(三)学习上的因果倒置//047
(四)广告上的因果倒置//048
(五)教育上的因果倒置//048
三、遗漏变量,分析有误差//049
(一)学校考试成绩中的数字陷阱//049
(二)健康上的数字陷阱//050
(三)概率上的数字陷阱//050
目录
VII
四、无关变量太多,结果无意义//054
五、预测趋势胡乱分析,结果很可笑//055
第四章
统计调查,数字陷阱的重灾区//059
一、样本数据不足,离正确结论失之千里//061
二、资料不匹配,何谈正确结论//064
(一)媒体的不匹配数据//065
(二)广告中的不匹配数据//066
(三)医学上的不匹配数据//067
(四)公司运营中的不匹配数据//068
三、样本选取错误,系统误差不可避免//069
四、人性弱点,被调查者不一定说真话//074
五、问题问得好,被调查者才会答得好//076
第五章
广告中的数字陷阱//079
一、招聘广告有猫腻,虚假工资诱人心弦//081
二、商品折扣增加40%,你是否心动?//083
三、装修陷阱玩弄低价数字游戏,你能看清吗?//084
四、公司产品满意度99.8%,托儿不少//085
五、广告中的辛普森佯谬//087
(一)药物VS安慰剂//087
(二)考试成绩//087
(三)吸烟与健康问题//088
六、数字形式巧变样,感觉不一样//088
(一)模糊字眼//089
(二)“大”数字//089
(三)精确数字//089
七、价格就怕比,弄得消费者没主意//090
(一)第一个数字//090
(二)消费者的中庸之道//090
(三)我们只是缺少一个购买的理由//091
八、特价房,特价可能只是错觉//091
第六章
互联网的数字陷阱//093
一、婚恋网站陷阱多,机器人账号遍地开花//095
二、互联网金融,产品收益说得不靠谱//096
(一)年化收益率16%?零风险?//097
(二)货币基金收益8%?//097
(三)高收益吸睛,文字游戏?//098
三、你的粉丝究竟有多少是虚假的?//098
四、互联网的KPI,猫腻真不少//100
五、互联网上有排行,水分太多不可靠//101
(一)品牌榜//102
(二)畅销榜//102
(三)信誉榜//103
(四)排名应有准入门槛//104
(五)网站平台当担责//104
六、直播平台很火热,猫腻很多扎堆出现//105
七、流传20多年的假数据,是时候拆穿了//106
八、互联网数据造假为何频频出现?//109
第七章
企事业单位运营的数字陷阱//113
一、学校考生真牛掰,你关注上线人数的背后了吗?//115
二、药价下降了,你觉得医药费真的会少吗?//116
三、雾霾减轻了,真的是车辆限行的原因吗?//118
四、电视收视率有那么简单吗?//119
(一)收视率的玄机//120
(二)收视率为0?//121
(三)收视率VS收视份额//121
五、上市公司融资额,造假危险且愚蠢//121
(一)上市潜力股公司//122
(二)上市企业所投公司//122
六、高铁上座率大于100%,有的车厢还没人?//123
七、可恨的标题党,死亡率可不能这么对比//125
第八章
生活中的数字陷阱//127
一、商贩找你小钱,先不要着急走开//129
(一)赖大头//129
(二)障眼法//130
(三)垫秤//131
(四)耍秤//131
二、步数多,健康也不一定会来//131
三、有折扣就便宜?可没有那么好的事儿//133
(一)折扣陷阱//133
(二)赠品陷阱//134
四、体重减轻,减肥就成功?//134
(一)越减越肥//135
(二)失恋减肥//135
(三)纹丝不动的体重数字//136
(四)瘦却干瘪着//136
(五)身材好,体重却没变//136
五、视力度数就一定可靠?小心近视//137
六、葡萄酒看年份,这种常识不可轻信//138
七、前面有坑,小心掉入中奖陷阱//139
八、二手车看里程数,多长心眼别被忽悠//142
第九章
避免数字陷阱有妙招//145
一、大数据的困局,N≠所有//147
二、大数据,用小规模实验求证//151
三、寻找偏差,不要被权威迷惑//153
(一)有意识的偏差//153
(二)无意识偏差//154
(三)将资料与权威人士划清界限//155
四、问自己,是否遗漏了什么?//155
(一)缺乏比较//155
(二)遗漏原因//156
五、拆穿偷换概念的把戏//157
(一)统计口径不同//157
(二)口头回答不可靠//158
(三)目的不同//158
(四)无理比较//158
(五)标榜第一//159
(六)文字游戏//159
六、用提问将毫无意义的数据打回原形//160
数字陷阱截图


购买此电子书,不提供光盘\视频内容,敬请谅解数?字?陷?阱
李凯? 编著
清华大学出版社
北? 京
4YKXRJOEE .
更多免费电子书搜索「雅书」 https:yabook.org内?容?简?介
数字在生活中随处可见,似乎与我们如影随形,它不仅给我们的生活带来很多便利,同
时也埋藏了重重陷阱。数据洪流凶猛无情,把我们淹没在茫茫的信息海洋中,我们在其中四
处漂荡,莫名地感到恐慌。数据信息并不都是真诚的,它也有虚假的面具。所以,我们身在
其中,有必要看穿它的本来面目。
本书全面介绍了数字陷阱的各种类型,并通过详细而生动的案例进行了剖析,在最后列
出了几项避免数字陷阱的妙招,帮助大家在工作、读书学习、购物等日常生活中更好地识别
数字陷阱,避免深受其害。
本书封面贴有清华大学出版社防伪标签,无标签者不得销售。
版权所有,侵权必究。侵权举报电话:010—62782989?13701121933
图书在版编目(CIP)数据
数字陷阱 李凯编著. — 北京 : 清华大学出版社,2017
ISBN 978-7-302-46113-5
Ⅰ . ①数? Ⅱ . ①李? Ⅲ . ①数字-普及读物 Ⅳ . ① O1-49
中国版本图书馆 CIP 数据核字 (2016)第 312450号
责任编辑:刘志彬
封面设计:汉风唐韵
责任校对:宋玉莲
责任印制:杨 艳
出版发行:清华大学出版社
网? ? 址:http:www.tup.com.cn, http:www.wqbook.com
地? ? 址:北京清华大学学研大厦 A 座 邮? ? 编:100084
社?总?机: 010-62770175 邮? ? 购:010-62786544
投稿与读者服务:010-62776969, c-service@tup.tsinghua.edu.cn
质量反馈:010-62772015, zhiliang@tup.tsinghua.edu.cn
印?装?者:三河市吉祥印务有限公司
经? ? 销:全国新华书店
开? ? 本:170mm×240mm? ? ? ? 印? 张:11 字? ? 数:181 千字
版? ? 次:2017年3月第1版 ? 印? ? 次: 2017 年 3月第 次印刷
印? ? 数:1~4000
定? ? 价:36.00 元
产品编号:072670-01
4YKXRJOEE .世界上有三种谎言 :谎言、该死的谎言和统计数据。
首先要掌握事实,然后你可以随意歪曲它们。
——马克 · 吐温
我们生活在一个信息大爆炸的年代,周围充斥着越来越
多的信息。我们要做的就是如何存储与提取信息。信息如此
之多,真假莫辨,好多人全盘接收,结果吃了亏。不过,吃
一堑长一智,人们对周围的信息越来越有免疫力,质疑声从
来没有断过。
应了那句老话,“道高一尺,魔高一丈”,虚假信息总会
在不知不觉中侵入我们的大脑,影响我们的决策。
数字作为信息的一种,其中蕴藏的陷阱不知有多少,数
都数不清。这些数字陷阱隐藏很深,如果稍不注意,就会掉
入其中,损失惨重。
当看到我说的这句话时,你可能会惊呼一声 :“对,我就
遭遇过一次数字陷阱!”
当我问你时,你可能会提起你在商店购买蔬菜时的缺斤
短两,也可能会提到在商场购买商品的时候遇到的折扣陷阱。
你会后悔,太不应该追逐眼前的小利了,结果落入商家设计
好的陷阱中。
你可能只是遇到过少量的数字陷阱,并不清楚这大千世
前? 言
4YKXRJOEE .
更多免费电子书搜索「雅书」 https:yabook.orgII
数字陷阱
界数字陷阱何其之多。在看完本书之后,不要害怕,但请在今后擦亮你的眼睛,找到我提出的这些陷阱,维护好自己的利益。
数字陷阱总体来说分为两种类型,一种是人为故意制造的陷阱,目的很明确,就是为了欺骗大家,增加自己的利益。另一种就是人们无意中制造的数字陷阱。
可能是因为认知能力不够,也可能是在哪一方面有所疏忽,数字陷阱就悄无声息
地来到我们的面前,我们再走一步,就会落入其中,而结果往往正是那样。
数字一出现,往往会让最冷静的头脑发热,做出冲动的事情或者不理智的决
定。20世纪发生在美国的“麦卡锡主义”就很好地诠释了这一观点。
1950 年 2 月 9 日,美国参议员乔· 麦卡锡宣称美国政府彻底被共产党党员
渗透。他伪造了一份名单,上面有 205 名隐藏在美国政府里的共产党党员,但
他并没有给出准确的名字,只是拿出了一个看似确切的数字。
不仅如此,这个数字不是一成不变的。他一开始声称名单上有 57 人,在 2
月 20 日他又改口说有 81 个不忠诚的隐患人员。麦卡锡很明显没能一次性编造
出这些数字来。事实上,早在 1947 年,美国政府就对国会中的 108 位职员进行
了 “忠诚度调查” 。他们的忠诚度备受怀疑。至1948年, 仅有57人仍受雇于国会。
我们可以试想是这份调查洗清了这 57 人的冤屈,也可以像麦卡锡一样说他
们是“政府承认的共产党员” 。 “81 人”这个数据正是从这份涉及 108 人的调查
中得出的。与此同时,另一份 1946 年呈递给国会的报告得出共有 205 个共产党
党员,那份报告证实 284 个有潜在安全隐患的人员中已有 79 人被裁。
美国政府加紧防御,匆忙要求麦卡锡坐实他的数字来源。麦卡锡却丝毫不在
意这件事。他只是轻描淡写地说 :“我不回应指控,毕竟我才是控方。 ”
他的名单影响如此重大, 以至于这种效应形成了一个专有名词 “麦卡锡主义” ,专用于指制造冤假错案的惯用做法。麦卡锡作为一个典型的反面教材,也告诉了
我们数字可以怎样被滥用。他只是随意地扔给担惊受怕的大众几个数字就使他们
恐惧起来,并引起一场政治迫害。
本书意在揭开数字陷阱的面纱,还你一个真实的数据世界,争取将生活中、广告里、 单位机构运营乃至现今最火热的互联网界各个方面的数字陷阱一网打尽,帮助你远离欺骗,维护自身的利益。数字陷阱不可怕,它就是一只纸老虎,只要
我们掌握正确的方法,坚持理智,这种陷阱很快就会被填平,让我们一马平川地
大踏步前进。
4YKXRJOEE .III
前? 言
本书由李凯统筹编写,同时参与编写的还有崔慧勇、耿丽丽、许亮、卢明明、李莉影、陈云娇、于海力、冯少敏、张云叶、任学武、刘瑾、贺延飞、靳鹤、王
俊娜、卢光光、蒋北、刘宝亮、张方方、许超、申童等。在此一并表示感谢。在
即将到来的大数据时代,数字陷阱还会有其他更加隐蔽的表现形式,应用本书所
讲述的方法,我们一起来辨别,并提高我们的“数字免疫”能力。
编 者
2016 年10月
4YKXRJOEE .
更多免费电子书搜索「雅书」 https:yabook.org4YKXRJOEE .第一章
数字也会说谎 001
一、数字并不是你看起来那么庞大 003
(一)互联网上的“大数字” 004
(二)教育中的“大数字” 004
(三)生活中的“大”数字 005
(四)缺乏对比,数字大小未可知 006
二、这些数字是捏造出来的009
(一)互联网造假 009
(二)票房造假 010
(三)胡乱预测 011
三、看穿数字中的“假精确” 012
(一)广告中的“假精确” 012
(二)生活中的“假精确” 013
四、数字真实,包装后也会认不出 014
(一)你看到的,都是对我有用的 014
(二)指鹿为马,无效的比较 019
(三)改一改,数据变了样 021
五、拙劣的数字谎言 026
(一)广告中的数字谎言 026
(二)互联网中的数字谎言 027
(三)投资中的数字谎言 027
(四)所谓的“公式” 028
目? 录
4YKXRJOEE .
更多免费电子书搜索「雅书」 https:yabook.orgVI
数字陷阱
第二章
风险中的数字陷阱 031
一、虚假的“小”风险 033
(一)科学中的“小”风险 033
(二)金融中的“小”风险 034
二、虚假的“大”风险 035
(一)科学上的“大”风险 035
(二)生活上的“大”风险 036
三、风险也分相对与绝对 036
(一)科学上的风险 036
(二)生活上的风险 037
四、科学谣言扎根于数字陷阱 038
(一)“大”数字 038
(二)风险“相对论” 038
(三)关联不是因果 039
(四)毫无意义的比较 039
(五)离开剂量谈毒性?请不要耍流氓 040
第三章
注意 :回归分析也有陷阱 041
一、数字相关≠因果联系 043
(一)医学上的数字陷阱 044
(二)互联网上的数字陷阱 045
二、A和 B,哪个是因?哪个是果? 046
(一)科学界的因果倒置 046
(二)经济上的因果倒置 047
(三)学习上的因果倒置 047
(四)广告上的因果倒置 048
(五)教育上的因果倒置 048
三、遗漏变量,分析有误差 049
(一)学校考试成绩中的数字陷阱 049
(二)健康上的数字陷阱 050
(三)概率上的数字陷阱 050
4YKXRJOEE .VII
目? 录
四、无关变量太多,结果无意义 054
五、预测趋势胡乱分析,结果很可笑 055
第四章
统计调查,数字陷阱的重灾区 059
一、样本数据不足,离正确结论失之千里 061
二、资料不匹配,何谈正确结论 064
(一)媒体的不匹配数据 065
(二)广告中的不匹配数据 066
(三)医学上的不匹配数据 067
(四)公司运营中的不匹配数据 068
三、样本选取错误,系统误差不可避免 069
四、人性弱点,被调查者不一定说真话 074
五、问题问得好,被调查者才会答得好 076
第五章
广告中的数字陷阱 079
一、招聘广告有猫腻,虚假工资诱人心弦 081
二、商品折扣增加40%,你是否心动? 083
三、装修陷阱玩弄低价数字游戏,你能看清吗? 084
四、公司产品满意度99.8%,托儿不少 085
五、广告中的辛普森佯谬 087
(一)药物 VS安慰剂 087
(二)考试成绩 087
(三)吸烟与健康问题 088
六、数字形式巧变样,感觉不一样 088
(一)模糊字眼 089
(二) “大”数字 089
(三)精确数字 089
4YKXRJOEE .
更多免费电子书搜索「雅书」 https:yabook.orgVIII
数字陷阱
七、价格就怕比,弄得消费者没主意 090
(一)第一个数字 090
(二)消费者的中庸之道 090
(三)我们只是缺少一个购买的理由 091
八、特价房,特价可能只是错觉 091
第六章
互联网的数字陷阱 093
一、婚恋网站陷阱多,机器人账号遍地开花 095
二、互联网金融,产品收益说得不靠谱 096
(一)年化收益率16%?零风险? 097
(二)货币基金收益8% ? 097
(三)高收益吸睛,文字游戏?? 098
三、你的粉丝究竟有多少是虚假的? 098
四、互联网的 KPI,猫腻真不少 100
五、互联网上有排行,水分太多不可靠 101
(一)品牌榜 102
(二)畅销榜 102
(三)信誉榜 103
(四)排名应有准入门槛 104
(五)网站平台当担责 104
六、直播平台很火热,猫腻很多扎堆出现 105
七、流传20多年的假数据,是时候拆穿了 106
八、互联网数据造假为何频频出现? 109
第七章
企事业单位运营的数字陷阱 113
一、学校考生真牛掰,你关注上线人数的背后了吗? 115
二、药价下降了,你觉得医药费真的会少吗? 116
三、雾霾减轻了,真的是车辆限行的原因吗? 118
4YKXRJOEE .IX
目? 录
四、电视收视率有那么简单吗? 119
(一)收视率的玄机 120
(二)收视率为0 ? 121
(三)收视率 VS收视份额 121
五、上市公司融资额,造假危险且愚蠢 121
(一)上市潜力股公司 122
(二)上市企业所投公司 122
六、高铁上座率大于100%,有的车厢还没人? 123
七、可恨的标题党,死亡率可不能这么对比 125
第八章
生活中的数字陷阱 127
一、商贩找你小钱,先不要着急走开 129
(一)赖大头 129
(二)障眼法 130
(三)垫秤 131
(四)耍秤 131
二、步数多,健康也不一定会来 131
三、有折扣就便宜?可没有那么好的事儿 133
(一)折扣陷阱 133
(二)赠品陷阱 134
四、体重减轻,减肥就成功? 134
(一)越减越肥 135
(二)失恋减肥 135
(三)纹丝不动的体重数字 136
(四)瘦却干瘪着 136
(五)身材好,体重却没变 136
五、视力度数就一定可靠?小心近视 137
六、葡萄酒看年份,这种常识不可轻信 138
七、前面有坑,小心掉入中奖陷阱 139
八、二手车看里程数,多长心眼别被忽悠 142
4YKXRJOEE .
更多免费电子书搜索「雅书」 https:yabook.orgX
数字陷阱
第九章
避免数字陷阱有妙招 145
一、大数据的困局,N ≠所有 147
二、大数据,用小规模实验求证 151
三、寻找偏差,不要被权威迷惑 153
(一)有意识的偏差 153
(二)无意识偏差 154
(三)将资料与权威人士划清界限 155
四、问自己,是否遗漏了什么? 155
(一)缺乏比较 155
(二)遗漏原因 156
五、拆穿偷换概念的把戏 157
(一)统计口径不同 157
(二)口头回答不可靠 158
(三)目的不同 158
(四)无理比较 158
(五)标榜第一 159
(六)文字游戏 159
六、用提问将毫无意义的数据打回原形 160
4YKXRJOEE .第一章
数字也会说谎
4YK[XJOEE .
更多免费电子书搜索「雅书」 https:yabook.org4YK[XJOEE .有人说,如果你想要让人相信一句非常荒诞的话,只需要在里面加
上一个数字就可以了。这句话看似非常不靠谱,你可能会不屑一顾,但
你一定在生活中也时常受到这样的欺骗。数字,本身是非常让人信任、充满精确性的符号,却在欺骗上颇有造诣。这其实不是数字的错,而是
由于人的意识、认知而造成的。
一、数字并不是你看起来那么庞大
老师拿来了一大袋糖果,我估计能分五六块吧……
2013 年中国GDP为9.24万亿美元……
每 6 个人可以让互不相识的两个人建立联系……
天文数字,是我们在形容一个数字非常大时经常使用的词语。这个词语道
出了我们对大数字的敬仰之心,似乎数字的大已经超出人类认知的尺度。但是
在我们看到那些所谓的天文数字时,我们首先要问自己一句话 :“这个数字大
不大?”
数字后面有很多零,会让很多人觉得这个数字非常大,但这样的数字除了
吸引人们的注意以外,还可能是要提出警告。但就数字本身而言,这是毫无意
义的。
4YK[XJOEE .
更多免费电子书搜索「雅书」 https:yabook.org004
数字陷阱
(一)互联网上的“大数字”
移动互联网时代,春节是几家大型网络平台的红包争夺战场。用户在此期间
乐此不疲地抢红包。抢红包俨然成了春节的符号化活动,风头甚至盖过了春晚。
但在抢红包过程中,大家可能发现了一个有趣的现象 :公司派出 1 000 万元
甚至上亿元的红包,但你就是抢不到,就算抢到了也只是 1 ? 2 元,甚至是几分
钱或者是代金券。可能你的手都快戳破屏幕了,手指都磨红了,眼圈都胀紫了,收获就是不大,空欢喜一场。
这就是“大数字”的假象。
虽然红包金额总量在 1 000 万元,几乎每一个用户在刚开始的时候都会天真
地在意识深处认为自己能单独抢到这个 1 000 万元,可是不要忘了,这个红包是
面对全国数亿网友发送的,这样算下来的话,平均每个人分到的金额就是几毛钱
或几分钱。
更令你感到讽刺的是,你抢中的金额非常少,但它还可能是代金券,而且代
金券不是零食、日用品的代金券,而可能是波音飞机、名牌汽车或者出国游的代
金券,真是气死你不偿命啊!
说白了,这是由某网络公司不正确的红包玩法所导致的,就算发送 5 亿元的
红包,平均下来每个用户也只能分到几块钱而已。作为用户的我们也不必较真,在下次看到的时候摆正心态,图个乐子就好了。
(二)教育中的“大数字”
2007年1月, 英国政府宣布, 即将在小学投入1 000万英镑的预算, 目的是 “振
兴小学的音乐教育” 。这个数字看起来很大,但是不要忽视学生的数量。英国总
共有 1 000 万名学生,一半是小学生,将 1 000 万英镑分给 500 万个小学生,平
均每名小学生只有 2 英镑,那这样还怎么振兴他们的音乐教育呢?恐怕连听一场
儿童音乐会都不能吧?
也许当你听到全国性的数字时,大脑中立刻会失去判断能力。你认为自己只
是一个老老实实做本分生意的人,那个可是上千万甚至上亿的数字啊。可是,你
要知道,那个数字不全都是你的,你要学会把它个人化,你得将它平均划分,而
4YK[XJOEE .005
第一章? 数字也会说谎
不是拿来和自己的账户余额相比。因为,不管饼多大,如果每个人只能分到一粒
碎渣的话,那这张饼就是小的。
数字的大与小是相对的,刚刚我们说过了“大”数字的小,接下来我们谈一
谈“小”数字的大。
在 2005 年,英国的一家报纸在头版刊登了一条消息,称政府打算将退休年
龄提高 2 岁。这篇报道称,假如政府通过这项法案,那么原本可以领到退休金的
老人中,每五人就会有一人来不及领退休金便去世。五分之一,这个数字看起来
不大吧,可是英国全国的老年人人数众多,由于基数很大,通过这个比例算出来
的数也不会小。
(三)生活中的“大”数字
看下面这个问题 :
假如某件商品增加 50% 的量,但不加价 ;另一件同款商品降价 33%,你会
选择哪一个?
大部分自以为很聪明的消费者会毫不犹豫地选择第一种商品,因为它的数字
看起来更大。
但事实可不是这样的。
《经济学人》杂志将这种现象称为“增数盲点”。其实商品增加 50% 的量不
加价和降价 33% 是一样的。研究者特地做了一项实验,询问消费者你想要加量
50% 的商品还是降价 33% 的商品?大部分消费者看到这个数字,竟然感觉价格
是一模一样的,但事实是降价 33%更划算一些。
这个现象不仅反映了人们对大数有错觉,更能反映出人们懒得将数字计算
出来。
衣服在打折时,连续打两次折,第一次打八折,第二次打八五折,其实总共
打了六折。但是,大部分消费者却认为两次打折比六折还要便宜。这说明,大部
分人不愿意去计算结果,才会被数字误导。
其实,只要带上计算器,看到数字先按一下计算器,算出结果,就不至于被
4YK[XJOEE .
更多免费电子书搜索「雅书」 https:yabook.org006
数字陷阱
数字误导了。
(四)缺乏对比,数字大小未可知
让我们来看下面的数字 :
1F、0.1g、3 600 000J、380 000km
第一印象上, 你会觉得前两个数字很小, 后两个数字很大。 但是答案正好相反。
1F 其实是 1 法拉,是电容的量。由于我们对这种事物不熟悉,所以总会主
观臆断,只看绝对数字。其实 1F 很大,地球电容差不多就是 1F,而一般电容的
单位是 μF即 10-6
F(十万分之一法拉) 。
“g”是一个重量单位,克,这我们都知道,但越是熟悉的事物越容易遭遇陷
阱。如果说这个数量出现在查酒驾时就是很大的数字了。因为每百毫升血液里酒
精含量达到 80mg 即为醉酒驾车,而0.1克则远远超出了规定的范围。
“0”经常集群跟在某一个数字后面虚张声势,看起来是一个天文数字。其实
3 600 000J 只是 1 度电而已。
380 000km 是地球到月球的距离,看起来很远,是吧?但要是放到宇宙这个
范围内,这个距离就跟没有距离一样。
新闻报道中经常会出现天文数字: 一个港口年吞吐量 ×× 吨, 一个天文数字;
今年保障性住房规划建设有 ×× 面积,一个天文数字 ;人的脑容量相当于 ××
本书,一个天文数字……这些天文数字已经远远超出我们的认识范围,我们甚至
连数量级都猜不准。电视上公布这些数字就像给小学生讲微积分一样可笑。你兴
奋地说着,我只有张着嘴感叹。可见,缺少对比的绝对数字在不经意间误导了你,给你下了套。
不过,有时一些看起来微不足道的小数也有可能变成天文数字,事情刚开始
时的事实并不是真正的事实,因为它的后续发展可能会使你始料不及。
国际象棋的一则传说恰恰说明了这个问题。
传说国际象棋是由古印度人发明的,发明者是一个印度教宗师兼数学家,名
叫希萨。
当时的古印度国王非常爱玩,下令在全国张贴招贤榜,寻找能人为他制造一
个奇妙的游戏取乐,如果谁能完成这个任务,谁就会得到重赏。
4YK[XJOEE .007
第一章? 数字也会说谎
希萨揭了招贤榜,献上一种棋,棋盘上有 64 个空格,棋子是国王、皇后、大臣、士兵、骑士、城堡之类不同的角色。下棋时,玩家要经过一番智谋,将对方的国
王将死才能决定胜负,这个游戏让国王玩得不亦乐乎。高兴之余,国王问希萨:“我
很喜欢你发明的这个棋,所以要重重赏你。你说吧,想要什么?”
希萨说:“真金、白银、宝石,这些我都不需要,只希望国王赏赐我一些麦粒,我就非常开心了。”
国王听了以后笑得合不拢嘴。因为他认为黄金、宝石这些贵重的东西才值钱,麦粒到处都是,能有什么价值。笑完之后,国王问希萨究竟要多少麦粒。
希萨说 :“请大王在我献上的 64 格棋盘上的第一格上放上一粒麦粒,第二
格上放上 2 粒麦粒,第三格上放上 4 粒麦粒,第四格上放上 8 粒,如此一格一
格加上去,每一格比前一格多加一倍,一直加到 64 格。我要这些格子上的所
有麦粒。”
国王一听,原来就是几粒麦粒而已,就不假思索地答应了,下令管仓库的大
臣如数赠予。
管仓库的大臣一经计算,天哪,这还了得,这可是一个不小的数目啊。他把
这件事告诉给国王,但国王不信,又召见算师。算师也仔细地算了一遍,果然如
管仓库的大臣所言,数目惊人!所需麦子的数目为 264
–1,也就是说,就算把印
度所有的麦子赏给希萨也不够,甚至这样说也不为过,就算全世界的麦子也不够。
现在让我们也算一算看 :
第一个格子里是1 粒,第二个格子里是 2 粒,一共有 3 粒,即 :2×2–1=3。
又加上第三个格子中的 4 粒,一共是 7 粒,即 :2×2×2–1=7。
再加上第四个格子上的 8 粒,共有 15 粒,即 :2×2×2×2–1=15。
也就是 :24
–1=15。
所以,从第一格到第四格的麦粒数就等于2 的 4 次方减去 1。
那么,从第 1 格到第 64 格的麦粒数,将等于 2 的 64 次方减去 1,即 :
2×2×…×2(64个 )–1=264
–1=18 446 744 073 709 551 615。
一立方米的麦子有 1 500 万粒,18 446 744 073 709 551 615 粒麦子约有
12 000亿立方米。全世界2000 年生产的麦子加在一起也没有这个数目大。
原来希萨运用了数学上的几何级数,那是把 2 作为基数倍数,棋盘上的格数
作为这个基数倍数的乘方,即2 的 n 次方。
4YK[XJOEE .
更多免费电子书搜索「雅书」 https:yabook.org008
数字陷阱
这一次国王不得不食言了,但这很损害国王声誉,令国王感到左右为难。
国王看到自己实在无法满足希萨的要求,打算下令把他杀了。这时,粮食大
臣想出了一个主意。他劝国王还是照原来说过的话去办,依旧赏给希萨那个数目
的麦粒。但是,既然希萨要求的麦子精确到粒,赏赐也应该严格执行,让希萨自
己一粒一粒地从国王的仓库里数出他所要求的数目,第一个格子上放 1 粒麦粒,第二个格子上放 2 粒,第三个格子上放 4 粒……直到第 64 格放满为止。一粒也
不能多,一粒也不准少。一秒能数 2 粒,一分钟能数 120 粒,一小时也只能数
出 7 200 粒,每天数上 10 小时,也只能拿到 72 000 粒麦粒。数上一年,也只有
2 000万?3 000万粒。 也只有1m3
2m3
的麦粒。 要全部数清国王赏赐给他的麦粒,要 2000 多亿年呢。
就这样,希萨给国王出的难题,又被聪明的粮食大臣回敬了回去。国王没有
食言,也没有付清赏赐的天文数目的麦子。不过希萨的“无理要求”也差点让自
己命丧黄泉。
下面我们来看一看文章开头的例子。
老师拿来了一大袋糖果,我估计能分五六块吧——一大袋糖果能有几块?但
班级里可是有几十名学生呢,平均分下来,估计每人也只能得到 1 ? 2 块糖。
2013 年中国 GDP 为 9.24 万亿美元——温家宝总理曾说过 : “多么小的问题
乘以十三亿,都会变得很大 ;多么大的经济总量,除以十三亿,都会变得很小” 。
我想,这句话非常恰当地指出了 GDP 大总量下的小分量,因为我国人均 GDP 只
有 4.66 万元,在全世界排名 73 位。
每 6 个人可以让互不相识的两个人建立联系——6 这个数字很小吧,但要想
认识任何一位陌生的朋友,中间最多只需要通过 6 个朋友就能达成目的,也就是
说,只需要 6 步。但如果中间的每一步距离都很大,这 6 步可能是世界上最遥远
的距离。
大数字有时就是纸老虎,只要你够细心,善于琢磨,数字的大并不是如表面
所示。小数字有时可能也未必像你想的那样渺小,当它的概念以另外一种方式解
读时,它的体量比那些所谓的“大”数字不知大多少。
4YK[XJOEE .009
第一章? 数字也会说谎
二、这些数字是捏造出来的
本款睫毛膏能够给您的睫毛带来 12倍的冲击力……
这款保湿霜能够将每一滴的保湿效果增强65%……
李经理 10 年来找下属谈心多达 2 576次……
数字兼有确定性与不确定性两种特征,当它被有所企图的人利用时,不确定
性就被无限放大了。人们为了某种目的,有时会捏造吸引人的数据,这些数据虽
然经不得推敲,但很多人似乎被蒙蔽了眼睛,深陷其中,毫不怀疑。
这样的数字叫“波将金数字”。这个名字来源于俄罗斯。
由于波将金亲王不想让女皇了解到克里米亚半岛的贫瘠与荒凉,于是让人在
女皇经过的地方搭建了许多精心设计的房屋正面模型。这些模型仿照自然状态喷
漆,远远看来和真实的村庄没有差别。虽然这些只是仿制品,只要靠近一点观察
就能发现它的虚假,但女皇路过这里时只是漫不经心地看了一眼,没有细细观察,于是被欺骗了。
“波将金数字”产生的情形就跟这个历史事件很相似,有所企图的人为了迷
惑他人,故意捏造与真实的计量行为毫不相关的虚假数字。
(一)互联网造假
数据造假在互联网界屡见不鲜,涉及互联网的方方面面,比如融资额。融资
额在对外宣布时往往会夸大三倍有余。假如公司获得 500 万元融资,在对外宣布
时就会说成1 500万元,而媒体一般不会对融资额和销售额表示怀疑。
除了虚假公布,互联网公司有时还会通过一系列后台操作来刷榜。因为用户
量是评价网站价值的一个重要指标。公司通过技术模拟用户使用网站的情形,其
实可能根本没有这个用户。这种造假甚至已经形成了产业链,有的客户会要求互
联网公司刷到足够的量。
曾经有一次,网络红人 ××× 爆料 :“×× 老板应该坐牢。”此言一出,又
一次揭开了互联网数据造假的伤疤。
4YK[XJOEE .
更多免费电子书搜索「雅书」 https:yabook.org010
数字陷阱
×× 将假代码暗中植入用户手机后台,启动透明页面,将数据传递给第三
方统计公司,伪造用户数、广告,再或者是普通数字,请你擦亮自己的双眼,运转自己的理智程序,将那些无理取闹的胡乱对比打回原形。
(三)改一改,数据变了样
小商小贩总喜欢在贩卖的蔬菜上喷洒水雾,给苹果上蜡抛光,这样做可以让
蔬菜水果看起来更新鲜。同理,数据有时也会被修饰一新,被歪曲得面目全非,表面上看起来光彩照人。
人们在润饰数据时想到的办法可谓是千奇百怪,在这里我们很难全部描述出
来,因为办法一直在被不停地编造着。不过,其中最常见的一些手段还是有必要
详细阐述一下的。
1.平均值,典型值?
A 社区平均每个家庭有 2.5 个孩子……
4YK[XJOEE .
更多免费电子书搜索「雅书」 https:yabook.org022
数字陷阱
海鲜自助餐促销,平均每位顾客能够带来 35 美元的利润……
小河平均水深 0.5 米, 过去没问题……
我们知道,平均数一般用来表示统计对象的一般水平,反映数据的平均水平,以便于和其他数据组进行比较,看出差别,特点是直观简明,所以被大量运用到
日常生活中。
平均数,确切地说是算术平均数,指的是所有数字相加,然后除以总数。
这样做有着明显的缺点, 人们往往会把平均值当作典型值。其实这是错误的。
因为平均数是将所有数据加总,所以不可避免地会受到极端数值的影响。没有离
散值的平均值只有一半的价值。
(1)工作中的平均数陷阱
一家总共拥有 8 名员工的公司,每名员工的工资都在 1 万元左右,工资加总
为(1+1.2+1.4+0.9+1.1+0.8+0.8+0.8=8 万元) ,除以员工人数(8÷8=1 万元) ,即
可得出算术平均数。在这个例子中,人均工资可以作为典型的工资水平。
不妨再看另一家员工人数为 8 人的公司,老板的工资是 6.6 万元,而剩下的
那七名员工每人只有 0.2 万元的工资,算术平均值虽然也是每人 1 万元,但这个
数字无论如何也无法代表典型工资水平。
在这里,使用中位数来计算典型工资水平则更为恰当。
中位数是指通过将数值高低排序后,选择的正中间的一个数字或两个数字的
平均数作为中位数。中位数不受极大数值和极小数值的影响,具有代表性。
在上例中,中位数是 0.2,显然比公司老板的 6.6 更具代表性。
(2)历史上的平均数陷阱
美国前任总统小布什在任期内常常提起退税政策,而每次提起时都会对退税
额数据润饰一番。他在第一届总统任期结束时曾这样说过 : “我们已经达成新的
退税政策,今年有 1 100 万纳税人会少缴付税费 1 086 美元。 ”
但这个数字真的准确吗?
其实,大多数美国纳税人收到的退税额只有 650 美元左右,与许诺的 1 086
美元相差很大。对此, 《纽约时报》评论道 : “数据本身并没有说谎,只是有些数
据并没有显露出来而已。 ”
只有极少数的巨富获得了大额退税,而正是这些巨额退税干扰了平均值,让
人产生会享受到很高退税额的错觉。
4YK[XJOEE .023
第一章? 数字也会说谎
(3)公司中的平均数陷阱
平均数思维一般包含这样一种假设 :通过平均数制订的计划,得出的结果同
样是平均数。然而,可惜的是,这种假设在很多情况下是不能成立的。
如果一个总活动是由很多单项活动组成的,那么基于单项活动的平均数制订
总活动计划就会出现平均数陷阱。
假如一个单位要进行一个项目,这个项目包含 5 个小任务,而且这些任务要
同时进行。不过,每个任务的完成时间不太一样,分别为 4 个月、6 个月、3 个
月、9 个月、8 个月,这样算下来,平均每个任务的完成时间在 6 个月。由于所
有任务在完成之后才能进行下一步工作计划,按照平均数思维,6 个月之后再进
行下一步工作计划。这样做的可能性几乎为零!因为有的任务完成时间高于 6 个
月,这会往后拖延整体项目的进度。
(4)地理学上的平均数陷阱
英国的普利茅斯市与美国的明尼阿波利斯市在白天的年平均气温都是 13℃,但两个地方的气候绝对是大不相同的。
普利茅斯市的年平均气温并没有说明这个地方的年温度偏差很小这一事实。
这里的气温即使在最冷的时候也在 8℃左右,在最热的时候不会超过 21℃,在这
里从来没有冰冻与炎热的区别。所以这里生长了很多亚热带植物,市民几乎可以
在任何地方看到。
但这对于明尼阿波利斯市的农场主来说只是个梦想。这里在最寒冷的时候几
乎可以把人的耳朵冻掉。寒冷时的平均气温是 –15℃,炎热时平均气温是 30℃以
上,甚至会超过40℃。
这两个城市的最低最高气温是完全不一样的,但是通过年平均气温计算下来,平均值上并没有表现出差异。
我们来看一下开头提到的几个例子。
A 社区平均每个家庭有 2.5 个孩子——且先不说 2.5 个孩子的数据有多荒诞,这个数据的产生也是有争议的。这个社区主要聚居了华裔居民和拉丁裔居民。华
裔居民一般只有一个孩子,所以对孩子的教育投入较高 ;拉丁裔居民孩子较多,孩子的学业基本靠自觉。所以,当培训机构在考察客户市场时,按照平均数来设
计培训项目和收费措施,那可真是大错特错了。
4YK[XJOEE .
更多免费电子书搜索「雅书」 https:yabook.org024
数字陷阱
海鲜自助餐促销,平均每位顾客能够带来 35 美元的利润——推出促销政策,顾客自然会蜂拥而至,但是店家所设想的 35 美元平均利润不会实现。因为他忽
视了顾客在自助消费时的变动因素,也就是说,顾客消费越多越划算,本来店家
预计顾客每人吃一小部分就吃饱了,但很多顾客的消费量会超过原本店家预计的
量,从而导致店家成本增加。不仅如此,由于自助海鲜的供不应求,海鲜价格也
上涨很多,店家的利润自然下降。
小河平均水深 0.5 米, 过去没问题——小河深度在各处是不一样的,虽然
平均水深不足以淹没人,但有的地方很浅,有的地方却很深,可能深达 2 米,如
果迷信平均数,很可能会遭遇“没(m7)顶”之灾。
平均数虽然使我们的数据变得简单、可度量,但同时也掩盖了很多数据上的
缺陷,使我们看不到数据中的结构信息,对变动和误差没有概念。所以,我们要
正确看待数据,在应用平均数时多配合使用其他的变异指标来分析总体分布的离
散程度,客观反映总体的全貌。
2. 图表,徒有其表
图表是数据的可视化描述,其优点在于能够使人直观地看出效果。因此,别
有用意的人或机构经常在这上面做手脚,胡乱修改图表的样式,使图表在受众的
心目中印象更深刻。
修改图表样式的方法同样是多种多样的。
(1)图形元素作单位
某一年 12 月,美国白宫在官方推特上发送了一条消息,称美国高中生毕业
率已经达到历史最高水平(如图 1-1 所示) 。
图1-1 2007—2014 年美国高中生毕业率
4YK[XJOEE .025
第一章? 数字也会说谎
人们观察后发现,数据图很蹊跷。因为数据图的数字单位都是用书本的图形
元素来表现的。5 本书表示 75%,16 本书表示 82%,这是什么意思?按理来说,这应该是柱状图,纵轴以 0 为起点。
图1-2 2007—2013 年高中生毕业率的数据图
看到真实的情况以后,我们发现,毕业率的逐年变化并没有其他人所说的那
么大,对吧?
(2)Y 轴都以零为起点,细微的变化难以察觉
某杂志在报道全球变暖的时候,附上了一张图表,可以说,这张图表是当年
最差的图表,因为图中的折线几乎没有什么波动,十分平稳,让人感觉工业革命
以来气温变化不是很大。但仔细一看就会发现,图表中的 Y 轴以 0 为起点,最高
值在 120,5 个数字为一个单位。我们知道,气温哪怕升高一摄氏度也是非常明
显的变化,可这张图表却将这一变化隐藏在细化的数字中了。
由此我们可以得出结论,并不是所有的折线图都必须使Y 轴以 0 为起点。要
想准确呈现极其细微的变化,我们不妨把Y轴的起始数据调高。
(3)改动图表刻度
这一方法和上一种方法正好相反,是人们为了想要突出某种剧烈的效果而故
意将 Y 轴的起始点设置得很高。
比如,有一款减肥茶,为了宣传产品对消费者的减肥功效,经过市场调查
后,将数据做了润饰。将 Y 轴(胆固醇浓度)的起始点设置为 190,而最高点只
有 210,这样当潜在消费者看到图表时(如图 1-3所示),会产生大多数消费者食
用减肥茶得到了不错的减肥效果这一错觉,从而被吸引前去消费。
4YK[XJOEE .
更多免费电子书搜索「雅书」 https:yabook.org026
数字陷阱
图1-3 第 1 ? 4 周胆固醇浓度
通过改变图表刻度的办法,这款减肥茶将其所带来的减肥效果成倍放大了。
其实真正的效果图如图 1-4 所示。
图1-4 第 1 ? 4 周胆固醇浓度
五、拙劣的数字谎言
数字谎言在生活中其实是屡见不鲜的,但大多数经过巧妙伪装,人们很难在
很短时间内识破。不过,也有一些数字谎言非常荒谬,只要拥有一些生活常识,就可以轻松识破。
(一)广告中的数字谎言
作为消费者, 我们大家经常会在果汁饮料类的广告中看到 “100%纯天然果汁”
之类的广告词。这样的广告词本意是为了突出果汁的纯度,强调果汁含量较高的
特点。不过,广告词中宣称的“100% 纯天然”在如今的工业化规模生产时代是
4YK[XJOEE .027
第一章? 数字也会说谎
不可能实现的。
果汁饮品要想保证色泽鲜艳、味道香甜、口感鲜滑,一定会加入某些工业制
剂,其中最典型的就是色素。至少防腐剂和稳定剂是必不可少的。按照国家标准,只要这些化学制剂的成分和含量符合规定,就不会伤害消费者的安全和健康,与
此同时还能帮助消费者使用产品,这些制剂的名称和含量也会在包装上公布。
当我们购买了号称“100% 纯天然”的果汁饮品,再对照包装上安赛蜜、增
稠剂等成分的标注,心里难道不会对广告数字的真实性产生怀疑吗?
(二)互联网中的数字谎言
如今,各大直播平台之间的竞争日趋激烈,在这个行业内,人们有两点疑问:
主播的身价如何?主播的观众人数到底是怎样的?
尤其是主播的观众人数,人们普遍认为,主播房间显示的当前观看人数和实
际观众数量差得太远。
某主播在某游戏直播网站直播时,居然显示其观众人数为 13 亿!我们知道,我们现在我国的总人口是 13.68 亿人。要按照网站上显示的数字来理解的话,意
味着几乎全中国的人都在观看他的直播。本来直播平台难免会刻意夸大自己的直
播数据,但这样做实在是荒诞滑稽!
(三)投资中的数字谎言
为了提振急剧降温的经济增长,刺激经济发展,2012 年 8 月,天津和重庆
分别宣布,将在之后的几年里在汽车、石化、电子和先进设备等产业投资 1.5 万
亿元。中央政府宣布,截至 2015 年,将会向节能减排领域投资 2.4 万亿元。除
此之外,这一段时间地方政府也宣布了大大小小总共 10 多项投资计划。按照表
面数字来算,这些举措已经远远超过了 2008 年全球金融危机那段最严峻时期出
台的 4 万亿元经济刺激预算。
这很明显是不切实际的。至于为何这样,其实是这些省级官员对他们能够从
境外、国有企业、民营企业或者中央政府吸引到的投资做出了乐观的预测,并不
是真的计划在未来几年支出的预算。某经济学家就曾表示 :“你不能对这些表面
4YK[XJOEE .
更多免费电子书搜索「雅书」 https:yabook.org028
数字陷阱
数字太认真,因为它们都被政府夸大了,而且它们正在相互攀比着宣布更庞大的
数字,希望这样可以吸引外资和中央政府的投资。 ”
(四)所谓的“公式”
某些学术机构习惯于为每个事物制定一系列的公式,全然不顾数学语言能否
描述这一规律。而媒体看重话题,为这些公式的推出推波助澜,塑造所谓的科学
权威,一点也不害怕吞食这些虚假规律所带来的消化不良。
(1)幸福公式
幸福 =P+(5×E)+(3×H)
公式中有三大变量,只要弄懂了每个变量的含义,就能理解这个公式。
式中,P= 个人性格,乐观或悲观 ;
E= 生存状态,健康或生病 ;
H=高层次需求,自尊心满足与否。
整个公式一看便知毫无意义。我们都知道,性格、健康和自尊心,这些是不
能计量的。其实,这个公式就是建立在虚假数字上的空洞之物,经不起推敲。
(2)痛苦公式
痛苦 =18W+38(D-d) · TQM · NA
式中,W= 天气;
D=债务;
M= 上进动力 ;
NA=受关注的需要。
我们看到,这个公式也是没有任何数学意义的。但是它居然证明出 1 月 24
号是 2005 年最令人忧愁的一天!
(3)爱情公式
爱情是看不见、摸不到,但又能让人抓狂的一件事,恋爱是否成功取决于很
多因素。 不过, 一位数学家声称, 他已经找到了一个能够计算爱情持续时间的公式。
L=8+0.5Y – 0.2P+0.9Hm+0.3Mf+J – 0.3G– 0.5(Sm– Sf )2+I+1.5C
式中,L 为爱情持续时间 ;
Y为恋爱之前认识的时间;
4YK[XJOEE .029
第一章? 数字也会说谎
P为双方的前任数量之和 ;
Hm为男方认为诚实对恋爱的重要性 ;
Mf为女方认为金钱对恋爱的重要性 ;
J为双方认为幽默的重要性的总和 ;
G为双方认为外表的重要性的总和 ;
Sm和 Sf 为男女认为性的重要性 ;
I为双方认为对方父母好坏的重要性的总和 ;
C为双方认为小孩的重要性的总和。
公式挺长的啊!
但这个公式可信吗?一名记者利用一下午的时间对一些毫无防备的男性朋友
进行了计算,结果发现她与其中一名男性的爱情持续时间为 12.9 年。可是她并
不喜欢他,尽管幸福持续时间很长,所以她并不想尝试开始这段感情。由此可见,这套爱情公式并不是那么科学。
4YK[XJOEE .
更多免费电子书搜索「雅书」 https:yabook.org4YK[XJOEE .第二章
风险中的数字陷阱
4YK[XJOEE .
更多免费电子书搜索「雅书」 https:yabook.org4YK[XJOEE .社会上的风险无处不在,让人难以捉摸。大多数人都不善于预测风
险。有时,风险是一样的,但是人们对风险的辨别能力有限,因此他们
并不是基于理性判断,而是基于权威人士的措辞来确定风险大小。
一、虚假的“小”风险
作为感性与理性相结合的人,我们是非常容易被他人操控的。当遇到风险炒
作时,我们不容易发觉,很容易成为风险炒作的牺牲品。风险炒作的数字骗术与
其他数字骗术相比,具有更严重的影响,因为它意味着一笔大生意就要达成了。
(一)科学中的“小”风险
航空业的巨擘理查德一直以来都在挖空心思怂恿私人投资者。他名下有一家
民营航天企业,据称在企业创办的开始五年内将要把 3 000 名旅客安全地送到太
空。该公司还在官方网站上自吹自擂,称自己拥有每年运送数以百万计的游客的
经验,安全记录一直得以保持。
我想,大家一看便知这是在胡说八道。太空旅行和乘坐飞机、火车旅行可不
是具有可比性的事情,公司这样说显然是在蓄意降低太空旅行的风险。其实,在
整个航天历史中,载人火箭升空,乘客遇难的比例高达 1%,并且这种风险不太
可能在短期内降低。
4YK[XJOEE .
更多免费电子书搜索「雅书」 https:yabook.org034
数字陷阱
1% 这个数字看起来很小,但就风险本身而言,却高得极为可怕。按照飞机
航行来算,如果民航客机的失事率高达 1%,就意味着每天大概有 275 架飞机失
事,约2万人遇难。如果出现这种情况的话,整个航空业也将遭遇灭顶之灾。1%
的风险概率会让任何一种交通类型都无法开展商业运营。
该公司预计每周发射一次,那么连续运营两年而且不出现遇难悲剧的可能性
只有 13,也就是说,公司把3 000人平安送达太空并安全返回的概率只有0.5%。
这样来看,太空旅行的安全系数太低了。
公司之所以蓄意说低风险, 是因为它可以为公司带来丰厚的收益。确实如此,这套说辞说服 250 多名旅客缴纳了 3 000 万美元的太空旅行费用。不仅如此,政
府和公众也被公司的说辞说服了,政客们开始花费千万美元,甚至州长决定拨款
2.25 亿美元建设一个太空船发射降落场。该州的其中两个县甚至为此制定了一项
新的营业税政策。
(二)金融中的“小”风险
在金融界,有些人常说小风险同样也可以获得巨大收益。实际上风险和收益
其实是对等的。如果投资十分安全,风险很小,那么,你只能挣回极少的收益。
假如你想要获取丰厚的收益,你就必须承担极大的风险,做好无法收回成本乃至
血本无归的心理准备。一名成功的投资者并不是每一次投资都会得到回报,而是
尽力将投资回报率最大化。如果你想要别人给你投资,就必须给予他们最小的风
险和最大的回报。风险越小,人们就越愿意付给你钱。
在出事之前风光无限的某租宝,大肆宣传“1 元起投,随时赎回,高收益,低风险”的口号,称预期年化收益率在 9% ? 14.6%,比一般的理财产品远远高
出一大截。很多投资人为这家公司的保本保息、灵活支取所心动,纷纷出钱投资。
结果,这家公司在短短一年半的时间内吸引了 90 多万投资人,吸收资金高
达 500 亿元。
上面我们已经说过,想要丰厚的收益,就必须要承担巨大的风险,所以“高
收益,低风险”的话是不能信的。之所以人们还是相信这种“神话” ,除了被利
益冲昏头脑外,也有受互联网金融神话的影响。
这一切都是源自 ×× 宝,其年化收益率为 6%,让理财途径很少的草根们
4YK[XJOEE .035
第二章? 风险中的数字陷阱
看到了希望,以后再声称 10% 以上收益率的 P2P 出现,多少让人们心中看到了
×× 宝的影子。当某个 P2P 产品被曝光“骗局或传销”等负面消息时,人们仍
然追捧这款产品。
很多人心里想错了,以为只要跟互联网金融有联系,就一定靠谱,就能钱生
钱。其实,互联网金融所做的与传统的金融机构放贷并没有太大不同。
二、虚假的“大”风险
要问哪里是存在夸大风险最盛的地方,那非新闻媒体莫属了。新闻报道的情
节越惊人,关注的人就越多。
(一)科学上的“大”风险
在 2000 年之前的一段时间,关于小行星撞击地球的传言就曾流传一时。
1998 年,一颗体积较大的小行星被发现,新闻记者从中嗅出了新闻的味道,于
是以“2028 年 10 月 26 日就是我们的世界末日”作为标题吸引读者。2002 年时,又发现了一颗小行星,人们又开始担忧,世界末日可能是在 2019 年 2 月 1 日。
为此,天文学家再三表示,小行星与地球碰撞的概率是很小。但是新闻记者
并没有理会,仍然继续夸大风险。其实,不管多么不切实际,每个世界末日的预
言都能在媒体上引起公众的广泛关注。
我想,很多人应该对 2012 年 12 月 21 日这一天印象深刻吧。因为这一天是
所谓的玛雅预言“世界末日”的那一天。而关于这一天是世界末日的说法其实是
一个骗局。
玛雅历法中,玛雅人并没有把 2012 年 12 月 21 日当作世界末日。玛雅历法
将 1 872 000 天作为一个轮回,也就是 5 125.37 年。他们将最初的计算时间追溯
到玛雅文化起源的时间——公元前 3114 年 8 月 11 日,到 2012 年 12 月 21 日时,意味着一个轮回的结束,历法就要重新计算下一个轮回。简单来说,这只不过是
重新计时的一种方式,跟 2000 年开始 21 世纪或者中华民国成立时采用新的纪年
方式是一个道理。
4YK[XJOEE .
更多免费电子书搜索「雅书」 https:yabook.org036
数字陷阱
(二)生活上的“大”风险
往往由于措辞方式不同,尽管真实含义是一样的,但你也可能会从中错误地
悟出更大的风险。
假如有人告诉你,每 100 个人里面有 25 个人在每年的交通事故中受伤 ;紧
接着又有一个人告诉你,10 000 个人里面,有 2 500 个人因为交通事故而受伤,这两种情况你更担心哪一种?
只要你足够警醒,足够细心,你会发现这两组数字表示的是同一比例 :14
的人会因为交通事故受伤。不过这两种说法确实会让读者产生不同的理解。
除了同一比例,哪怕真实比例相差很大,采用这一方法描述后,人们还是会
增加判断出错的概率。
假如某本杂志对一项研究做了实验,然后给出了两种说法 : “计算机游戏
导致 1 万名学生中 1 498 人患上颈椎病(比率是 15%) ” , “计算机游戏导致 100
名学生中 25.15 人患上颈椎病(比率是 22.15%) ” 。尽管实际上后一种说法的颈
椎病风险差不多是前一种说法的 2 倍,但读者普遍认为前一种说法反映了更高
的风险。
三、风险也分相对与绝对
我们对那些无法控制的风险总是感到恐惧,但如果自己可以控制,即使风险
发生的概率很高,也不会产生很大的恐惧。高速公路上车祸的发生率很高,但因
为人们能够自己控制方向盘,自己来决定是否冒险,所以没有人会觉得害怕。
我们总是习惯凭借经验、数字或者个人的情感、喜好来评估风险,不加理性
地思考,产生的结果就是——我们不认识风险。
(一)科学上的风险
媒体报道上刊出了国际最具权威的杂志发表的最新研究论文。论文指出,胆
固醇值较高的人患心脏病的概率比一般人要高 50%。我想,胆固醇值较高的人看
4YK[XJOEE .037
第二章? 风险中的数字陷阱
过之后肯定会非常不安。但这句话到底反映出了什么信息呢?
我们先来看胆固醇值正常的人,一般每 100 人有 4 个人在未来的 10 年内患
心脏病 ;同样的年龄,胆固醇值较高,则有6 个人患心脏病。
胆固醇值高,患心脏病的人数比不高的人数要多 2 人,正好是 4 个人的
50%。
由4人增加到6人,意味着相对风险提高50%。那么,绝对风险如何变化呢?
其实,在这个例子中,绝对风险只提高了2%,也就是增加的2 人占 100 人的比例。
这样的比例肯定对胆固醇值较高的人产生的冲击力小得多。
(二)生活上的风险
公益广告或者交通告示中或许曾有过这样的话 :“坐车系好安全带,危险降
低 15%。”其实,这句话并没有说清楚降低的危险是相对风险还是绝对风险。
一般坐70 年的车,产生车祸导致重伤的概率是20%,按绝对风险来算的话,20%–15%=5%,这表示系好安全带能够大幅度降低安全风险,受伤概率只有 5%。
但要按照相对风险来算的话,20%×15%=3%,20%–3%=17%,这表示系好安全
带虽然有效,但效果并不是非常突出,只能降低风险到 17%。
其实,概率的相对与绝对这一类陷阱不仅仅体现在风险上,在生活的其他方
面也有可能会遇到。
现如今怀孕的妇女很想提前知道自己即将出生的孩子性别是怎样的,于是在
医院做 B 超。
男婴的概率是 90% ;女婴的概率是 70%,甲女士检查结果是男婴 ;乙女士
检查结果是女婴。大家觉得甲女士与乙女士相比,是否更有把握知道自己孩子的
性别呢?
很多人想当然地看到 90% 与 70%,字面数字比较大小后就武断地判定甲女
士更有把握。其实,事实恰好相反。
现在我们假设 200 名孕妇同时接受了检查,100 人怀男婴,100 人怀女婴,按照上面所说,怀男婴的 100 人中,90 人在检查之后得到了正确的结果男婴 ;
怀女婴的 100 人中,30 人得到了错误的结果男婴,也就是说,检查结果为男婴
的孕妇中,生下男婴的概率为 90÷(90+30)=75%。
4YK[XJOEE .
更多免费电子书搜索「雅书」 https:yabook.org038
数字陷阱
怀女婴的100人中,70人检查之后得到正确结果女婴;怀男婴的100人中,10人获得错误的结果女婴,所以实际上会产下女婴的概率为70÷(70+10)=87.5%。
看来,如果不熟悉统计,我们就很容易掉入数字陷阱,因为统计数据的面貌
太多样了,在一定程度上会扰乱我们的思维。
四、科学谣言扎根于数字陷阱
健康,是每个人都特别关注的话题,而与健康有关的科学话题同样被人们不
断关注并谈论。但是,人们在看到某个科学报道时,可能会因为报道本身的表述
方式而做出错误的解读,有的时候还会在转述的过程中夸大问题。一般情况下,数字能够对一个问题做出比较明确的说明,但在科学问题上,数字也有可能迷惑
大家,让人误解,尤其是在人体健康领域,此问题更为突出。
(一) “大”数字
科学杂志上对癌症研究发表的观点表示 :每 100 人里就会有 25 个人因患
有癌症去世。如果别人在看到这篇报道后向你转述时这样说: 1 000 个人里,有
250 人因患有癌症去世。你觉得哪个更让你恐惧?
如果你冷静下来观察,就会发现比例是一样的,都是14 的人因为癌症去世。
如果你不冷静,可能就会产生误解。
再看一个例子: “每天大概有 100 人因患有癌症去世”与“每年大概有
36 500 人因患有癌症去世” ,这两者相比,读者会认为第一种说法风险小得多,其实这两种说法风险都差不多,只是数字越大,人们心里就会感觉风险越大。这
只是心理错觉而已。
(二)风险“相对论”
人们多少都读到过如下科学研究结论 : “每天食用培根三明治会使肠癌概率
增长 20%” “茶水太烫,饮用后使食管癌概率增加 8倍” “食用柚子会使更年期的
4YK[XJOEE .039
第二章? 风险中的数字陷阱
女性患乳腺癌的风险提高 30%”……以上这些数字是用来表示健康的风险的,意
思是说,食用这些食物之后,与没有食用的人群相比患病的可能性要增加。然而,这些数字只是相对风险,并没有向我们提供绝对风险。
对一般人来说,一生患上肠癌的概率只有 5% 左右。如果每天吃一个培根三
明治增长 20% 的概率,那么,5%×20%=1%,绝对风险只增加了 1% !这种数
据与20% 相比,总会让人平静许多。
(三)关联不是因果
如果说看电视与死亡率挂钩,你听到后还敢看电视吗?以前,曾有过一个关
于“看电视时间与死亡率”的研究。这一研究项目的研究人员历时六年,总计跟
踪调查了 8 800 人,对他们的健康、生活习惯和看电视的行为做了详细的了解。
这些人中,有284 人去世。研究人员得出结论:每天看电视时长超过 4小时的人,死亡率比观看两个小时以下的人高46%。结果,人们在传播科学家的研究结论时,这句话变成了“科学家说,电视使人死亡。”多么令人恐惧的结论啊!但是这些
人犯了将关联关系解释为因果关系的错误。
这项研究并不是侧重在电视上,而是关注久坐时间与死亡率的关系。因为人
们看电视容易久坐,所以看电视只是其中的一种常见方式。研究指出,人一久坐,心脏病等疾病导致的死亡风险会显著增加,但只是两者有关联而已。
(四)毫无意义的比较
有时医学数据会被某些人利用,来实现某些不为人知的目的。
美国一名前市长在竞选时曾说,美国前列腺癌症患者的幸存率达82%,而英
国只有 44%。尽管这两个数据都是正确的,但这种比较太容易使人误解了,因为
美国和英国的前列腺癌症诊断方式不一样。这位前市长引用的是 5 年幸存率,也
就是说患者在 5 年内幸存的概率。在美国,前列腺癌症被筛查诊断确定,而英国
的病人在出现症状以后才会知道自己患上前列腺癌症。由于前者检查出来的问题
比较早,所以会尽快采取治疗,并且由于筛查准确率有限,经常会误诊,这使得
病人的基数很大。由于比较的基础不同,强行比较只会产生误导。
4YK[XJOEE .
更多免费电子书搜索「雅书」 https:yabook.org040
数字陷阱
(五)离开剂量谈毒性?请不要耍流氓
万物皆有毒,关键看剂量。
——巴拉塞尔萨斯(现代医学鼻祖,瑞士医生)
如今快餐文化盛行,一篇关于食品安全的报道要想在信息洪流中脱颖而出,被读者关注,最重要的就是要懂得“吸睛大法” 。使用一个耸人听闻的标题是再
合适不过的办法了。
经检验,××× 竟含有 ×××,长期大量摄入或导致 ×××。
怎么样?这样的句式是不是很熟悉?
看了巴拉塞尔萨斯的名言,我们可以这样理解, “长期大量”似乎是一个不
变的真理。但科学家在描述具体事物的时候可不会如此笼统,不然就会有不懂装
懂的嫌疑。科学家在描述食品卫生事件的时候,一般会包括以下内容 :
人群特征,年龄划分;食物摄入的时间长短,次数多少;摄入途径,如何吃
的 ;摄入量……
在某产品的锰超标事件中,国家食品安全风险评估中心给出了这样的科学意
见 :成年人每天摄入 10 毫克锰不会对身体造成健康威胁。所以,当你下次在新
闻报道中再次看到像“长期大量”这样笼统的词汇时,你在心里知道它是在夸大
其词就行了。你可以在心里追问一遍 :食用的量有多少?食用了多长时间?都产
生了哪些危害?
4YK[XJOEE .第三章
注意 :回归分析也有陷阱
4YK[XJOEE .
更多免费电子书搜索「雅书」 https:yabook.org4YK[XJOEE .回归分析是确定两种及以上变量之间的相互关系的统计方法。它在
研究现象之间的相关性等问题上表现突出。但是在进行建立回归模型和
分析时,如果不能处理好变量之间的关系,很容易落入其中的误区,出
现逻辑错误。
一、数字相关≠因果联系
相关性并不是因果关系,尽管两件事差不多相伴发生,也不表示它们之间就
一定具有因果关系。这本是不用刻意讲的基本常识,但很多人经常弄错。这是无
视统计学的一种表现。每当我们看到那些基于这种错误的言论时,简直不能相信,他们为什么会上当。
但是有太多的人犯过这种错误,当测量 A 的变化时,同时看到 B 的变化,就断然宣布这两者之间存在因果联系。
2014 年英国杂志《经济学人》发表文章称,美国的自闭症儿童在最近八年
内增加了 120%,而这一年中国的居民人均收入也大幅度增长,增幅高达 8%。
中国人均收入和美国的自闭症儿童患者数之间具有一个正相关的显著统计学意义
的关系。之所以这样,是因为这两者在同一时期都出现了快速上涨的趋势。但你
能说这两者之间存在因果关系吗?
哪怕中国的人均收入减少,也丝毫影响不到美国自闭症儿童的数量变化。
如果上述案例中,人们非要将中国人均收入的增长与美国自闭症儿童的数量
4YK[XJOEE .
更多免费电子书搜索「雅书」 https:yabook.org044
数字陷阱
强扯到一起,推测它们的因果关系,那就是犯了“因果诡辩”的错误。
其实, “因果诡辩”在营养学和卫生学方面出现得更为普遍。有的人可能会
因为相信了“因果诡辩”而改变了自己的饮食习惯。
(一)医学上的数字陷阱
在华盛顿大学就职的约翰 · 奥尔尼带领一群精神病学专家研究发现,阿斯巴
甜制品投入市场 3 ? 4 年后,脑瘤患病率以惊人的速度上升了。这在当时的医学
界是一条大新闻,立刻在全球各地成为头条。这使得很多人不敢吃含有阿斯巴甜
的食品了。
数据显示,在阿斯巴甜被批准投入产出的 1981 年,脑瘤发病率为 5% 多一
点,但到了之后的 3 ? 4 年,脑瘤发病率急剧上升,从 1985年的5.2% 一直上升
到 1991 年的 9% 左右。
但这种言论纯粹是夸大其词,因为这种联系其实根本就没有说服力。虽然阿
斯巴甜制品的消费量与脑瘤患病率都提高了,但很多事物都在这一时间段呈现上
升趋势,比如有线电视的安装数量、随身听的数量、某著名演员的演艺事业等。
1981 年正是里根总统上台之际,那时美国的行政开支也急剧升高,两者之间也
具有惊人的相关性,但你不能写一篇论文来论述财政赤字与脑瘤患病率的因果关
系吧?那样的话就太荒谬可笑了。
1996 年乔尔 · 布林德统计分析显示:女人堕胎后得乳腺癌的概率会增加
30%。但是这一信息具有很强的误导性,这个结论混淆了关联性和因果性的不同。
如果患乳腺癌的人和堕胎的人数量上有联系, 即使程度轻微, 那么也只能说是“联
系” ,而不是堕胎“造成”乳腺癌。
有数理统计和科学说明了这一点,同时常识也发挥了作用。在强烈反对堕胎
的地区,大多数妇女在调查时不会承认自己堕过胎。这种现象在不反对堕胎的区
域也可能发生。堕胎是一件极其隐私的事,为什么要冒着泄露隐私或者给自己形
象抹黑的风险告诉统计机构实情 ?
此外,如果这些数据是从一部分女人,比如只从患有乳腺癌的女人中提取这
些数据,结果就会与总的情况大不一样。因为身患乳腺癌的女人比起没有患这种
病的女人更容易承认自己有堕胎经历,能更诚实地面对自己的医疗史。不过这个
4YK[XJOEE .045
第三章? 注意 :回归分析也有陷阱
因果关系也无从考证。
但是得乳腺癌的女人对自己是否堕胎的事情越诚实,也就说明没有患乳腺癌
的女人是否有堕胎史的数据越难搜集。所以我们并不能确切知道有多少堕过胎的
妇女没有得乳腺癌。
还有一点值得注意,布林德是先得出结论之后再进行调查研究的。《科学新闻》
拒绝刊登他的信件,因为其中有些观点与杂志社有关怀孕和乳腺癌的一篇研究文
章不一致,他本可以采取另一种做法的。
布林德公开研究成果两年以后,另一项研究发现堕胎“不会额外增加患乳腺
癌的风险”,此外,美国国家癌症研究所 2003 年研究会否定了“堕胎女性更容易
得乳腺癌”这一结论。
(二)互联网上的数字陷阱
谷歌在 2008 年推出了流感趋势系统,以此来监测全美的网络搜索,寻找与
流感相关的关键词。它们通过这些搜索结果来提前预测流感就医量。不过,在
2008—2013 年,它做出的预测都严重高估了流感病例的数量。
英国的研究人员通过研究发现,到谷歌进行搜索的人有两类 :感冒患者和对
感冒话题感兴趣的跟风者。第一类人的数据很明显是符合实际的,可以为预测提
供真实数据。但第二类人的社会化搜索就直接导致了谷歌预测的失败。流感搜索
量与流感患病量之间只具有相关性,而不是因果联系。这是谷歌预测失败的根本
原因。
两个事物之间具备关联关系,不能代表其中一个事物引起了另一个事物的变
化。在条件不充分的时候证明这种关系,很容易陷入相关关系的谬误,导致数据
不真实。相关关系的谬误一般分为以下三种。
1.机缘巧合产生的相关关系
某些几乎不可能发生的事情,出于偶然,你可能搜集到了证明它存在的证据,但第二次搜集数据时可能就无法证明这个结论了。
2.联合变动
这种关联关系确实存在,但我们不能分辨出何为因,何为果。比如,收入和
拥有的股票之间便是这种关系 :拥有越多的钱,便能买到更多股票,同时,手头
4YK[XJOEE .
更多免费电子书搜索「雅书」 https:yabook.org046
数字陷阱
上的股票越多,又可以为你获取更多收入。这也就是我们要在本章第二节中要讲
到的内容。
3. 显著相关性,变量之间毫无影响
抽烟者与成绩差就属于这种相关谬误。还有一个真实的统计案例,也反映了
这种虚伪相关。比如,美国曾经就有人指出,在马萨诸塞州,长老教会会长的收
入与哈瓦那阿朗姆酒的价格之间密切相关。
在这一结论中,谁是因,谁是果?我们是否能从中确定教会会长从朗姆酒贸
易中获益,或会长支持该贸易?实际上,会长收入和朗姆酒价格还受到了第三个
因素的影响,即世界范围内的物价上涨。
虽然经验告诉我们“眼见为实” ,但眼睛告诉我们的“真相”有时却会隐瞒
或夸大。因此,我们必须掌握一些技巧,让自己不被貌似“科学”的结论愚弄,从而轻松地走出迷宫。
二、A 和 B,哪个是因?哪个是果?
我们不仅在相关性与因果关系上容易混淆,有时还对因果关系中的两者产
生混淆。明明是 A 导致了 B,但我们却认为是 B 导致了 A,这就是“因果倒置”
的问题。
(一)科学界的因果倒置
1996 年,科学界流传着这样一种说法:如果女性臀部和腰部的围度比较大,她们生男孩的概率就比较大。 但仔细一想, 这种说法完全靠不住。 因为我们都知道,胎儿的性别是由精子类型决定的。带 X 染色体的精子生女性,带 Y 染色体的精
子生男性,只带 X 染色体的精子与受精卵结合,如果不是发生基因突变,胎儿
的性别就已经注定是女性了,又怎么会受到臀部与腰部围度比的影响。
可能是因为男孩的头一般比女孩的大,怀上男孩时母亲的骨盆韧带会被拉紧
而延长,从而使母亲的臀部与腰部围度比相对于分娩前要大得多。这种影响如果
真实存在的话,那么研究人员可能是犯了因果倒置的错误。
4YK[XJOEE .047
第三章? 注意 :回归分析也有陷阱
(二)经济上的因果倒置
曾经有过一个关于“债务导致健康状况恶化”的论断。这是一个因果倒置的
典型案例。研究人员经过调查研究发现,一个人的信用卡债务越多,他的健康状
况就越差,由此他们断定,沉重的负债导致了人们的身体不健康。
但是我们清楚地知道,健康状况糟糕的人比健康的人有着更差的经济状况。
因为不健康,他们必须支付医疗费,而且有的时候疾病还会影响他们的工作,导
致挣钱更少。
德国《焦点》周刊在 2011 年报道 :2010 年德国有 10 万多人破产,而遭遇
破产的原因中严重的疾病占 10% 以上,基本与离婚或创业失败持平了。所以,研究人员虽然看出了债务与健康状况之间的关联,但他们显然没有正确地判断因
果关系,而是匆忙得出了错误的结论。
请问收入和股票之间,哪一个为因,哪一个为果?
其实,收入与股票同为因果,因为你的收入越多,才能买更多的股票,而股
票越多,在经济状况良好的情况下,收入也就越多。这是一种良性循环。在这里,简单地认为收入增多导致股票增多或者股票增多导致收入增多都是片面的。
美国在幼儿园到 12 年级的儿童教育上投入多的州,其经济增长率明显要高
于投入少的州。但是我们无法看出其中的因果关系方向。因为我们既可以说教育
上的投入推动了经济发展,也可以说是经济实力较强的州才能在教育上充分投入,所以增长的经济带来了教育的投入。我们还可以说,是教育支出推动了经济增长,反过来又继续为教育增加投入,两者之间互为因果。
(三)学习上的因果倒置
你觉得上课的费用和上课成绩好坏之间有因果关系吗?哪个为因,哪个
为果?
举一个更具体的例子,上高尔夫球课的时间与打球的成绩有何关系呢?高
尔夫球一场要进 18 洞,用的杆数越少表示成绩越好,那上高尔夫球课的课时与
每场 18 洞练习的平均杆数之间有什么关系呢?经过大量的调查研究,研究人员
得出这样的数据 :当学费在 0 ? 300 美元时,学费越高,平均杆数越低 ;当超过
4YK[XJOEE .
更多免费电子书搜索「雅书」 https:yabook.org048
数字陷阱
300 美元时,学费越高,杆数越多。在 300 美元以上时,上的课越多,击球成绩
越差,这是为什么呢?可能你会觉得,应该是击球成绩差,所以要上很多的课来
学习进步,但事实往往不是那么简单,这个结论可以有两种解释: 教练教得太差,学的时间越长,击球成绩反而没有得到提升; 状态不好时总是会想着多上几节课,于是状态不佳导致了更多的课程。
所以,你看,击球成绩差和课程多之间的因果关系很容易造成混淆。
(四)广告上的因果倒置
看广告与购买商品具有什么样的相关关系呢?在一项调查中,研究人员问被
调查者是否在过去一个月之内看了某品牌的广告。 购买这一品牌产品的100人中,有 62% 的人说看过 ;未购买商品的 200 人中,有 79% 的人说没看过。通过这个
例子我们看出购买者对广告的认知率较高。 一般来说, 我们会想到 “看到广告的人,或者对广告印象深刻的人购买的可能性更高” 。误差值只有 0.1%,可以忽略不计。
但是,在统计之后,我们必须要注意因果关系方向这个问题。上面这一数据和统
计分析的结果将因果关系反过来也是可以成立的。也就是说“因为看了广告而购
买商品”和“因为购买了商品而对广告印象深刻”这两个假设都是有可能的。
(五)教育上的因果倒置
有研究者曾对家长做过问卷调查,旨在分析儿童玩暴力游戏与犯罪的关联,结果发现,少年犯罪者中玩过暴力游戏的比率很高。但这样就支持“减少暴力游
戏能够减少少年犯罪”的观点吗?答案是尚无定论。
如果儿童都玩过同样的一种暴力游戏,有些孩子变成少年犯,其父母就会认
为是暴力游戏的错 ;而有些则没有,父母则会认为这个游戏是适合男孩子玩的战
斗游戏。对于同一款游戏,双方父母的态度不同,视其为洪水野兽的父母与毫无
偏见的父母,其孩子的犯罪率有很大不同,所以这种因素也要考虑进去。假使不
将这种因素考虑进去,我们应该假设没有游戏的影响,人类其实本身就具有暴力
倾向。严格来说,那些具有严重暴力倾向的儿童更喜欢玩暴力游戏,从而进行犯
罪活动。这样来说的话,哪怕是再限制暴力游戏,也不能阻止他们犯下罪行,毕
4YK[XJOEE .049
第三章? 注意 :回归分析也有陷阱
竟即便没有游戏,他们的暴力倾向也是存在的。
三、遗漏变量,分析有误差
如果我们将某两种事物之间使用回归方程式建立联系,可千万不要遗漏某个
重要的解释变量,更不能让其他的变量把这个重要变量的影响给覆盖了,不然分
析结果就会非常具有误导性,可能会与事实南辕北辙。
(一)学校考试成绩中的数字陷阱
假如我们要评估一所学校的教学质量,在现在这个时代,最客观的量化指标
就是考试分数了。这是因变量。学校的开支是解释变量。评估人员希望这样的模
型可以量化学校开支与学生分数的关系。
但是开支大的学校,其学生在考试中就一定会取得高分数吗?如果学校开
支是唯一的一个解释变量,毫无疑问,我们肯定可以在两者之间找到显著的相
关关系。
分数可以通过加大学校的开支来提升,这样的观点明显就不符合实际。
其实,学校开支与分数之间还存在众多潜在的解释变量,其中最重要的一
个就是家长教育。受教育程度高的家庭一般住在相对较富裕的地区,能够享有
更多的学校设施,花销也更多,培养出来的孩子由于训练和学习资源丰富而普
遍比经济能力较差的家庭的孩子在学习成绩上好一些。所以,不能遗漏这一重
要的变量,不然回归分析的结果将认为学校开支与分数之间存在显著相关关系。
那可能吗?分数高低是由学生的优劣决定的,而不是看学校的教学楼是花了多
少钱盖起来的。
美国一位大学教授曾经说 :SAT 考试分数与家庭的汽车拥有数存在显著的
相关关系。这位大学教授想借此说明,他觉得 SAT 在大学录取上面存在不公平。
SAT的确存在缺陷,正如中国的高考一直被人们诟病一样。但考试与家庭轿车拥
有数之间是否存在相关关系这一观点是值得怀疑的。可以想见,一个富裕的家庭
再多买 5 辆汽车,也不能保证他的孩子考上大学。家庭拥有汽车的数量反映了这
4YK[XJOEE .
更多免费电子书搜索「雅书」 https:yabook.org050
数字陷阱
个家庭收入和教育等社会经济地位的高低。而 SAT 分数经过训练是可以得到显
著提高的。学生通过参加培训,可以显著提升分数。既然培训与分数之间存在
着相关关系,那么家庭较富裕的孩子就能得到更多的学习资源,获得更大的竞
争优势。
(二)健康上的数字陷阱
我们可能在媒体上读到过有关常打高尔夫球对身体健康的影响,报道称,常
打高尔夫球易患心脏病、癌症和关节炎。对于这样的内容,我们大可不必相信。
高尔夫球员患这些疾病的概率比不打高尔夫球的人要高,这我不能否认,也不奇
怪。只是,我同样认为打高尔夫球对健康是有益的。它不仅能使你的社交生活更
丰富,也能让你增加运动量。
在这两种观点之间如何进行取舍?其实,在量化某项运动对健康的影响时,不要忘了“年龄”这一变量。一般情况下,年龄越大的人,打高尔夫球的时间和
机会也就越多,特别是退休之后。很多研究人员在研究打高尔夫球与健康的关系
时都忽视了年龄这一变量,忽视了这样一个事实:打高尔夫球的人一般比不打高
尔夫球的人年龄要大。
所以说,并不是打高尔夫球导致了患上那些疾病,而是人已经步入衰老期,尤其是癌症和心脏病,这些疾病通常都是在这些人群中产生。而且,那些有条件
的常去的人对打高尔夫球是非常有兴趣的,常常乐此不疲。
如果将年龄这一变量放入分析中,我们可能会得出一番相反的结论 :在年龄
相近的人群中,常打高尔夫球对上面提到的严重疾病还能起到一定的改善作用。
(三)概率上的数字陷阱
概率论中也会出现由于遗漏相关变量而出错的情形。
假设你是一家大型航空公司的风险管理总监,你的助理对你说,跨越大西洋
航班的引擎出现故障的概率为 1100 000,由于这类航班的班次很多,因此这类
风险应该极力避免。但令人欣慰的是,每架航班都至少有 2 个引擎,2 个引擎都
出现故障的概率为 110 000 000 000。估计听完你助理的理论后,你就会让他收
4YK[XJOEE .051
第三章? 注意 :回归分析也有陷阱
拾东西回家了。
为什么呢?因为 2 个引擎发生故障不是互相独立的事件,假如飞机在起飞时
飞来一群天鹅,2 个引擎都会损坏。同样,其他的众多因素也可能会对飞机引擎
性能造成影响,比如天气变化、维护不当等。当一个引擎出现问题时,另一个引
擎出现问题的概率肯定远远大于 1100 000。
在 20 世纪 90 年代,英国检方由于没有意识到这一点,对概率使用不当,作
出了一次严重的司法误判。英国检方想当然地认为不同事件之间就如抛硬币一样
彼此独立,但却忽视了它们之间的联系,因为某个特定结果的出现可能增加与之
相类似的结果发生的可能性。
这一错误起源于一个名为“婴儿猝死综合征”(SIDS)的疾病,得了这种病
的婴儿,在表面看起来很健康的情况下会突然死亡。由于这一疾病很神秘,不容
易解释,因此引来了众多猜测和怀疑。
事件的起因是这样的。
1999 年年底,英国的所有媒体都疯狂般地报道一位冷血杀手——34 岁的
英国女律师萨利 · 克拉克。她被指控谋杀了自己的两个亲生孩子。她的第一个
孩子在三个月大时原因不明猝死。一年以后,第二个孩子也在两个月大时原因
不明猝死。
当时,医学界刚刚开始注意到SIDS的现象。
萨利的第一个儿子在尸检后就被确认为患有“婴儿猝死综合征”,但她第二
个孩子猝死时,医生在尸检时强烈怀疑这位母亲,于是举报了她。
指控方并没有直接的证据指控萨利犯有恶行。在两次婴儿猝死事件中,这位
母亲都是单独和婴儿在一起。在与婴儿的接触中,人们都表示,他们看上去都非
常健康活泼,看不出有受到虐待的迹象。
萨利是一名律师,家庭条件优越,金发碧眼,十分漂亮,工作、生活中处处
受人尊敬,实际上却很可能是亲手杀害自己两个孩子的冷血杀人狂。这样的社会
案件一般会更加吸引人们的兴趣。
由于人证、物证不足,参与萨利一案的 10 名陪审团成员只能通过听取一连
串的医学专家证人的证词来判断萨利是否有罪,但出庭的专家证人纷纷说出自己
的意见,没有达成一致。
按说这种局面对律师出身的萨利很有利,但非常不幸,她碰上了英国儿科权
4YK[XJOEE .
更多免费电子书搜索「雅书」 https:yabook.org052
数字陷阱
威罗伊· 梅铎。梅铎刚刚被女王封爵,名气和声望正如日中天,并且在统计研究
方面有很强的权威性。
梅铎爵士受英国政府委托,率领一支跨领域的团队,仔细研究了 44 000 多
个样本后刚刚完成了一项研究成果,正好运用到萨利案件上。法庭上,梅铎爵士
根据报告得出推论 :
一个家庭出现婴儿突然死亡综合征的概率是 18 543,但如果连续出现两起,概率则为 17 300 万。
梅铎爵士满头白发,气质彬彬,象征着权威。他在陪审团面前以不容置疑的
牛津口音,一字一句念出其专著《儿童虐待的基础知识》中的一句话 :一个死婴
是不幸 ;两个死婴很可疑 ;三个死婴就是谋杀!
《儿童虐待的基础知识》有这样的一个结论:尽管婴儿猝死综合征有家庭聚
集的现象并没有得到有效的证明,但儿童虐待案件却常常甚至总是与家庭因素有
关 :一个虐待过老大的母亲,很有可能会虐待老二、老三。
这一结论被称为“梅铎定律” ,在 20 世纪 90 年代对英国的检察机关和社会
工作机构产生了深远的影响:只要一个家庭有两个或以上婴儿猝死,社工和警方
都以“有罪推定”的方式处理:除非有其他证据证明,否则这些人都有极大的可
能虐待,甚至故意杀害自己的孩子。
他是这样推理的 :
假如全国婴儿出现兔唇的概率是 1100 000,那么你未出生的小宝宝出现兔
唇的概率也是 1100 000 ;假如一个人连续中了两次福彩双色球,一定存在猫腻;
假如一个犯罪现场的DNA和一个嫌疑犯的DNA基因库中的某个DNA样本匹配,而匹配的概率是 12 000 000的话,那么嫌疑犯的犯罪可能很大。
果真如此吗?
梅铎爵士多次以专家证人的身份出庭类似的案件,他的权威地位不容置疑,这可以决定案情的走向,而这次萨利也不例外。既然萨利和她的辩护团队无法拿
出萨利没有杀害婴儿的证据,那么萨利就是凶手!
萨利·克拉克的上诉被驳回。 但由于案情诡异, 再加上萨利的美貌和优渥出身,媒体进行了广泛报道,梅铎爵士的证词迅速得到学术领域的广泛关注。于是,一
个看似与之无关的专家群体也介入了萨利案。
英国皇家统计协会发表新闻声明,公开指责梅铎爵士的推理,认为他的每一
4YK[XJOEE .053
第三章? 注意 :回归分析也有陷阱
步推理都犯了统计学中的错误。在声明的最后,皇家统计协会甚至与老派英国机
构的外交辞令不同,说话不再给人留有余地,而是用斩钉截铁的口吻表示 :
虽然很多科学家都对统计学方法有所了解,但统计学仍然是一个专业领域。
皇家统计协会敦促法院经由统计学专家在法庭上使用统计学证据。
现在我们来看一看梅铎爵士犯了哪些统计学错误。
1.环境谬误——假设总体的概率就是个体的概率
比如,全国出现兔唇的概率是 1100 000,那么你的孩子出现兔唇的概率
也是 1100 000。但其实你的孩子出现兔唇的概率到底是 100% 还是 25%,或
者其他概率,是取决于你和你配偶的基因的,与全国人整体的发病率并没有
直接联系。
2.独立性谬误——需要证明独立性,却假设独立性先验存在
虽然概率计算本身不存在问题,但前提是一定要确保婴儿猝死事件是完全随
机的,相互之间没有任何未知联系。不过,由于医学家对这一病症还缺乏有效的
了解,同一家庭里两位婴儿先后猝死很有可能存在相关关系,比如基因等。
按照梅铎爵士的计算,假如一个家庭连续出现两起婴儿死亡的概率是
17 300 万,英国的历史上就应该显示,大约每 100 年才会有一起“一个家庭连
续出现两起婴儿猝死的案件”。
但就在萨利案宣判后几个星期,英国医学期刊刊登了一篇论文,上面的数据
显示,英国大约每年都会出现一起“一个家庭连续出现两起婴儿猝死”的案件。
更讽刺的是,梅铎爵士自己就曾在多次类似的案件中作为专家证人出庭作证。
3.检察官谬误
当 DNA 检测手段被大规模应用于刑侦工作中时,人们才注意到这一错误。
在早期 DNA 检测时,人们并不是对全基因组进行测序,而是采取片段比对
的方式。这时, DNA比对命中的概率大约是数万分之一。这样的概率肯定非常小,但当DNA 样本库足够大时,命中的概率就会非常大了。
我们假设 DNA 比对命中的概率是 110 000。当 DNA 样本库达到 20 000 个
样本时,任意一个DNA片段在这个样本库中命中的概率都是86%。这也不难理解:
4YK[XJOEE .
更多免费电子书搜索「雅书」 https:yabook.org054
数字陷阱
尽管每一个人抽中福彩大乐透的可能性是数百万分之一,但是,我们几乎每一期
都会开出中奖的用户。
梅铎爵士认为,一个家庭连续发生两起婴儿猝死的概率实在太低了,因此发
生这件事情的家庭就很可疑,这与因为中福彩大乐透的概率太低了,所以隔壁邻
居中了福彩大乐透就非常可疑是一样可笑的逻辑。
实际上,每一期彩票的数量那么多,总会有人中大奖。英国每年出生那么多
婴儿,总会有人遭遇“连续两个小孩猝死”的事件。20 世纪 90 年代初,英国和
美国的法庭都在多个判例中确认了“检察官谬误”的地位,对 DNA 证据的使用
进行了规定,但这些原则并没有在本次审判中使用。
这次争论终于让“杀婴事件”的案情得以逆转。最终,由于皇家统计协会的
报告,2003 年,萨利·克拉克赢得了第二次上诉。英国法庭鉴于这次事件的影响,又对 243 个类似案件进行了重新调查,到现在为止,至少有 4 起案件得到逆转。
但这一切对于萨利来说太迟了,这位可怜的母亲失去了两个孩子,还被当成杀人
恶魔,由于酗酒过度,在 2007 年死于家中,年仅 42 岁。
四、无关变量太多,结果无意义
有很多人认为,如果遗漏解释变量会带来不必要的麻烦,那在分析时加入大
量的解释变量是不是就能解决问题呢?答案是否定的。因为变量一多,超出一定
的量,尤其是无关变量太多,分析结果就会被稀释,从而失去统计意义。
为了很好地说明这一点,我们来看下面的这个例子。
一个班级约 40 人,每个学生都抛掷一枚硬币,结果是反面朝上的学生就要
退出,剩下的学生继续抛硬币,这样直到有一名学生一连五六次都抛出正面朝上
的结果。有的人会向这名“胜利者”提出一些搞笑的问题: “你是怎么坚持到最
后的?是不是手腕有技巧?你能不能教给我们怎样让正面一直朝上?是不是因为
你今天穿了某歌星的歌迷会服?”
抛硬币一直都是正面朝上,这显然是运气好,周围的学生都见证了这件事情。
可是统计学对此却有另外的看法。
概率论认为,连续5次抛出正面朝上的概率是132,比确定的推翻零假设的
4YK[XJOEE .055
第三章? 注意 :回归分析也有陷阱
概率 120 还要低。在这个例子中,我们的零假设是学生抛硬币不存在什么特殊
能力,但连续抛出5 次正面朝上的概率却推翻了零假设,这就说明备择假设成立,也就是说这名学生拥有抛硬币一直正面朝上的特殊能力。在结束这一活动之后,我们就可以从他身上寻找成功的诀窍了。可能是他抛硬币的动作,他受到过体育
锻炼,硬币抛到空中时他的注意力等,无关的解释变量太多了,显得非常荒唐。
统计学中有一个被大多数人普遍接受的惯例,在零假设成立的前提下,假
如某个概率小于或者等于 120 的事件真的发生了,那么,我们可以推翻零假设。
假如我们进行 20 次试验,或者在某次分析中加入了 20 个无关变量,我们就会得
出一个具有统计学意义的虚假结果。
医学研究一直以来都有一个黄金标准,也就是采取随机抽样的方法进行临床
试验。现在我们也该以怀疑的眼光来审视一下这个标准了。
医学研究中有一个不可见的秘密,很大的一部分原因是来自“发表性偏见”。
医学研究人员和医学杂志只注重关注那些振奋人心的发现,而忽视那些否定性的
发现,可能他们会发表唯一一篇结论为某药物有效治疗某疾病的论文,而选择性
地忽略另外 19 篇证明该药物无效的论文。研究人员可能会因为先入为主或者某
个肯定性发现对自己有利而存在有意无意的偏见。
由于种种原因,很多专家发表的研究后来被证明是不正确的。希腊一位医生
兼流行病学家曾对 3 本具有很高声望的医学杂志刊登的 49 篇研究论文做了统计,发现每一篇论文的研究发现都被至少转载了 1 000 次,但是有大概三分之一的结
果都被后来的研究推翻了。据这位医生观察,已出版的医学研究论文中,估计有
一半到最后会被证伪。
五、预测趋势胡乱分析,结果很可笑
当数据在数据图上看似合理地呈现时,看起来可以归纳出某些数据特征,但
这其中也许会存在数字的骗术。统计学家、经济学家或者科学家就算发现了数据
之间的关系,也不能肯定这种数据关系是否有真正的意义。数据图中的线或者公
式可能会表述出数据中的紧密联系,但也许实际上并没有实用价值。
2004 年,动物学家、地理学家和公共卫生专家曾在刊载于《自然》杂志上
4YK[XJOEE .
更多免费电子书搜索「雅书」 https:yabook.org056
数字陷阱
的研究报告上联合署名,他们对田径运动员在历届奥运会 100 米短跑项目上的成
绩做了研究,发现了一些显著的规律。
男运动员越跑越快,在这个项目上所费的时间越来越短,可以画出一条具有
下降趋势的直线来说明这个规律。女运动员同样如此,也可以画出一条具有下降
趋势的直线。
数据图上,男女运动员的成绩直线如果继续延伸,将会相交,也就是说,女
运动员的成绩会赶上并超过男运动员的成绩。科学家推断的时间是 2156 年。科
学家由此得出结论,女运动员将在 22 世纪中叶在短跑项目上比男运动员更快。
科学家还精确地指出,那一天会在 2064—2788 年出现。
不过,这样画线是不切实际的。如果继续将线延长,我们会很容易看到其
荒谬的一面。照这两条线的趋势,女运动员在 2224 年左右可以于 7 秒之内跑下
100 米,速度竟达到 32 英里 小时。她们或许可能会耍弄语言手段表示这是可
能实现的。照这样说,这两条线还能延伸下去,如果一直延伸,你会发现,到
2600 年,女运动员的速度能达到音速并超越它。这种趋势下去,她们的速度还
会超过光速。这如果可以实现的话,时光就会倒转,这些女运动员在开始比赛之
前就已经赢得比赛。这样分析以后,你还会觉得这两条线可以展示出真实的未来
趋势吗?其实,这只不过是对真实的错误解释。
虽然这两条线在最开始的时候令人信服,但它并没有显示出数据间的真正联
系。女运动员由于求胜心切,会在很短时间内竭尽全力参加比赛,所以短期内成
绩上升得比男运动员要快。可是当运动员逐渐成熟以后,提升速度会变得越来越
慢,增长趋势就会放缓,直至趋于最高水平。由于运动员都达到了各自的身体极
限,提升也就终止了,线条不再呈现上升趋势,而是变为水平线。
既然是水平线,那么这两条线就永远不会交叉,也就是说,女运动员的最佳
成绩可能会在多年以后与男运动员的成绩接近,但不会超过。这是由自然法则决
定的。
这份杂志早在之前就已经在这种愚蠢的预测上栽过跟头了。
1992 年,两位生理学家研究了男女长跑运动员的比赛成绩,并画出了数据
曲线。他们最后得出结论,女运动员的成绩会在 1998 年超越男运动员,到那时,她们的最佳成绩会是 2 小时 1 分 59 秒。但后来的实际情况却出乎他们的意料。
2000 年悉尼奥运会的马拉松比赛,女运动员的金牌得主成绩只有 2 小时 23 分
4YK[XJOEE .057
第三章? 注意 :回归分析也有陷阱
14秒,比男运动员金牌得主慢 13 分钟。
画一条线,建立一个公式,描述数据之间的规律,这样做虽然看着容易,但
没有实际价值。这些数据看起来令人信服,但要真的用来预测实际事物,就完全
无效了。但尽管这样,好多科学家、经济学家等都在难以置信地,有意或无意地
使用着这种数字骗术。
这是随意进行回归分析,结果毫无意义,就像疯子似的呓语。看来我们要
正确地使用这个工具,运用它强有力的技能,在规定的数集范围内找出一定的
规律。
4YK[XJOEE .
更多免费电子书搜索「雅书」 https:yabook.org4YK[XJOEE .第四章
统计调查,数字陷阱的重灾区
4YK[XJOEE .
更多免费电子书搜索「雅书」 https:yabook.org4YK[XJOEE .数据在统计调查中十分重要,因为统计调查的结果最终是要用数据
来呈现的。但是统计调查的数据会在收集的过程中掺水,或者是样本质
量出现问题,导致统计结果并不都是如实反映真实情况。何况,统计调
查数据还会为人所用,成为其盈利的工具。
一、样本数据不足,离正确结论失之千里
大量用户反映,使用 ××× 牌牙膏将使蛀牙减少 23%!
这是一则广告的大字标题,足以让你印象深刻,历历在目。你如果患有蛀牙,肯定希望减少 23%的痛苦,于是就会接着往下读。这则广告称这些结论出自一
家具备极高声望的实验室(尽管你并未听说过),并且还经注册会计师证明,比
如此具有权威性,你还能对这些数据产生怀疑吗?
但生活的经验告诉你,牙膏之间的差别其实是微乎其微的。那么,这家公司
是如何得出如上结论的呢?它们是否在说谎,又如何逃避责任呢?其实,它们有
一个非常简单有效的方法既让读者上当,又使自己并没有说谎。
秘诀就是不充分样本,也就是统计角度的不充分。其实,样本用户只有12 人,它用小字将这点内容披露了出来。有的广告商比这家公司还要坏,索性将类似的
文字略去,让读者一头雾水,哪怕你是再精明的统计学家也会疑惑 :这里面到底
玩了什么把戏?
4YK[XJOEE .
更多免费电子书搜索「雅书」 https:yabook.org062
数字陷阱
一款名为“可尼斯博士”的牙粉上市,在宣传语中声称“在治疗臼齿方面获
得了极大的成功” 。理由是 :该牙粉中含有尿素,经过实验室证明,尿素对于治
疗臼齿有极大功效。但该实验室的结论只建立在 6 个样本用户上,根本不具备说
服力。
下面让我们回头看看,××× 公司是怎样获得这样一个没有漏洞而且经得
住检验的标题的。
让一组人在六个月的时间内每日记录蛀牙数,然后使用该牙膏产品。试验结
果只会有三种:蛀牙增多,蛀牙减少,蛀牙数量不变。假如发生了第一种和第三
种结果,那么该公司就可记录下这些数字并将其藏匿,然后重新实验,等到有一
组数据证明蛀牙明显减少,并且该数据足以好到作为标题即可。但不管实验者使
用的是该品牌牙膏还是苏打粉或者原来的品牌,上述结果都有可能会发生。
该公司为什么喜欢使用小样本呢?因为在大样本的使用中,任何由于机遇产
生的差异都是微不足道的,不足以作为广告标题。比方说, “蛀牙减少 2%”将
不会对销量有多大的提升作用。
小样本是如何利用机遇产生一个没有作用的结果的呢?成本极少,你自己也
可以试一试。比如抛一枚硬币,有一半的次数是头像朝上,这种概率谁都知道。
那让我们检验一下吧。我试着抛了十次,结果是八次头像朝上,这证明头
像以 80%的概率朝上。现在你自己试一下,也许你抛出的结果是头像 5 次朝上 5
次朝下,但也可能是其他结果,如果你足够耐心,抛上 100 次,差不多是 50 对
50 的比例,这才代表着真实的概率。概率只有在大量实验之后才能有效用于预
测和描述事物。
有研究人员曾做过一项关于小儿麻痹症疫苗的实验。他们给 450 名儿童接种
了疫苗, 而另外680名儿童则没有接种疫苗。 单纯从数字上来看, 这个实验不算小。
可当不久以后该区域感染流行病时,接种疫苗的儿童和没有接种疫苗的儿童
都没有患上小儿麻痹症。
其实,在最开始设计这个实验时,研究人员忽略了该病的低发生率。如此低
的发生率,在这种规模的样本中一般只会产生 2 名患者。因此,实验从一开始就
注定要失败。只有数据量达到这次实验数据量的 15 ? 20 倍时也许才能产生足以
解释某些事物的结果。
那么我们该如何避免被不科学的结论愚弄呢?难道要我们所有人都成为统计
4YK[XJOEE .063
第四章? 统计调查,数字陷阱的重灾区
专家,亲自检验一下数据吗?并没有那么麻烦。我们有一种非常简单的用于检验
显著性的方法。它是用来反映实验数据代表实际结论的可能性的,而不是代表由
于机遇产生的结论。这便是那些没有透露的数据,如果掌握了这个方法,你便能
看清其中的企图。
如果显著程度在某条信息中被提供,将会使你对它有更深刻的了解。显著程
度通常用概率表示,比如,普查局以 19 20 的概率保证它们的结果是正确的。
在通常情况下,5%的误差水平是最低要求,有时需要更精确的 1%的误差水平,这就意味着以 99%的概率保证该结果是真实的,任何类似的事情“实践上是几
乎确定”的。
还有另一类没有透露的数据,它的遗漏也同样具有破坏性。这是表明事物整
体范围的全距和与平均数偏离水平的数据。在通常情况下,平均数(不管是否指
明均值或中位数)都由于过于简单而导致无用。对实际情况一无所知通常要比获
取错误信息好得多,但有时知之甚少也十分危险。
现在美国的许多房产都是为了满足统计学上的平均家庭,即 3.6 人的家庭,用现实的语言说是 3 个人或 4 个人,即两个卧室的房屋。这种规模的家庭,虽然
是“平均”的,实际上却只代表了一小部分家庭。“我们为平均家庭建造一般规
格的房屋。”制造商在这样说的同时,却忽略了具有更多人口或更少人口的大部
分家庭。这样的后果是,一些地区大量重复建设两个卧室的房子,而低估了其他
规模的需求。这是不完全信息的统计资料造成巨大浪费的实例。
在看到这么有说服力且权威的 3.6 人时,人们往往忽略了常识。它在一定程
度上战胜了人们观察得到的事实,即许多家庭规模比这个家庭规模要小,还有相
当一部分比它要大。
假设一对父母在《星期天》图画副刊等地方读到“孩子”将在某月学会坐直
的内容时,他们立刻会联想到自己的孩子。如果恰恰他们的孩子在该月不能坐直,父母一定会得出结论 :自己的孩子智力低下、不太正常或这很不公平等。既然一
半的孩子在那时都坐不直,那就会有一半的家长将为此苦恼。当然,就数学的角
度而言,这些不快将与另一半聪明孩子的家长的愉悦互相平衡。当不开心的家长
做出种种努力使孩子与标准一致时,产生的危害将无法弥补。
错误出在研究者经过耸人听闻或消息不灵通的作者向读者传递信息的筛选
过程中,而读者又没有发现这个过程中所遗漏的数据。如果能给“准则”或者
4YK[XJOEE .
更多免费电子书搜索「雅书」 https:yabook.org064
数字陷阱
平均数加上反映全体范围的指标,那许多误会将消除。当发现自己的孩子属于
正常范畴时,父母将排除由微小和无意义的差异而引起的担心。无论如何几乎
没有人是正常的,就如同抛 l00 次硬币,几乎很难出现 50 个正面和 50 个反面
的情况。
将“正常的”与“期望的”混为一谈导致事情变得更糟。这则关于孩子坐直
的内容仅仅描述了一些通过观察得到的事实,这使得那些阅读书籍和文章的父母
错下结论 :晚一天或晚一个月学会坐直的孩子是低能儿。
让我们再举一个遗漏样本的例子。有时并不是数据本身说谎,而是我们没有
注意到那些沉默的数据。
第二次世界大战时,英国皇家空军邀请美国的统计学家分析德国地面炮火击
中联军轰炸机的资料,并且从专业的角度建议机体装甲应该如何加强,以便降低
被炮火击落的概率。但依照当时的航空技术,机体装甲只能局部加强,否则机体
过重,会导致起飞困难及操控迟钝。
统计学家将联军轰炸机的弹着点资料,描绘成两张比较表,研究发现,机翼
是最容易被击中的部位,而飞行员的座舱与机尾,则是最少被击中的部位。
作战指挥官由此认为,应该加强机翼的防护,因为分析表明,那里“密密
麻麻都是弹孔,最容易被击中” 。但是统计学家却有不同观点,他建议加强座舱
与机尾部位的装甲,那儿最少发现弹孔——因为他的统计样本是联军返航的受损
飞机,说明大多数被击中飞行员座舱和尾部发动机的飞机,根本没来得及返航就
坠毁了。
所以,分析者要有足够广阔的视角和逻辑,才能在数据里挖掘出更多正确的
事物,为你服务。
二、资料不匹配,何谈正确结论
假如你想说明某件事情是对的,但你知道并没有能力去证明它,那么你可以
尝试着解释其他事情,并且假装认为它们是同一件事情。在统计资料中,人们的
思维大多不会觉察到这两者的区别。这就是不相匹配的数据,它可以为你保持有
利位置,并且常常奏效。
4YK[XJOEE .065
第四章? 统计调查,数字陷阱的重灾区
(一)媒体的不匹配数据
《本周》杂志刊登了一篇探讨驾驶安全的文章,这篇文章的内容肯定会激发
你的阅读兴趣。
文章称 :“如果你开车以每小时 70 英里的速度疾驶在高速公路上,当时间是
早上 7 点时,你生还的机会将是晚上 7 点的 4 倍,因为晚上 7 点发生的灾难是早
上 7 点的 4 倍。”文章中提到的证据基本上是正确的,但证据似乎并不能证明提
出的论点。晚上的车祸比早上多,那只是因为晚上有更多的车和人在高速公路上。
如果照他这样的荒谬逻辑来推算的话,天气晴朗时驾车比有雾时要危险得多,因
为晴天比雾天多,所以天气晴朗时会有更多的交通意外。但根据生活常识来看,我们都知道有雾会让驾车变得更危险。
在媒体上看到交通事故的报道时,如果我们不清楚它们是不相匹配的数据,那么我们很可能被很多交通事故的记录吓得够呛。
有这样一则事故报道 :“去年飞机失事导致的人员死亡数比 1910 年多出数
倍”,难道这就意味着现在乘飞机要比以前危险得多吗?大错特错,因为现在乘
坐飞机的人数与之前相比差的何止是几百倍了。
媒体报道,×××× 年,死于火车交通事故的人数超过 4 000 人。人们在看
到这样的消息时肯定会对火车的安全问题加以重视,很有可能减少乘坐火车的频
次,而宁愿自己开车。但如果你深入了解一下你就会发现完全相反的结论。这些
交通事故中,将近96%的人是那些驾驶汽车在路口与铁路相交处同火车相撞的人。
也就是说,只有 160 人是火车上的乘客。而且,除非将这个数据与总旅客路程数
相结合,否则 160人也不能直接用于比较。
如果你即将出门远行,这是一趟穿越全国各地的长途跋涉,而你又十分关心
旅途的安全,你可能会询问坐火车、飞机或者汽车哪种交通方式更安全,哪种交
通方式的交通事故数少。其实,你这样根据事故数来判断危险性的方法是不正确
的。你应该询问每 100 万个乘客中的遇难人数,然后再计算比例,通过比较这些
比例,你才能知道最大的危险所在。
英国政府 2015 年开始同意让父亲和母亲共休产假。但一年后的统计数据却
显示,只有 1% 的父亲选择了休假。BBC、《卫报》等各大媒体报道之后引发强
烈社会反响。真的是这样吗?原来,这个“1%”,其基数并不是有资格休假的父
4YK[XJOEE .
更多免费电子书搜索「雅书」 https:yabook.org066
数字陷阱
亲人数,而是所有男性人数。有人指出,如果这么算,即使当年所有新生父亲都
选择休假,调查得到的数字也只不过是 5%。
(二)广告中的不匹配数据
商家有时并不能确保他所出售的医药秘方能够治疗你的感冒症状,但他可能
会用大字标题在报纸上刊登一篇非常具有冲击力的实验报告,声称在 11 秒内该
药只需半盎司就能够杀死试管中的31 108个细菌, 而且这家实验室是非常有名的,上面有一个家喻户晓或者令人印象深刻的名字,旁边还有一个白大褂医生的肖像
或照片。
他们不会告诉你们这里面的小把戏,而且也不会指出试管中的抗菌剂在喉咙
里根本就不发挥作用,特别是为了药物不灼伤喉咙特意进行了稀释以后。他们更
不会为你们透露杀死了哪些细菌。其实,哪种细菌导致你感冒了呢?又或者感冒
可能根本与这种细菌无关?
其实那些细菌与感冒到底有无联系是很难确定的,尤其是患者在流着鼻涕、不停咳嗽的情况下,谁会在意这个问题?
当然,你可能会觉得这个例子太绝对了,很容易看出其中的破绽。但是,不
匹配的资料一般情况下不会以这种面貌出现的。更高明的手法有的是,请你睁大
眼睛往下瞧。
电动榨汁机在最初发明出来的时候,它的广告随处可见。广告称: “经过实
验室证明,这种榨汁机的榨汁功能增强了 26%,得到了某著名家政研究机构的
推荐。 ”听起来的确不错。如果你拥有这样一台功能增强 26%的榨汁机,你还有
什么理由去买别的榨汁机?但是,现在我暂且不论实验室的实验是什么,能够证
明什么,我们只是看看根据这个数据能得到怎样的结论。广告中称榨汁机功能增
强了 26%,那它是与什么做比较呢?如果只是与一台老旧的手摇榨汁机作对比
的话,恐怕人们就不会那么积极地去掏钱购买了,因为说不准它是市场上最差的
一种榨汁机。这个数字除了非常精确,让人在最开始有一种很兴奋的消费冲动以
外是毫无意义的。
4YK[XJOEE .067
第四章? 统计调查,数字陷阱的重灾区
(三)医学上的不匹配数据
许多统计资料,包括那些对人们十分重要的医学资料,由于与原始数据不符
的报道而被扭曲。在一些棘手的问题上,例如,流产、非法出生、梅毒,存在十
分惊人的矛盾数据。你可能会对某一时期流感的问题很感兴趣,并从中发现一定
的结论 :这类疾病几乎只出现在南方的 3 个省,占据病历资料的 80%。但比例
如此之高的真正原因是 :目前只有这 3 个省仍保留着对此类疾病的记录,其他省
早已经销毁了这一记录。
在美国南部地区,1940 年以前有成千上万的疟疾病例,而今天只有极少例,这似乎表明对于疟疾的治疗在近几年发生了有益并且巨大的进步。但实际上,目
前只有在确诊后才进行记录 ;而在以前,疟疾是美国南方许多人用以表示感冒或
者着凉的一句方言。这跟我国很多地区把伤风感冒说成中风是一样的道理。
在美国与西班牙交战期间,美国海军的死亡率是 9‰,而同时期纽约市居民
的死亡率是 16‰。后来海军征兵人员就用这些数据来证明参军更安全。如果假
定这些数据是正确的,那么促使这种差异产生的真正原因是什么?海军征兵人员
根据两个数据的差异得出的结论是否正确?
这两组对象是不可比的。海军主要由那些体格健壮的年轻人组成,而城市居
民包括婴儿、老人、病人,他们无论在哪儿都有较高的死亡率。这些数据根本不
能说明符合参军标准的人在海军会比在其他地方有更高的存活机会,相反的结论
也不能证明。
你也许听说过这个令人沮丧的新闻 :“1952 年是美国医学史上的小儿麻痹症
年”,这个说法基于该年有多于往年的病例。
但如果专家进一步斟酌这些数据,就会发现一些令人鼓舞的事情。
首先,1952 年有更多处于易感染期的孩子,就算发病率保持不变,也会有
更多的患者。
其次,人们对小儿麻痹症认识的加深,导致更多病人到医院进行诊断和轻微
发病记录的增多。
最后,当年有增加的经济刺激,即增加的小儿麻痹症保险以及从国家婴儿麻
痹基金获得更多的帮助。所有这些都是对小儿麻痹症达到新高的质疑,而且当年
的死亡人数也肯定了我们的怀疑。
4YK[XJOEE .
更多免费电子书搜索「雅书」 https:yabook.org068
数字陷阱
这是一个有趣的事实,在考虑某种疾病的发病情况时,使用死亡率或者死亡
人数比发病人数更合理,这是因为死亡报道和死亡记录的质量更高。在此例中,明显不相匹配的数据比表面上完全匹配的数据还要好。
(四)公司运营中的不匹配数据
将某一种资料说成另一种样子,这种“挂羊头,卖狗肉”的行为在生活中还
有许多其他的形式。最普遍的做法是将看上去极像,而完全不同的两件事混淆在
一起。
如果你想搜寻这种不相匹配的数据,那么在公司的财务公报中,你将大有收
获。你要注意那些看起来很大的利润或者掩盖在其他名目下的利润。
某家公司的财务公报显示,×××× 年该公司赢利 3 500 万美元,即销售 1
美元的产品获得 1.5 美分的利润。可能你会觉得这家公司的盈利很低,真是太不
幸了。假如公司厕所的一个灯泡烧坏了,需要花 30 美分更换,于是 20 美元销售
额的利润就这样没了。
其实,财务公报中的利润仅是实际利润的一半或三分之一,没有报道的利润
隐藏在贬值、特殊贬值名目下以应付将来的紧急情况。
百分数同样可以掩盖某种真实的数据。最近 9 个月内,某汽车公司一直公开
自己的税后利润率为 12.6%,但同期该公司的投资利润率竟高达44. 8%。其实公
司的利润非常高,但它不会把所有真实的数据都公开的。
《琴师》杂志的一位读者反映,AP 商店公布的销售净利润只有 1%,也就
是说每1 000美元的投资只有10美元左右的利润, 该公司应该是在进行自我保护,它们害怕公司被误认为是奸商。
如果将该比率与 FHA 抵押利率或者银行贷款利率相比,肯定是很少,因为
前者的比率是 4%? 6%甚至更高。是不是说 AP 商店从此退出百货行业,将它
的资金存入银行,然后依靠利率过活会更好些?
但投资回报率与销售总收益可不是一回事。该杂志的一位读者解释道 :如果
我每天早上以 99 美分购进一件商品,并在中午以 1 美元卖出,那我只获得 1%
的收益,但是全年我却获得了投资额的 365%。
在描述同一个数据时有不同的方法。比如说, 你可以将相同的事情表述为1%
4YK[XJOEE .069
第四章? 统计调查,数字陷阱的重灾区
的销售利润率,15%的投资回收率,1 000 万美元的利润 ;利润上升 40%,或者
与去年相比下降了 60%。选择一个目前最有利于你的说法,而且读到这个数据
的人中,极少有人会对它的真实性表示怀疑。
在美国,不相匹配的数据每 4 年便会出现一个兴盛期,这并非因为这种数据
存在自然波动的特性,而是因为每 4 年有一场竞选。1948 年 10 月共和党发表的
竞选纲领完全建立在看似相互联系但实际上却毫无关联的数据之上 :
1942 年杜威当选州长时,一些地区教师的最低年收入只有 900 美元。在杜
威政府的建议下,由杜威指定的委员会的表决,立法机构于 1947 年从州财政盈
余中拨出 3 200 万美元直接用于提高教师收入水平,这使得纽约市教师最低收入
水平提高到 2 500? 5 323 美元。
也许,杜威先生想借此表明自己是教师的朋友,但是这些数据并不能证明这
一点。这里使用了前后比较的老把戏,一些没有指明的因素加入到过程中,导致
前后并不一致。以前只有 900 美元,而现在是 2 500 ? 5 325 美元,的确有了长
足的进步。但实际上,前者是该州乡村地区的最低收入,而后者仅仅是纽约市的
最低收入水平。这些进步只能部分归功于杜威政府。
三、样本选取错误,系统误差不可避免
《纽约太阳报》的某篇报道曾称:“1924 级的耶鲁毕业生平均年收入有 25 111
美元。”《时代》杂志评论道 :“哇,他们干得可真不错!”
可是等一等,这个令人印象深刻的数据到底意味着什么?是否像表面看到的
那样,足以证明如果你把你的孩子送进耶鲁大学,那么在老年时你就不用辛苦地
上班,甚至他年老时也不用上班 ?
在充满怀疑的惊鸿一瞥后,我们发现这个数据有两点可疑之处 :它惊人地精
确 ;它大得令人难以置信。
任何一群分布很广的人其平均收入都不太可能精确到以元为单位。就算是
自己去年的收入,除非全部来自薪水,否则也很难知道得如此准确。对于年收入
4YK[XJOEE .
更多免费电子书搜索「雅书」 https:yabook.org070
数字陷阱
25 000 美元的阶层而言,多种投资渠道使得收入不可能完全来自薪水。
毫无疑问,这个可爱的平均数出自耶鲁人之口。即使 1924 年他们在纽哈芬
接受过良好的教育,也很难保证四分之一个世纪后,他们还能坚持说真话。当问
及收入时,有些人出于虚荣或天生乐观而夸大数据 ;有些人却故意缩小数字,特
别当涉及计征所得税问题时,往往会犹豫不决,生怕与其他文件填报的数据不符,谁知道税务员又看到了什么?也许存在两种趋势——夸大与缩小将相互抵消,但
这种可能性极小。一般而言,一种趋势总会强于另一种趋势,但我们无从猜测哪
种趋势较强。
常识告诉我们,单凭某一数据很难反映实情,这是我们得到的结论。那些实
际收入也许只有 25 111 美元一半的人们最终会“有”如此高的平均收入,最大
的误差来源在哪儿?接下来,让我们来揭开这神秘的面纱。
这是一个抽样过程。在你所遇到各种各样的课题中,大部分统计问题的核心
便是抽样。抽样的原理本身很简单, 但实践中对其进行的加工导致了许多副产品,有些是不正确的。举个例子,如果你有一桶豆子,有红色、有白色,那么,红色
的豆子占比到底有多少呢?解决的办法只有一种:数豆子。然而,用一种更简单
的方法,你也可以得到红豆数目的近似结果: 抓一把豆子,计算其中红豆的比例,这把豆子中红豆的比例与一桶的比例基本相同。
因此,这个收入数据是建立在一个由能够取得联系并愿意回答问卷的耶鲁学
生组成的样本之上的。那么,这个样本具有代表性吗?也就是说,能否假设这个
样本与样本未被包括的人具有同样的收入水平?
那些在耶鲁大学毕业生通讯录上被注明“地址不详”的迷路小羔羊是谁呢 ?
他们是高收入阶层吗?他们是华尔街的金融家、公司领导层?还是制造企业或公
用事业的执行总裁?不,富人的地址是不难找到的。这个班级最富有的人,即使
忽略了与校友办公室联系,他们的地址也可以通过查 ......
李凯? 编著
清华大学出版社
北? 京
4YKXRJOEE .
更多免费电子书搜索「雅书」 https:yabook.org内?容?简?介
数字在生活中随处可见,似乎与我们如影随形,它不仅给我们的生活带来很多便利,同
时也埋藏了重重陷阱。数据洪流凶猛无情,把我们淹没在茫茫的信息海洋中,我们在其中四
处漂荡,莫名地感到恐慌。数据信息并不都是真诚的,它也有虚假的面具。所以,我们身在
其中,有必要看穿它的本来面目。
本书全面介绍了数字陷阱的各种类型,并通过详细而生动的案例进行了剖析,在最后列
出了几项避免数字陷阱的妙招,帮助大家在工作、读书学习、购物等日常生活中更好地识别
数字陷阱,避免深受其害。
本书封面贴有清华大学出版社防伪标签,无标签者不得销售。
版权所有,侵权必究。侵权举报电话:010—62782989?13701121933
图书在版编目(CIP)数据
数字陷阱 李凯编著. — 北京 : 清华大学出版社,2017
ISBN 978-7-302-46113-5
Ⅰ . ①数? Ⅱ . ①李? Ⅲ . ①数字-普及读物 Ⅳ . ① O1-49
中国版本图书馆 CIP 数据核字 (2016)第 312450号
责任编辑:刘志彬
封面设计:汉风唐韵
责任校对:宋玉莲
责任印制:杨 艳
出版发行:清华大学出版社
网? ? 址:http:www.tup.com.cn, http:www.wqbook.com
地? ? 址:北京清华大学学研大厦 A 座 邮? ? 编:100084
社?总?机: 010-62770175 邮? ? 购:010-62786544
投稿与读者服务:010-62776969, c-service@tup.tsinghua.edu.cn
质量反馈:010-62772015, zhiliang@tup.tsinghua.edu.cn
印?装?者:三河市吉祥印务有限公司
经? ? 销:全国新华书店
开? ? 本:170mm×240mm? ? ? ? 印? 张:11 字? ? 数:181 千字
版? ? 次:2017年3月第1版 ? 印? ? 次: 2017 年 3月第 次印刷
印? ? 数:1~4000
定? ? 价:36.00 元
产品编号:072670-01
4YKXRJOEE .世界上有三种谎言 :谎言、该死的谎言和统计数据。
首先要掌握事实,然后你可以随意歪曲它们。
——马克 · 吐温
我们生活在一个信息大爆炸的年代,周围充斥着越来越
多的信息。我们要做的就是如何存储与提取信息。信息如此
之多,真假莫辨,好多人全盘接收,结果吃了亏。不过,吃
一堑长一智,人们对周围的信息越来越有免疫力,质疑声从
来没有断过。
应了那句老话,“道高一尺,魔高一丈”,虚假信息总会
在不知不觉中侵入我们的大脑,影响我们的决策。
数字作为信息的一种,其中蕴藏的陷阱不知有多少,数
都数不清。这些数字陷阱隐藏很深,如果稍不注意,就会掉
入其中,损失惨重。
当看到我说的这句话时,你可能会惊呼一声 :“对,我就
遭遇过一次数字陷阱!”
当我问你时,你可能会提起你在商店购买蔬菜时的缺斤
短两,也可能会提到在商场购买商品的时候遇到的折扣陷阱。
你会后悔,太不应该追逐眼前的小利了,结果落入商家设计
好的陷阱中。
你可能只是遇到过少量的数字陷阱,并不清楚这大千世
前? 言
4YKXRJOEE .
更多免费电子书搜索「雅书」 https:yabook.orgII
数字陷阱
界数字陷阱何其之多。在看完本书之后,不要害怕,但请在今后擦亮你的眼睛,找到我提出的这些陷阱,维护好自己的利益。
数字陷阱总体来说分为两种类型,一种是人为故意制造的陷阱,目的很明确,就是为了欺骗大家,增加自己的利益。另一种就是人们无意中制造的数字陷阱。
可能是因为认知能力不够,也可能是在哪一方面有所疏忽,数字陷阱就悄无声息
地来到我们的面前,我们再走一步,就会落入其中,而结果往往正是那样。
数字一出现,往往会让最冷静的头脑发热,做出冲动的事情或者不理智的决
定。20世纪发生在美国的“麦卡锡主义”就很好地诠释了这一观点。
1950 年 2 月 9 日,美国参议员乔· 麦卡锡宣称美国政府彻底被共产党党员
渗透。他伪造了一份名单,上面有 205 名隐藏在美国政府里的共产党党员,但
他并没有给出准确的名字,只是拿出了一个看似确切的数字。
不仅如此,这个数字不是一成不变的。他一开始声称名单上有 57 人,在 2
月 20 日他又改口说有 81 个不忠诚的隐患人员。麦卡锡很明显没能一次性编造
出这些数字来。事实上,早在 1947 年,美国政府就对国会中的 108 位职员进行
了 “忠诚度调查” 。他们的忠诚度备受怀疑。至1948年, 仅有57人仍受雇于国会。
我们可以试想是这份调查洗清了这 57 人的冤屈,也可以像麦卡锡一样说他
们是“政府承认的共产党员” 。 “81 人”这个数据正是从这份涉及 108 人的调查
中得出的。与此同时,另一份 1946 年呈递给国会的报告得出共有 205 个共产党
党员,那份报告证实 284 个有潜在安全隐患的人员中已有 79 人被裁。
美国政府加紧防御,匆忙要求麦卡锡坐实他的数字来源。麦卡锡却丝毫不在
意这件事。他只是轻描淡写地说 :“我不回应指控,毕竟我才是控方。 ”
他的名单影响如此重大, 以至于这种效应形成了一个专有名词 “麦卡锡主义” ,专用于指制造冤假错案的惯用做法。麦卡锡作为一个典型的反面教材,也告诉了
我们数字可以怎样被滥用。他只是随意地扔给担惊受怕的大众几个数字就使他们
恐惧起来,并引起一场政治迫害。
本书意在揭开数字陷阱的面纱,还你一个真实的数据世界,争取将生活中、广告里、 单位机构运营乃至现今最火热的互联网界各个方面的数字陷阱一网打尽,帮助你远离欺骗,维护自身的利益。数字陷阱不可怕,它就是一只纸老虎,只要
我们掌握正确的方法,坚持理智,这种陷阱很快就会被填平,让我们一马平川地
大踏步前进。
4YKXRJOEE .III
前? 言
本书由李凯统筹编写,同时参与编写的还有崔慧勇、耿丽丽、许亮、卢明明、李莉影、陈云娇、于海力、冯少敏、张云叶、任学武、刘瑾、贺延飞、靳鹤、王
俊娜、卢光光、蒋北、刘宝亮、张方方、许超、申童等。在此一并表示感谢。在
即将到来的大数据时代,数字陷阱还会有其他更加隐蔽的表现形式,应用本书所
讲述的方法,我们一起来辨别,并提高我们的“数字免疫”能力。
编 者
2016 年10月
4YKXRJOEE .
更多免费电子书搜索「雅书」 https:yabook.org4YKXRJOEE .第一章
数字也会说谎 001
一、数字并不是你看起来那么庞大 003
(一)互联网上的“大数字” 004
(二)教育中的“大数字” 004
(三)生活中的“大”数字 005
(四)缺乏对比,数字大小未可知 006
二、这些数字是捏造出来的009
(一)互联网造假 009
(二)票房造假 010
(三)胡乱预测 011
三、看穿数字中的“假精确” 012
(一)广告中的“假精确” 012
(二)生活中的“假精确” 013
四、数字真实,包装后也会认不出 014
(一)你看到的,都是对我有用的 014
(二)指鹿为马,无效的比较 019
(三)改一改,数据变了样 021
五、拙劣的数字谎言 026
(一)广告中的数字谎言 026
(二)互联网中的数字谎言 027
(三)投资中的数字谎言 027
(四)所谓的“公式” 028
目? 录
4YKXRJOEE .
更多免费电子书搜索「雅书」 https:yabook.orgVI
数字陷阱
第二章
风险中的数字陷阱 031
一、虚假的“小”风险 033
(一)科学中的“小”风险 033
(二)金融中的“小”风险 034
二、虚假的“大”风险 035
(一)科学上的“大”风险 035
(二)生活上的“大”风险 036
三、风险也分相对与绝对 036
(一)科学上的风险 036
(二)生活上的风险 037
四、科学谣言扎根于数字陷阱 038
(一)“大”数字 038
(二)风险“相对论” 038
(三)关联不是因果 039
(四)毫无意义的比较 039
(五)离开剂量谈毒性?请不要耍流氓 040
第三章
注意 :回归分析也有陷阱 041
一、数字相关≠因果联系 043
(一)医学上的数字陷阱 044
(二)互联网上的数字陷阱 045
二、A和 B,哪个是因?哪个是果? 046
(一)科学界的因果倒置 046
(二)经济上的因果倒置 047
(三)学习上的因果倒置 047
(四)广告上的因果倒置 048
(五)教育上的因果倒置 048
三、遗漏变量,分析有误差 049
(一)学校考试成绩中的数字陷阱 049
(二)健康上的数字陷阱 050
(三)概率上的数字陷阱 050
4YKXRJOEE .VII
目? 录
四、无关变量太多,结果无意义 054
五、预测趋势胡乱分析,结果很可笑 055
第四章
统计调查,数字陷阱的重灾区 059
一、样本数据不足,离正确结论失之千里 061
二、资料不匹配,何谈正确结论 064
(一)媒体的不匹配数据 065
(二)广告中的不匹配数据 066
(三)医学上的不匹配数据 067
(四)公司运营中的不匹配数据 068
三、样本选取错误,系统误差不可避免 069
四、人性弱点,被调查者不一定说真话 074
五、问题问得好,被调查者才会答得好 076
第五章
广告中的数字陷阱 079
一、招聘广告有猫腻,虚假工资诱人心弦 081
二、商品折扣增加40%,你是否心动? 083
三、装修陷阱玩弄低价数字游戏,你能看清吗? 084
四、公司产品满意度99.8%,托儿不少 085
五、广告中的辛普森佯谬 087
(一)药物 VS安慰剂 087
(二)考试成绩 087
(三)吸烟与健康问题 088
六、数字形式巧变样,感觉不一样 088
(一)模糊字眼 089
(二) “大”数字 089
(三)精确数字 089
4YKXRJOEE .
更多免费电子书搜索「雅书」 https:yabook.orgVIII
数字陷阱
七、价格就怕比,弄得消费者没主意 090
(一)第一个数字 090
(二)消费者的中庸之道 090
(三)我们只是缺少一个购买的理由 091
八、特价房,特价可能只是错觉 091
第六章
互联网的数字陷阱 093
一、婚恋网站陷阱多,机器人账号遍地开花 095
二、互联网金融,产品收益说得不靠谱 096
(一)年化收益率16%?零风险? 097
(二)货币基金收益8% ? 097
(三)高收益吸睛,文字游戏?? 098
三、你的粉丝究竟有多少是虚假的? 098
四、互联网的 KPI,猫腻真不少 100
五、互联网上有排行,水分太多不可靠 101
(一)品牌榜 102
(二)畅销榜 102
(三)信誉榜 103
(四)排名应有准入门槛 104
(五)网站平台当担责 104
六、直播平台很火热,猫腻很多扎堆出现 105
七、流传20多年的假数据,是时候拆穿了 106
八、互联网数据造假为何频频出现? 109
第七章
企事业单位运营的数字陷阱 113
一、学校考生真牛掰,你关注上线人数的背后了吗? 115
二、药价下降了,你觉得医药费真的会少吗? 116
三、雾霾减轻了,真的是车辆限行的原因吗? 118
4YKXRJOEE .IX
目? 录
四、电视收视率有那么简单吗? 119
(一)收视率的玄机 120
(二)收视率为0 ? 121
(三)收视率 VS收视份额 121
五、上市公司融资额,造假危险且愚蠢 121
(一)上市潜力股公司 122
(二)上市企业所投公司 122
六、高铁上座率大于100%,有的车厢还没人? 123
七、可恨的标题党,死亡率可不能这么对比 125
第八章
生活中的数字陷阱 127
一、商贩找你小钱,先不要着急走开 129
(一)赖大头 129
(二)障眼法 130
(三)垫秤 131
(四)耍秤 131
二、步数多,健康也不一定会来 131
三、有折扣就便宜?可没有那么好的事儿 133
(一)折扣陷阱 133
(二)赠品陷阱 134
四、体重减轻,减肥就成功? 134
(一)越减越肥 135
(二)失恋减肥 135
(三)纹丝不动的体重数字 136
(四)瘦却干瘪着 136
(五)身材好,体重却没变 136
五、视力度数就一定可靠?小心近视 137
六、葡萄酒看年份,这种常识不可轻信 138
七、前面有坑,小心掉入中奖陷阱 139
八、二手车看里程数,多长心眼别被忽悠 142
4YKXRJOEE .
更多免费电子书搜索「雅书」 https:yabook.orgX
数字陷阱
第九章
避免数字陷阱有妙招 145
一、大数据的困局,N ≠所有 147
二、大数据,用小规模实验求证 151
三、寻找偏差,不要被权威迷惑 153
(一)有意识的偏差 153
(二)无意识偏差 154
(三)将资料与权威人士划清界限 155
四、问自己,是否遗漏了什么? 155
(一)缺乏比较 155
(二)遗漏原因 156
五、拆穿偷换概念的把戏 157
(一)统计口径不同 157
(二)口头回答不可靠 158
(三)目的不同 158
(四)无理比较 158
(五)标榜第一 159
(六)文字游戏 159
六、用提问将毫无意义的数据打回原形 160
4YKXRJOEE .第一章
数字也会说谎
4YK[XJOEE .
更多免费电子书搜索「雅书」 https:yabook.org4YK[XJOEE .有人说,如果你想要让人相信一句非常荒诞的话,只需要在里面加
上一个数字就可以了。这句话看似非常不靠谱,你可能会不屑一顾,但
你一定在生活中也时常受到这样的欺骗。数字,本身是非常让人信任、充满精确性的符号,却在欺骗上颇有造诣。这其实不是数字的错,而是
由于人的意识、认知而造成的。
一、数字并不是你看起来那么庞大
老师拿来了一大袋糖果,我估计能分五六块吧……
2013 年中国GDP为9.24万亿美元……
每 6 个人可以让互不相识的两个人建立联系……
天文数字,是我们在形容一个数字非常大时经常使用的词语。这个词语道
出了我们对大数字的敬仰之心,似乎数字的大已经超出人类认知的尺度。但是
在我们看到那些所谓的天文数字时,我们首先要问自己一句话 :“这个数字大
不大?”
数字后面有很多零,会让很多人觉得这个数字非常大,但这样的数字除了
吸引人们的注意以外,还可能是要提出警告。但就数字本身而言,这是毫无意
义的。
4YK[XJOEE .
更多免费电子书搜索「雅书」 https:yabook.org004
数字陷阱
(一)互联网上的“大数字”
移动互联网时代,春节是几家大型网络平台的红包争夺战场。用户在此期间
乐此不疲地抢红包。抢红包俨然成了春节的符号化活动,风头甚至盖过了春晚。
但在抢红包过程中,大家可能发现了一个有趣的现象 :公司派出 1 000 万元
甚至上亿元的红包,但你就是抢不到,就算抢到了也只是 1 ? 2 元,甚至是几分
钱或者是代金券。可能你的手都快戳破屏幕了,手指都磨红了,眼圈都胀紫了,收获就是不大,空欢喜一场。
这就是“大数字”的假象。
虽然红包金额总量在 1 000 万元,几乎每一个用户在刚开始的时候都会天真
地在意识深处认为自己能单独抢到这个 1 000 万元,可是不要忘了,这个红包是
面对全国数亿网友发送的,这样算下来的话,平均每个人分到的金额就是几毛钱
或几分钱。
更令你感到讽刺的是,你抢中的金额非常少,但它还可能是代金券,而且代
金券不是零食、日用品的代金券,而可能是波音飞机、名牌汽车或者出国游的代
金券,真是气死你不偿命啊!
说白了,这是由某网络公司不正确的红包玩法所导致的,就算发送 5 亿元的
红包,平均下来每个用户也只能分到几块钱而已。作为用户的我们也不必较真,在下次看到的时候摆正心态,图个乐子就好了。
(二)教育中的“大数字”
2007年1月, 英国政府宣布, 即将在小学投入1 000万英镑的预算, 目的是 “振
兴小学的音乐教育” 。这个数字看起来很大,但是不要忽视学生的数量。英国总
共有 1 000 万名学生,一半是小学生,将 1 000 万英镑分给 500 万个小学生,平
均每名小学生只有 2 英镑,那这样还怎么振兴他们的音乐教育呢?恐怕连听一场
儿童音乐会都不能吧?
也许当你听到全国性的数字时,大脑中立刻会失去判断能力。你认为自己只
是一个老老实实做本分生意的人,那个可是上千万甚至上亿的数字啊。可是,你
要知道,那个数字不全都是你的,你要学会把它个人化,你得将它平均划分,而
4YK[XJOEE .005
第一章? 数字也会说谎
不是拿来和自己的账户余额相比。因为,不管饼多大,如果每个人只能分到一粒
碎渣的话,那这张饼就是小的。
数字的大与小是相对的,刚刚我们说过了“大”数字的小,接下来我们谈一
谈“小”数字的大。
在 2005 年,英国的一家报纸在头版刊登了一条消息,称政府打算将退休年
龄提高 2 岁。这篇报道称,假如政府通过这项法案,那么原本可以领到退休金的
老人中,每五人就会有一人来不及领退休金便去世。五分之一,这个数字看起来
不大吧,可是英国全国的老年人人数众多,由于基数很大,通过这个比例算出来
的数也不会小。
(三)生活中的“大”数字
看下面这个问题 :
假如某件商品增加 50% 的量,但不加价 ;另一件同款商品降价 33%,你会
选择哪一个?
大部分自以为很聪明的消费者会毫不犹豫地选择第一种商品,因为它的数字
看起来更大。
但事实可不是这样的。
《经济学人》杂志将这种现象称为“增数盲点”。其实商品增加 50% 的量不
加价和降价 33% 是一样的。研究者特地做了一项实验,询问消费者你想要加量
50% 的商品还是降价 33% 的商品?大部分消费者看到这个数字,竟然感觉价格
是一模一样的,但事实是降价 33%更划算一些。
这个现象不仅反映了人们对大数有错觉,更能反映出人们懒得将数字计算
出来。
衣服在打折时,连续打两次折,第一次打八折,第二次打八五折,其实总共
打了六折。但是,大部分消费者却认为两次打折比六折还要便宜。这说明,大部
分人不愿意去计算结果,才会被数字误导。
其实,只要带上计算器,看到数字先按一下计算器,算出结果,就不至于被
4YK[XJOEE .
更多免费电子书搜索「雅书」 https:yabook.org006
数字陷阱
数字误导了。
(四)缺乏对比,数字大小未可知
让我们来看下面的数字 :
1F、0.1g、3 600 000J、380 000km
第一印象上, 你会觉得前两个数字很小, 后两个数字很大。 但是答案正好相反。
1F 其实是 1 法拉,是电容的量。由于我们对这种事物不熟悉,所以总会主
观臆断,只看绝对数字。其实 1F 很大,地球电容差不多就是 1F,而一般电容的
单位是 μF即 10-6
F(十万分之一法拉) 。
“g”是一个重量单位,克,这我们都知道,但越是熟悉的事物越容易遭遇陷
阱。如果说这个数量出现在查酒驾时就是很大的数字了。因为每百毫升血液里酒
精含量达到 80mg 即为醉酒驾车,而0.1克则远远超出了规定的范围。
“0”经常集群跟在某一个数字后面虚张声势,看起来是一个天文数字。其实
3 600 000J 只是 1 度电而已。
380 000km 是地球到月球的距离,看起来很远,是吧?但要是放到宇宙这个
范围内,这个距离就跟没有距离一样。
新闻报道中经常会出现天文数字: 一个港口年吞吐量 ×× 吨, 一个天文数字;
今年保障性住房规划建设有 ×× 面积,一个天文数字 ;人的脑容量相当于 ××
本书,一个天文数字……这些天文数字已经远远超出我们的认识范围,我们甚至
连数量级都猜不准。电视上公布这些数字就像给小学生讲微积分一样可笑。你兴
奋地说着,我只有张着嘴感叹。可见,缺少对比的绝对数字在不经意间误导了你,给你下了套。
不过,有时一些看起来微不足道的小数也有可能变成天文数字,事情刚开始
时的事实并不是真正的事实,因为它的后续发展可能会使你始料不及。
国际象棋的一则传说恰恰说明了这个问题。
传说国际象棋是由古印度人发明的,发明者是一个印度教宗师兼数学家,名
叫希萨。
当时的古印度国王非常爱玩,下令在全国张贴招贤榜,寻找能人为他制造一
个奇妙的游戏取乐,如果谁能完成这个任务,谁就会得到重赏。
4YK[XJOEE .007
第一章? 数字也会说谎
希萨揭了招贤榜,献上一种棋,棋盘上有 64 个空格,棋子是国王、皇后、大臣、士兵、骑士、城堡之类不同的角色。下棋时,玩家要经过一番智谋,将对方的国
王将死才能决定胜负,这个游戏让国王玩得不亦乐乎。高兴之余,国王问希萨:“我
很喜欢你发明的这个棋,所以要重重赏你。你说吧,想要什么?”
希萨说:“真金、白银、宝石,这些我都不需要,只希望国王赏赐我一些麦粒,我就非常开心了。”
国王听了以后笑得合不拢嘴。因为他认为黄金、宝石这些贵重的东西才值钱,麦粒到处都是,能有什么价值。笑完之后,国王问希萨究竟要多少麦粒。
希萨说 :“请大王在我献上的 64 格棋盘上的第一格上放上一粒麦粒,第二
格上放上 2 粒麦粒,第三格上放上 4 粒麦粒,第四格上放上 8 粒,如此一格一
格加上去,每一格比前一格多加一倍,一直加到 64 格。我要这些格子上的所
有麦粒。”
国王一听,原来就是几粒麦粒而已,就不假思索地答应了,下令管仓库的大
臣如数赠予。
管仓库的大臣一经计算,天哪,这还了得,这可是一个不小的数目啊。他把
这件事告诉给国王,但国王不信,又召见算师。算师也仔细地算了一遍,果然如
管仓库的大臣所言,数目惊人!所需麦子的数目为 264
–1,也就是说,就算把印
度所有的麦子赏给希萨也不够,甚至这样说也不为过,就算全世界的麦子也不够。
现在让我们也算一算看 :
第一个格子里是1 粒,第二个格子里是 2 粒,一共有 3 粒,即 :2×2–1=3。
又加上第三个格子中的 4 粒,一共是 7 粒,即 :2×2×2–1=7。
再加上第四个格子上的 8 粒,共有 15 粒,即 :2×2×2×2–1=15。
也就是 :24
–1=15。
所以,从第一格到第四格的麦粒数就等于2 的 4 次方减去 1。
那么,从第 1 格到第 64 格的麦粒数,将等于 2 的 64 次方减去 1,即 :
2×2×…×2(64个 )–1=264
–1=18 446 744 073 709 551 615。
一立方米的麦子有 1 500 万粒,18 446 744 073 709 551 615 粒麦子约有
12 000亿立方米。全世界2000 年生产的麦子加在一起也没有这个数目大。
原来希萨运用了数学上的几何级数,那是把 2 作为基数倍数,棋盘上的格数
作为这个基数倍数的乘方,即2 的 n 次方。
4YK[XJOEE .
更多免费电子书搜索「雅书」 https:yabook.org008
数字陷阱
这一次国王不得不食言了,但这很损害国王声誉,令国王感到左右为难。
国王看到自己实在无法满足希萨的要求,打算下令把他杀了。这时,粮食大
臣想出了一个主意。他劝国王还是照原来说过的话去办,依旧赏给希萨那个数目
的麦粒。但是,既然希萨要求的麦子精确到粒,赏赐也应该严格执行,让希萨自
己一粒一粒地从国王的仓库里数出他所要求的数目,第一个格子上放 1 粒麦粒,第二个格子上放 2 粒,第三个格子上放 4 粒……直到第 64 格放满为止。一粒也
不能多,一粒也不准少。一秒能数 2 粒,一分钟能数 120 粒,一小时也只能数
出 7 200 粒,每天数上 10 小时,也只能拿到 72 000 粒麦粒。数上一年,也只有
2 000万?3 000万粒。 也只有1m3
2m3
的麦粒。 要全部数清国王赏赐给他的麦粒,要 2000 多亿年呢。
就这样,希萨给国王出的难题,又被聪明的粮食大臣回敬了回去。国王没有
食言,也没有付清赏赐的天文数目的麦子。不过希萨的“无理要求”也差点让自
己命丧黄泉。
下面我们来看一看文章开头的例子。
老师拿来了一大袋糖果,我估计能分五六块吧——一大袋糖果能有几块?但
班级里可是有几十名学生呢,平均分下来,估计每人也只能得到 1 ? 2 块糖。
2013 年中国 GDP 为 9.24 万亿美元——温家宝总理曾说过 : “多么小的问题
乘以十三亿,都会变得很大 ;多么大的经济总量,除以十三亿,都会变得很小” 。
我想,这句话非常恰当地指出了 GDP 大总量下的小分量,因为我国人均 GDP 只
有 4.66 万元,在全世界排名 73 位。
每 6 个人可以让互不相识的两个人建立联系——6 这个数字很小吧,但要想
认识任何一位陌生的朋友,中间最多只需要通过 6 个朋友就能达成目的,也就是
说,只需要 6 步。但如果中间的每一步距离都很大,这 6 步可能是世界上最遥远
的距离。
大数字有时就是纸老虎,只要你够细心,善于琢磨,数字的大并不是如表面
所示。小数字有时可能也未必像你想的那样渺小,当它的概念以另外一种方式解
读时,它的体量比那些所谓的“大”数字不知大多少。
4YK[XJOEE .009
第一章? 数字也会说谎
二、这些数字是捏造出来的
本款睫毛膏能够给您的睫毛带来 12倍的冲击力……
这款保湿霜能够将每一滴的保湿效果增强65%……
李经理 10 年来找下属谈心多达 2 576次……
数字兼有确定性与不确定性两种特征,当它被有所企图的人利用时,不确定
性就被无限放大了。人们为了某种目的,有时会捏造吸引人的数据,这些数据虽
然经不得推敲,但很多人似乎被蒙蔽了眼睛,深陷其中,毫不怀疑。
这样的数字叫“波将金数字”。这个名字来源于俄罗斯。
由于波将金亲王不想让女皇了解到克里米亚半岛的贫瘠与荒凉,于是让人在
女皇经过的地方搭建了许多精心设计的房屋正面模型。这些模型仿照自然状态喷
漆,远远看来和真实的村庄没有差别。虽然这些只是仿制品,只要靠近一点观察
就能发现它的虚假,但女皇路过这里时只是漫不经心地看了一眼,没有细细观察,于是被欺骗了。
“波将金数字”产生的情形就跟这个历史事件很相似,有所企图的人为了迷
惑他人,故意捏造与真实的计量行为毫不相关的虚假数字。
(一)互联网造假
数据造假在互联网界屡见不鲜,涉及互联网的方方面面,比如融资额。融资
额在对外宣布时往往会夸大三倍有余。假如公司获得 500 万元融资,在对外宣布
时就会说成1 500万元,而媒体一般不会对融资额和销售额表示怀疑。
除了虚假公布,互联网公司有时还会通过一系列后台操作来刷榜。因为用户
量是评价网站价值的一个重要指标。公司通过技术模拟用户使用网站的情形,其
实可能根本没有这个用户。这种造假甚至已经形成了产业链,有的客户会要求互
联网公司刷到足够的量。
曾经有一次,网络红人 ××× 爆料 :“×× 老板应该坐牢。”此言一出,又
一次揭开了互联网数据造假的伤疤。
4YK[XJOEE .
更多免费电子书搜索「雅书」 https:yabook.org010
数字陷阱
×× 将假代码暗中植入用户手机后台,启动透明页面,将数据传递给第三
方统计公司,伪造用户数、广告,再或者是普通数字,请你擦亮自己的双眼,运转自己的理智程序,将那些无理取闹的胡乱对比打回原形。
(三)改一改,数据变了样
小商小贩总喜欢在贩卖的蔬菜上喷洒水雾,给苹果上蜡抛光,这样做可以让
蔬菜水果看起来更新鲜。同理,数据有时也会被修饰一新,被歪曲得面目全非,表面上看起来光彩照人。
人们在润饰数据时想到的办法可谓是千奇百怪,在这里我们很难全部描述出
来,因为办法一直在被不停地编造着。不过,其中最常见的一些手段还是有必要
详细阐述一下的。
1.平均值,典型值?
A 社区平均每个家庭有 2.5 个孩子……
4YK[XJOEE .
更多免费电子书搜索「雅书」 https:yabook.org022
数字陷阱
海鲜自助餐促销,平均每位顾客能够带来 35 美元的利润……
小河平均水深 0.5 米, 过去没问题……
我们知道,平均数一般用来表示统计对象的一般水平,反映数据的平均水平,以便于和其他数据组进行比较,看出差别,特点是直观简明,所以被大量运用到
日常生活中。
平均数,确切地说是算术平均数,指的是所有数字相加,然后除以总数。
这样做有着明显的缺点, 人们往往会把平均值当作典型值。其实这是错误的。
因为平均数是将所有数据加总,所以不可避免地会受到极端数值的影响。没有离
散值的平均值只有一半的价值。
(1)工作中的平均数陷阱
一家总共拥有 8 名员工的公司,每名员工的工资都在 1 万元左右,工资加总
为(1+1.2+1.4+0.9+1.1+0.8+0.8+0.8=8 万元) ,除以员工人数(8÷8=1 万元) ,即
可得出算术平均数。在这个例子中,人均工资可以作为典型的工资水平。
不妨再看另一家员工人数为 8 人的公司,老板的工资是 6.6 万元,而剩下的
那七名员工每人只有 0.2 万元的工资,算术平均值虽然也是每人 1 万元,但这个
数字无论如何也无法代表典型工资水平。
在这里,使用中位数来计算典型工资水平则更为恰当。
中位数是指通过将数值高低排序后,选择的正中间的一个数字或两个数字的
平均数作为中位数。中位数不受极大数值和极小数值的影响,具有代表性。
在上例中,中位数是 0.2,显然比公司老板的 6.6 更具代表性。
(2)历史上的平均数陷阱
美国前任总统小布什在任期内常常提起退税政策,而每次提起时都会对退税
额数据润饰一番。他在第一届总统任期结束时曾这样说过 : “我们已经达成新的
退税政策,今年有 1 100 万纳税人会少缴付税费 1 086 美元。 ”
但这个数字真的准确吗?
其实,大多数美国纳税人收到的退税额只有 650 美元左右,与许诺的 1 086
美元相差很大。对此, 《纽约时报》评论道 : “数据本身并没有说谎,只是有些数
据并没有显露出来而已。 ”
只有极少数的巨富获得了大额退税,而正是这些巨额退税干扰了平均值,让
人产生会享受到很高退税额的错觉。
4YK[XJOEE .023
第一章? 数字也会说谎
(3)公司中的平均数陷阱
平均数思维一般包含这样一种假设 :通过平均数制订的计划,得出的结果同
样是平均数。然而,可惜的是,这种假设在很多情况下是不能成立的。
如果一个总活动是由很多单项活动组成的,那么基于单项活动的平均数制订
总活动计划就会出现平均数陷阱。
假如一个单位要进行一个项目,这个项目包含 5 个小任务,而且这些任务要
同时进行。不过,每个任务的完成时间不太一样,分别为 4 个月、6 个月、3 个
月、9 个月、8 个月,这样算下来,平均每个任务的完成时间在 6 个月。由于所
有任务在完成之后才能进行下一步工作计划,按照平均数思维,6 个月之后再进
行下一步工作计划。这样做的可能性几乎为零!因为有的任务完成时间高于 6 个
月,这会往后拖延整体项目的进度。
(4)地理学上的平均数陷阱
英国的普利茅斯市与美国的明尼阿波利斯市在白天的年平均气温都是 13℃,但两个地方的气候绝对是大不相同的。
普利茅斯市的年平均气温并没有说明这个地方的年温度偏差很小这一事实。
这里的气温即使在最冷的时候也在 8℃左右,在最热的时候不会超过 21℃,在这
里从来没有冰冻与炎热的区别。所以这里生长了很多亚热带植物,市民几乎可以
在任何地方看到。
但这对于明尼阿波利斯市的农场主来说只是个梦想。这里在最寒冷的时候几
乎可以把人的耳朵冻掉。寒冷时的平均气温是 –15℃,炎热时平均气温是 30℃以
上,甚至会超过40℃。
这两个城市的最低最高气温是完全不一样的,但是通过年平均气温计算下来,平均值上并没有表现出差异。
我们来看一下开头提到的几个例子。
A 社区平均每个家庭有 2.5 个孩子——且先不说 2.5 个孩子的数据有多荒诞,这个数据的产生也是有争议的。这个社区主要聚居了华裔居民和拉丁裔居民。华
裔居民一般只有一个孩子,所以对孩子的教育投入较高 ;拉丁裔居民孩子较多,孩子的学业基本靠自觉。所以,当培训机构在考察客户市场时,按照平均数来设
计培训项目和收费措施,那可真是大错特错了。
4YK[XJOEE .
更多免费电子书搜索「雅书」 https:yabook.org024
数字陷阱
海鲜自助餐促销,平均每位顾客能够带来 35 美元的利润——推出促销政策,顾客自然会蜂拥而至,但是店家所设想的 35 美元平均利润不会实现。因为他忽
视了顾客在自助消费时的变动因素,也就是说,顾客消费越多越划算,本来店家
预计顾客每人吃一小部分就吃饱了,但很多顾客的消费量会超过原本店家预计的
量,从而导致店家成本增加。不仅如此,由于自助海鲜的供不应求,海鲜价格也
上涨很多,店家的利润自然下降。
小河平均水深 0.5 米, 过去没问题——小河深度在各处是不一样的,虽然
平均水深不足以淹没人,但有的地方很浅,有的地方却很深,可能深达 2 米,如
果迷信平均数,很可能会遭遇“没(m7)顶”之灾。
平均数虽然使我们的数据变得简单、可度量,但同时也掩盖了很多数据上的
缺陷,使我们看不到数据中的结构信息,对变动和误差没有概念。所以,我们要
正确看待数据,在应用平均数时多配合使用其他的变异指标来分析总体分布的离
散程度,客观反映总体的全貌。
2. 图表,徒有其表
图表是数据的可视化描述,其优点在于能够使人直观地看出效果。因此,别
有用意的人或机构经常在这上面做手脚,胡乱修改图表的样式,使图表在受众的
心目中印象更深刻。
修改图表样式的方法同样是多种多样的。
(1)图形元素作单位
某一年 12 月,美国白宫在官方推特上发送了一条消息,称美国高中生毕业
率已经达到历史最高水平(如图 1-1 所示) 。
图1-1 2007—2014 年美国高中生毕业率
4YK[XJOEE .025
第一章? 数字也会说谎
人们观察后发现,数据图很蹊跷。因为数据图的数字单位都是用书本的图形
元素来表现的。5 本书表示 75%,16 本书表示 82%,这是什么意思?按理来说,这应该是柱状图,纵轴以 0 为起点。
图1-2 2007—2013 年高中生毕业率的数据图
看到真实的情况以后,我们发现,毕业率的逐年变化并没有其他人所说的那
么大,对吧?
(2)Y 轴都以零为起点,细微的变化难以察觉
某杂志在报道全球变暖的时候,附上了一张图表,可以说,这张图表是当年
最差的图表,因为图中的折线几乎没有什么波动,十分平稳,让人感觉工业革命
以来气温变化不是很大。但仔细一看就会发现,图表中的 Y 轴以 0 为起点,最高
值在 120,5 个数字为一个单位。我们知道,气温哪怕升高一摄氏度也是非常明
显的变化,可这张图表却将这一变化隐藏在细化的数字中了。
由此我们可以得出结论,并不是所有的折线图都必须使Y 轴以 0 为起点。要
想准确呈现极其细微的变化,我们不妨把Y轴的起始数据调高。
(3)改动图表刻度
这一方法和上一种方法正好相反,是人们为了想要突出某种剧烈的效果而故
意将 Y 轴的起始点设置得很高。
比如,有一款减肥茶,为了宣传产品对消费者的减肥功效,经过市场调查
后,将数据做了润饰。将 Y 轴(胆固醇浓度)的起始点设置为 190,而最高点只
有 210,这样当潜在消费者看到图表时(如图 1-3所示),会产生大多数消费者食
用减肥茶得到了不错的减肥效果这一错觉,从而被吸引前去消费。
4YK[XJOEE .
更多免费电子书搜索「雅书」 https:yabook.org026
数字陷阱
图1-3 第 1 ? 4 周胆固醇浓度
通过改变图表刻度的办法,这款减肥茶将其所带来的减肥效果成倍放大了。
其实真正的效果图如图 1-4 所示。
图1-4 第 1 ? 4 周胆固醇浓度
五、拙劣的数字谎言
数字谎言在生活中其实是屡见不鲜的,但大多数经过巧妙伪装,人们很难在
很短时间内识破。不过,也有一些数字谎言非常荒谬,只要拥有一些生活常识,就可以轻松识破。
(一)广告中的数字谎言
作为消费者, 我们大家经常会在果汁饮料类的广告中看到 “100%纯天然果汁”
之类的广告词。这样的广告词本意是为了突出果汁的纯度,强调果汁含量较高的
特点。不过,广告词中宣称的“100% 纯天然”在如今的工业化规模生产时代是
4YK[XJOEE .027
第一章? 数字也会说谎
不可能实现的。
果汁饮品要想保证色泽鲜艳、味道香甜、口感鲜滑,一定会加入某些工业制
剂,其中最典型的就是色素。至少防腐剂和稳定剂是必不可少的。按照国家标准,只要这些化学制剂的成分和含量符合规定,就不会伤害消费者的安全和健康,与
此同时还能帮助消费者使用产品,这些制剂的名称和含量也会在包装上公布。
当我们购买了号称“100% 纯天然”的果汁饮品,再对照包装上安赛蜜、增
稠剂等成分的标注,心里难道不会对广告数字的真实性产生怀疑吗?
(二)互联网中的数字谎言
如今,各大直播平台之间的竞争日趋激烈,在这个行业内,人们有两点疑问:
主播的身价如何?主播的观众人数到底是怎样的?
尤其是主播的观众人数,人们普遍认为,主播房间显示的当前观看人数和实
际观众数量差得太远。
某主播在某游戏直播网站直播时,居然显示其观众人数为 13 亿!我们知道,我们现在我国的总人口是 13.68 亿人。要按照网站上显示的数字来理解的话,意
味着几乎全中国的人都在观看他的直播。本来直播平台难免会刻意夸大自己的直
播数据,但这样做实在是荒诞滑稽!
(三)投资中的数字谎言
为了提振急剧降温的经济增长,刺激经济发展,2012 年 8 月,天津和重庆
分别宣布,将在之后的几年里在汽车、石化、电子和先进设备等产业投资 1.5 万
亿元。中央政府宣布,截至 2015 年,将会向节能减排领域投资 2.4 万亿元。除
此之外,这一段时间地方政府也宣布了大大小小总共 10 多项投资计划。按照表
面数字来算,这些举措已经远远超过了 2008 年全球金融危机那段最严峻时期出
台的 4 万亿元经济刺激预算。
这很明显是不切实际的。至于为何这样,其实是这些省级官员对他们能够从
境外、国有企业、民营企业或者中央政府吸引到的投资做出了乐观的预测,并不
是真的计划在未来几年支出的预算。某经济学家就曾表示 :“你不能对这些表面
4YK[XJOEE .
更多免费电子书搜索「雅书」 https:yabook.org028
数字陷阱
数字太认真,因为它们都被政府夸大了,而且它们正在相互攀比着宣布更庞大的
数字,希望这样可以吸引外资和中央政府的投资。 ”
(四)所谓的“公式”
某些学术机构习惯于为每个事物制定一系列的公式,全然不顾数学语言能否
描述这一规律。而媒体看重话题,为这些公式的推出推波助澜,塑造所谓的科学
权威,一点也不害怕吞食这些虚假规律所带来的消化不良。
(1)幸福公式
幸福 =P+(5×E)+(3×H)
公式中有三大变量,只要弄懂了每个变量的含义,就能理解这个公式。
式中,P= 个人性格,乐观或悲观 ;
E= 生存状态,健康或生病 ;
H=高层次需求,自尊心满足与否。
整个公式一看便知毫无意义。我们都知道,性格、健康和自尊心,这些是不
能计量的。其实,这个公式就是建立在虚假数字上的空洞之物,经不起推敲。
(2)痛苦公式
痛苦 =18W+38(D-d) · TQM · NA
式中,W= 天气;
D=债务;
M= 上进动力 ;
NA=受关注的需要。
我们看到,这个公式也是没有任何数学意义的。但是它居然证明出 1 月 24
号是 2005 年最令人忧愁的一天!
(3)爱情公式
爱情是看不见、摸不到,但又能让人抓狂的一件事,恋爱是否成功取决于很
多因素。 不过, 一位数学家声称, 他已经找到了一个能够计算爱情持续时间的公式。
L=8+0.5Y – 0.2P+0.9Hm+0.3Mf+J – 0.3G– 0.5(Sm– Sf )2+I+1.5C
式中,L 为爱情持续时间 ;
Y为恋爱之前认识的时间;
4YK[XJOEE .029
第一章? 数字也会说谎
P为双方的前任数量之和 ;
Hm为男方认为诚实对恋爱的重要性 ;
Mf为女方认为金钱对恋爱的重要性 ;
J为双方认为幽默的重要性的总和 ;
G为双方认为外表的重要性的总和 ;
Sm和 Sf 为男女认为性的重要性 ;
I为双方认为对方父母好坏的重要性的总和 ;
C为双方认为小孩的重要性的总和。
公式挺长的啊!
但这个公式可信吗?一名记者利用一下午的时间对一些毫无防备的男性朋友
进行了计算,结果发现她与其中一名男性的爱情持续时间为 12.9 年。可是她并
不喜欢他,尽管幸福持续时间很长,所以她并不想尝试开始这段感情。由此可见,这套爱情公式并不是那么科学。
4YK[XJOEE .
更多免费电子书搜索「雅书」 https:yabook.org4YK[XJOEE .第二章
风险中的数字陷阱
4YK[XJOEE .
更多免费电子书搜索「雅书」 https:yabook.org4YK[XJOEE .社会上的风险无处不在,让人难以捉摸。大多数人都不善于预测风
险。有时,风险是一样的,但是人们对风险的辨别能力有限,因此他们
并不是基于理性判断,而是基于权威人士的措辞来确定风险大小。
一、虚假的“小”风险
作为感性与理性相结合的人,我们是非常容易被他人操控的。当遇到风险炒
作时,我们不容易发觉,很容易成为风险炒作的牺牲品。风险炒作的数字骗术与
其他数字骗术相比,具有更严重的影响,因为它意味着一笔大生意就要达成了。
(一)科学中的“小”风险
航空业的巨擘理查德一直以来都在挖空心思怂恿私人投资者。他名下有一家
民营航天企业,据称在企业创办的开始五年内将要把 3 000 名旅客安全地送到太
空。该公司还在官方网站上自吹自擂,称自己拥有每年运送数以百万计的游客的
经验,安全记录一直得以保持。
我想,大家一看便知这是在胡说八道。太空旅行和乘坐飞机、火车旅行可不
是具有可比性的事情,公司这样说显然是在蓄意降低太空旅行的风险。其实,在
整个航天历史中,载人火箭升空,乘客遇难的比例高达 1%,并且这种风险不太
可能在短期内降低。
4YK[XJOEE .
更多免费电子书搜索「雅书」 https:yabook.org034
数字陷阱
1% 这个数字看起来很小,但就风险本身而言,却高得极为可怕。按照飞机
航行来算,如果民航客机的失事率高达 1%,就意味着每天大概有 275 架飞机失
事,约2万人遇难。如果出现这种情况的话,整个航空业也将遭遇灭顶之灾。1%
的风险概率会让任何一种交通类型都无法开展商业运营。
该公司预计每周发射一次,那么连续运营两年而且不出现遇难悲剧的可能性
只有 13,也就是说,公司把3 000人平安送达太空并安全返回的概率只有0.5%。
这样来看,太空旅行的安全系数太低了。
公司之所以蓄意说低风险, 是因为它可以为公司带来丰厚的收益。确实如此,这套说辞说服 250 多名旅客缴纳了 3 000 万美元的太空旅行费用。不仅如此,政
府和公众也被公司的说辞说服了,政客们开始花费千万美元,甚至州长决定拨款
2.25 亿美元建设一个太空船发射降落场。该州的其中两个县甚至为此制定了一项
新的营业税政策。
(二)金融中的“小”风险
在金融界,有些人常说小风险同样也可以获得巨大收益。实际上风险和收益
其实是对等的。如果投资十分安全,风险很小,那么,你只能挣回极少的收益。
假如你想要获取丰厚的收益,你就必须承担极大的风险,做好无法收回成本乃至
血本无归的心理准备。一名成功的投资者并不是每一次投资都会得到回报,而是
尽力将投资回报率最大化。如果你想要别人给你投资,就必须给予他们最小的风
险和最大的回报。风险越小,人们就越愿意付给你钱。
在出事之前风光无限的某租宝,大肆宣传“1 元起投,随时赎回,高收益,低风险”的口号,称预期年化收益率在 9% ? 14.6%,比一般的理财产品远远高
出一大截。很多投资人为这家公司的保本保息、灵活支取所心动,纷纷出钱投资。
结果,这家公司在短短一年半的时间内吸引了 90 多万投资人,吸收资金高
达 500 亿元。
上面我们已经说过,想要丰厚的收益,就必须要承担巨大的风险,所以“高
收益,低风险”的话是不能信的。之所以人们还是相信这种“神话” ,除了被利
益冲昏头脑外,也有受互联网金融神话的影响。
这一切都是源自 ×× 宝,其年化收益率为 6%,让理财途径很少的草根们
4YK[XJOEE .035
第二章? 风险中的数字陷阱
看到了希望,以后再声称 10% 以上收益率的 P2P 出现,多少让人们心中看到了
×× 宝的影子。当某个 P2P 产品被曝光“骗局或传销”等负面消息时,人们仍
然追捧这款产品。
很多人心里想错了,以为只要跟互联网金融有联系,就一定靠谱,就能钱生
钱。其实,互联网金融所做的与传统的金融机构放贷并没有太大不同。
二、虚假的“大”风险
要问哪里是存在夸大风险最盛的地方,那非新闻媒体莫属了。新闻报道的情
节越惊人,关注的人就越多。
(一)科学上的“大”风险
在 2000 年之前的一段时间,关于小行星撞击地球的传言就曾流传一时。
1998 年,一颗体积较大的小行星被发现,新闻记者从中嗅出了新闻的味道,于
是以“2028 年 10 月 26 日就是我们的世界末日”作为标题吸引读者。2002 年时,又发现了一颗小行星,人们又开始担忧,世界末日可能是在 2019 年 2 月 1 日。
为此,天文学家再三表示,小行星与地球碰撞的概率是很小。但是新闻记者
并没有理会,仍然继续夸大风险。其实,不管多么不切实际,每个世界末日的预
言都能在媒体上引起公众的广泛关注。
我想,很多人应该对 2012 年 12 月 21 日这一天印象深刻吧。因为这一天是
所谓的玛雅预言“世界末日”的那一天。而关于这一天是世界末日的说法其实是
一个骗局。
玛雅历法中,玛雅人并没有把 2012 年 12 月 21 日当作世界末日。玛雅历法
将 1 872 000 天作为一个轮回,也就是 5 125.37 年。他们将最初的计算时间追溯
到玛雅文化起源的时间——公元前 3114 年 8 月 11 日,到 2012 年 12 月 21 日时,意味着一个轮回的结束,历法就要重新计算下一个轮回。简单来说,这只不过是
重新计时的一种方式,跟 2000 年开始 21 世纪或者中华民国成立时采用新的纪年
方式是一个道理。
4YK[XJOEE .
更多免费电子书搜索「雅书」 https:yabook.org036
数字陷阱
(二)生活上的“大”风险
往往由于措辞方式不同,尽管真实含义是一样的,但你也可能会从中错误地
悟出更大的风险。
假如有人告诉你,每 100 个人里面有 25 个人在每年的交通事故中受伤 ;紧
接着又有一个人告诉你,10 000 个人里面,有 2 500 个人因为交通事故而受伤,这两种情况你更担心哪一种?
只要你足够警醒,足够细心,你会发现这两组数字表示的是同一比例 :14
的人会因为交通事故受伤。不过这两种说法确实会让读者产生不同的理解。
除了同一比例,哪怕真实比例相差很大,采用这一方法描述后,人们还是会
增加判断出错的概率。
假如某本杂志对一项研究做了实验,然后给出了两种说法 : “计算机游戏
导致 1 万名学生中 1 498 人患上颈椎病(比率是 15%) ” , “计算机游戏导致 100
名学生中 25.15 人患上颈椎病(比率是 22.15%) ” 。尽管实际上后一种说法的颈
椎病风险差不多是前一种说法的 2 倍,但读者普遍认为前一种说法反映了更高
的风险。
三、风险也分相对与绝对
我们对那些无法控制的风险总是感到恐惧,但如果自己可以控制,即使风险
发生的概率很高,也不会产生很大的恐惧。高速公路上车祸的发生率很高,但因
为人们能够自己控制方向盘,自己来决定是否冒险,所以没有人会觉得害怕。
我们总是习惯凭借经验、数字或者个人的情感、喜好来评估风险,不加理性
地思考,产生的结果就是——我们不认识风险。
(一)科学上的风险
媒体报道上刊出了国际最具权威的杂志发表的最新研究论文。论文指出,胆
固醇值较高的人患心脏病的概率比一般人要高 50%。我想,胆固醇值较高的人看
4YK[XJOEE .037
第二章? 风险中的数字陷阱
过之后肯定会非常不安。但这句话到底反映出了什么信息呢?
我们先来看胆固醇值正常的人,一般每 100 人有 4 个人在未来的 10 年内患
心脏病 ;同样的年龄,胆固醇值较高,则有6 个人患心脏病。
胆固醇值高,患心脏病的人数比不高的人数要多 2 人,正好是 4 个人的
50%。
由4人增加到6人,意味着相对风险提高50%。那么,绝对风险如何变化呢?
其实,在这个例子中,绝对风险只提高了2%,也就是增加的2 人占 100 人的比例。
这样的比例肯定对胆固醇值较高的人产生的冲击力小得多。
(二)生活上的风险
公益广告或者交通告示中或许曾有过这样的话 :“坐车系好安全带,危险降
低 15%。”其实,这句话并没有说清楚降低的危险是相对风险还是绝对风险。
一般坐70 年的车,产生车祸导致重伤的概率是20%,按绝对风险来算的话,20%–15%=5%,这表示系好安全带能够大幅度降低安全风险,受伤概率只有 5%。
但要按照相对风险来算的话,20%×15%=3%,20%–3%=17%,这表示系好安全
带虽然有效,但效果并不是非常突出,只能降低风险到 17%。
其实,概率的相对与绝对这一类陷阱不仅仅体现在风险上,在生活的其他方
面也有可能会遇到。
现如今怀孕的妇女很想提前知道自己即将出生的孩子性别是怎样的,于是在
医院做 B 超。
男婴的概率是 90% ;女婴的概率是 70%,甲女士检查结果是男婴 ;乙女士
检查结果是女婴。大家觉得甲女士与乙女士相比,是否更有把握知道自己孩子的
性别呢?
很多人想当然地看到 90% 与 70%,字面数字比较大小后就武断地判定甲女
士更有把握。其实,事实恰好相反。
现在我们假设 200 名孕妇同时接受了检查,100 人怀男婴,100 人怀女婴,按照上面所说,怀男婴的 100 人中,90 人在检查之后得到了正确的结果男婴 ;
怀女婴的 100 人中,30 人得到了错误的结果男婴,也就是说,检查结果为男婴
的孕妇中,生下男婴的概率为 90÷(90+30)=75%。
4YK[XJOEE .
更多免费电子书搜索「雅书」 https:yabook.org038
数字陷阱
怀女婴的100人中,70人检查之后得到正确结果女婴;怀男婴的100人中,10人获得错误的结果女婴,所以实际上会产下女婴的概率为70÷(70+10)=87.5%。
看来,如果不熟悉统计,我们就很容易掉入数字陷阱,因为统计数据的面貌
太多样了,在一定程度上会扰乱我们的思维。
四、科学谣言扎根于数字陷阱
健康,是每个人都特别关注的话题,而与健康有关的科学话题同样被人们不
断关注并谈论。但是,人们在看到某个科学报道时,可能会因为报道本身的表述
方式而做出错误的解读,有的时候还会在转述的过程中夸大问题。一般情况下,数字能够对一个问题做出比较明确的说明,但在科学问题上,数字也有可能迷惑
大家,让人误解,尤其是在人体健康领域,此问题更为突出。
(一) “大”数字
科学杂志上对癌症研究发表的观点表示 :每 100 人里就会有 25 个人因患
有癌症去世。如果别人在看到这篇报道后向你转述时这样说: 1 000 个人里,有
250 人因患有癌症去世。你觉得哪个更让你恐惧?
如果你冷静下来观察,就会发现比例是一样的,都是14 的人因为癌症去世。
如果你不冷静,可能就会产生误解。
再看一个例子: “每天大概有 100 人因患有癌症去世”与“每年大概有
36 500 人因患有癌症去世” ,这两者相比,读者会认为第一种说法风险小得多,其实这两种说法风险都差不多,只是数字越大,人们心里就会感觉风险越大。这
只是心理错觉而已。
(二)风险“相对论”
人们多少都读到过如下科学研究结论 : “每天食用培根三明治会使肠癌概率
增长 20%” “茶水太烫,饮用后使食管癌概率增加 8倍” “食用柚子会使更年期的
4YK[XJOEE .039
第二章? 风险中的数字陷阱
女性患乳腺癌的风险提高 30%”……以上这些数字是用来表示健康的风险的,意
思是说,食用这些食物之后,与没有食用的人群相比患病的可能性要增加。然而,这些数字只是相对风险,并没有向我们提供绝对风险。
对一般人来说,一生患上肠癌的概率只有 5% 左右。如果每天吃一个培根三
明治增长 20% 的概率,那么,5%×20%=1%,绝对风险只增加了 1% !这种数
据与20% 相比,总会让人平静许多。
(三)关联不是因果
如果说看电视与死亡率挂钩,你听到后还敢看电视吗?以前,曾有过一个关
于“看电视时间与死亡率”的研究。这一研究项目的研究人员历时六年,总计跟
踪调查了 8 800 人,对他们的健康、生活习惯和看电视的行为做了详细的了解。
这些人中,有284 人去世。研究人员得出结论:每天看电视时长超过 4小时的人,死亡率比观看两个小时以下的人高46%。结果,人们在传播科学家的研究结论时,这句话变成了“科学家说,电视使人死亡。”多么令人恐惧的结论啊!但是这些
人犯了将关联关系解释为因果关系的错误。
这项研究并不是侧重在电视上,而是关注久坐时间与死亡率的关系。因为人
们看电视容易久坐,所以看电视只是其中的一种常见方式。研究指出,人一久坐,心脏病等疾病导致的死亡风险会显著增加,但只是两者有关联而已。
(四)毫无意义的比较
有时医学数据会被某些人利用,来实现某些不为人知的目的。
美国一名前市长在竞选时曾说,美国前列腺癌症患者的幸存率达82%,而英
国只有 44%。尽管这两个数据都是正确的,但这种比较太容易使人误解了,因为
美国和英国的前列腺癌症诊断方式不一样。这位前市长引用的是 5 年幸存率,也
就是说患者在 5 年内幸存的概率。在美国,前列腺癌症被筛查诊断确定,而英国
的病人在出现症状以后才会知道自己患上前列腺癌症。由于前者检查出来的问题
比较早,所以会尽快采取治疗,并且由于筛查准确率有限,经常会误诊,这使得
病人的基数很大。由于比较的基础不同,强行比较只会产生误导。
4YK[XJOEE .
更多免费电子书搜索「雅书」 https:yabook.org040
数字陷阱
(五)离开剂量谈毒性?请不要耍流氓
万物皆有毒,关键看剂量。
——巴拉塞尔萨斯(现代医学鼻祖,瑞士医生)
如今快餐文化盛行,一篇关于食品安全的报道要想在信息洪流中脱颖而出,被读者关注,最重要的就是要懂得“吸睛大法” 。使用一个耸人听闻的标题是再
合适不过的办法了。
经检验,××× 竟含有 ×××,长期大量摄入或导致 ×××。
怎么样?这样的句式是不是很熟悉?
看了巴拉塞尔萨斯的名言,我们可以这样理解, “长期大量”似乎是一个不
变的真理。但科学家在描述具体事物的时候可不会如此笼统,不然就会有不懂装
懂的嫌疑。科学家在描述食品卫生事件的时候,一般会包括以下内容 :
人群特征,年龄划分;食物摄入的时间长短,次数多少;摄入途径,如何吃
的 ;摄入量……
在某产品的锰超标事件中,国家食品安全风险评估中心给出了这样的科学意
见 :成年人每天摄入 10 毫克锰不会对身体造成健康威胁。所以,当你下次在新
闻报道中再次看到像“长期大量”这样笼统的词汇时,你在心里知道它是在夸大
其词就行了。你可以在心里追问一遍 :食用的量有多少?食用了多长时间?都产
生了哪些危害?
4YK[XJOEE .第三章
注意 :回归分析也有陷阱
4YK[XJOEE .
更多免费电子书搜索「雅书」 https:yabook.org4YK[XJOEE .回归分析是确定两种及以上变量之间的相互关系的统计方法。它在
研究现象之间的相关性等问题上表现突出。但是在进行建立回归模型和
分析时,如果不能处理好变量之间的关系,很容易落入其中的误区,出
现逻辑错误。
一、数字相关≠因果联系
相关性并不是因果关系,尽管两件事差不多相伴发生,也不表示它们之间就
一定具有因果关系。这本是不用刻意讲的基本常识,但很多人经常弄错。这是无
视统计学的一种表现。每当我们看到那些基于这种错误的言论时,简直不能相信,他们为什么会上当。
但是有太多的人犯过这种错误,当测量 A 的变化时,同时看到 B 的变化,就断然宣布这两者之间存在因果联系。
2014 年英国杂志《经济学人》发表文章称,美国的自闭症儿童在最近八年
内增加了 120%,而这一年中国的居民人均收入也大幅度增长,增幅高达 8%。
中国人均收入和美国的自闭症儿童患者数之间具有一个正相关的显著统计学意义
的关系。之所以这样,是因为这两者在同一时期都出现了快速上涨的趋势。但你
能说这两者之间存在因果关系吗?
哪怕中国的人均收入减少,也丝毫影响不到美国自闭症儿童的数量变化。
如果上述案例中,人们非要将中国人均收入的增长与美国自闭症儿童的数量
4YK[XJOEE .
更多免费电子书搜索「雅书」 https:yabook.org044
数字陷阱
强扯到一起,推测它们的因果关系,那就是犯了“因果诡辩”的错误。
其实, “因果诡辩”在营养学和卫生学方面出现得更为普遍。有的人可能会
因为相信了“因果诡辩”而改变了自己的饮食习惯。
(一)医学上的数字陷阱
在华盛顿大学就职的约翰 · 奥尔尼带领一群精神病学专家研究发现,阿斯巴
甜制品投入市场 3 ? 4 年后,脑瘤患病率以惊人的速度上升了。这在当时的医学
界是一条大新闻,立刻在全球各地成为头条。这使得很多人不敢吃含有阿斯巴甜
的食品了。
数据显示,在阿斯巴甜被批准投入产出的 1981 年,脑瘤发病率为 5% 多一
点,但到了之后的 3 ? 4 年,脑瘤发病率急剧上升,从 1985年的5.2% 一直上升
到 1991 年的 9% 左右。
但这种言论纯粹是夸大其词,因为这种联系其实根本就没有说服力。虽然阿
斯巴甜制品的消费量与脑瘤患病率都提高了,但很多事物都在这一时间段呈现上
升趋势,比如有线电视的安装数量、随身听的数量、某著名演员的演艺事业等。
1981 年正是里根总统上台之际,那时美国的行政开支也急剧升高,两者之间也
具有惊人的相关性,但你不能写一篇论文来论述财政赤字与脑瘤患病率的因果关
系吧?那样的话就太荒谬可笑了。
1996 年乔尔 · 布林德统计分析显示:女人堕胎后得乳腺癌的概率会增加
30%。但是这一信息具有很强的误导性,这个结论混淆了关联性和因果性的不同。
如果患乳腺癌的人和堕胎的人数量上有联系, 即使程度轻微, 那么也只能说是“联
系” ,而不是堕胎“造成”乳腺癌。
有数理统计和科学说明了这一点,同时常识也发挥了作用。在强烈反对堕胎
的地区,大多数妇女在调查时不会承认自己堕过胎。这种现象在不反对堕胎的区
域也可能发生。堕胎是一件极其隐私的事,为什么要冒着泄露隐私或者给自己形
象抹黑的风险告诉统计机构实情 ?
此外,如果这些数据是从一部分女人,比如只从患有乳腺癌的女人中提取这
些数据,结果就会与总的情况大不一样。因为身患乳腺癌的女人比起没有患这种
病的女人更容易承认自己有堕胎经历,能更诚实地面对自己的医疗史。不过这个
4YK[XJOEE .045
第三章? 注意 :回归分析也有陷阱
因果关系也无从考证。
但是得乳腺癌的女人对自己是否堕胎的事情越诚实,也就说明没有患乳腺癌
的女人是否有堕胎史的数据越难搜集。所以我们并不能确切知道有多少堕过胎的
妇女没有得乳腺癌。
还有一点值得注意,布林德是先得出结论之后再进行调查研究的。《科学新闻》
拒绝刊登他的信件,因为其中有些观点与杂志社有关怀孕和乳腺癌的一篇研究文
章不一致,他本可以采取另一种做法的。
布林德公开研究成果两年以后,另一项研究发现堕胎“不会额外增加患乳腺
癌的风险”,此外,美国国家癌症研究所 2003 年研究会否定了“堕胎女性更容易
得乳腺癌”这一结论。
(二)互联网上的数字陷阱
谷歌在 2008 年推出了流感趋势系统,以此来监测全美的网络搜索,寻找与
流感相关的关键词。它们通过这些搜索结果来提前预测流感就医量。不过,在
2008—2013 年,它做出的预测都严重高估了流感病例的数量。
英国的研究人员通过研究发现,到谷歌进行搜索的人有两类 :感冒患者和对
感冒话题感兴趣的跟风者。第一类人的数据很明显是符合实际的,可以为预测提
供真实数据。但第二类人的社会化搜索就直接导致了谷歌预测的失败。流感搜索
量与流感患病量之间只具有相关性,而不是因果联系。这是谷歌预测失败的根本
原因。
两个事物之间具备关联关系,不能代表其中一个事物引起了另一个事物的变
化。在条件不充分的时候证明这种关系,很容易陷入相关关系的谬误,导致数据
不真实。相关关系的谬误一般分为以下三种。
1.机缘巧合产生的相关关系
某些几乎不可能发生的事情,出于偶然,你可能搜集到了证明它存在的证据,但第二次搜集数据时可能就无法证明这个结论了。
2.联合变动
这种关联关系确实存在,但我们不能分辨出何为因,何为果。比如,收入和
拥有的股票之间便是这种关系 :拥有越多的钱,便能买到更多股票,同时,手头
4YK[XJOEE .
更多免费电子书搜索「雅书」 https:yabook.org046
数字陷阱
上的股票越多,又可以为你获取更多收入。这也就是我们要在本章第二节中要讲
到的内容。
3. 显著相关性,变量之间毫无影响
抽烟者与成绩差就属于这种相关谬误。还有一个真实的统计案例,也反映了
这种虚伪相关。比如,美国曾经就有人指出,在马萨诸塞州,长老教会会长的收
入与哈瓦那阿朗姆酒的价格之间密切相关。
在这一结论中,谁是因,谁是果?我们是否能从中确定教会会长从朗姆酒贸
易中获益,或会长支持该贸易?实际上,会长收入和朗姆酒价格还受到了第三个
因素的影响,即世界范围内的物价上涨。
虽然经验告诉我们“眼见为实” ,但眼睛告诉我们的“真相”有时却会隐瞒
或夸大。因此,我们必须掌握一些技巧,让自己不被貌似“科学”的结论愚弄,从而轻松地走出迷宫。
二、A 和 B,哪个是因?哪个是果?
我们不仅在相关性与因果关系上容易混淆,有时还对因果关系中的两者产
生混淆。明明是 A 导致了 B,但我们却认为是 B 导致了 A,这就是“因果倒置”
的问题。
(一)科学界的因果倒置
1996 年,科学界流传着这样一种说法:如果女性臀部和腰部的围度比较大,她们生男孩的概率就比较大。 但仔细一想, 这种说法完全靠不住。 因为我们都知道,胎儿的性别是由精子类型决定的。带 X 染色体的精子生女性,带 Y 染色体的精
子生男性,只带 X 染色体的精子与受精卵结合,如果不是发生基因突变,胎儿
的性别就已经注定是女性了,又怎么会受到臀部与腰部围度比的影响。
可能是因为男孩的头一般比女孩的大,怀上男孩时母亲的骨盆韧带会被拉紧
而延长,从而使母亲的臀部与腰部围度比相对于分娩前要大得多。这种影响如果
真实存在的话,那么研究人员可能是犯了因果倒置的错误。
4YK[XJOEE .047
第三章? 注意 :回归分析也有陷阱
(二)经济上的因果倒置
曾经有过一个关于“债务导致健康状况恶化”的论断。这是一个因果倒置的
典型案例。研究人员经过调查研究发现,一个人的信用卡债务越多,他的健康状
况就越差,由此他们断定,沉重的负债导致了人们的身体不健康。
但是我们清楚地知道,健康状况糟糕的人比健康的人有着更差的经济状况。
因为不健康,他们必须支付医疗费,而且有的时候疾病还会影响他们的工作,导
致挣钱更少。
德国《焦点》周刊在 2011 年报道 :2010 年德国有 10 万多人破产,而遭遇
破产的原因中严重的疾病占 10% 以上,基本与离婚或创业失败持平了。所以,研究人员虽然看出了债务与健康状况之间的关联,但他们显然没有正确地判断因
果关系,而是匆忙得出了错误的结论。
请问收入和股票之间,哪一个为因,哪一个为果?
其实,收入与股票同为因果,因为你的收入越多,才能买更多的股票,而股
票越多,在经济状况良好的情况下,收入也就越多。这是一种良性循环。在这里,简单地认为收入增多导致股票增多或者股票增多导致收入增多都是片面的。
美国在幼儿园到 12 年级的儿童教育上投入多的州,其经济增长率明显要高
于投入少的州。但是我们无法看出其中的因果关系方向。因为我们既可以说教育
上的投入推动了经济发展,也可以说是经济实力较强的州才能在教育上充分投入,所以增长的经济带来了教育的投入。我们还可以说,是教育支出推动了经济增长,反过来又继续为教育增加投入,两者之间互为因果。
(三)学习上的因果倒置
你觉得上课的费用和上课成绩好坏之间有因果关系吗?哪个为因,哪个
为果?
举一个更具体的例子,上高尔夫球课的时间与打球的成绩有何关系呢?高
尔夫球一场要进 18 洞,用的杆数越少表示成绩越好,那上高尔夫球课的课时与
每场 18 洞练习的平均杆数之间有什么关系呢?经过大量的调查研究,研究人员
得出这样的数据 :当学费在 0 ? 300 美元时,学费越高,平均杆数越低 ;当超过
4YK[XJOEE .
更多免费电子书搜索「雅书」 https:yabook.org048
数字陷阱
300 美元时,学费越高,杆数越多。在 300 美元以上时,上的课越多,击球成绩
越差,这是为什么呢?可能你会觉得,应该是击球成绩差,所以要上很多的课来
学习进步,但事实往往不是那么简单,这个结论可以有两种解释: 教练教得太差,学的时间越长,击球成绩反而没有得到提升; 状态不好时总是会想着多上几节课,于是状态不佳导致了更多的课程。
所以,你看,击球成绩差和课程多之间的因果关系很容易造成混淆。
(四)广告上的因果倒置
看广告与购买商品具有什么样的相关关系呢?在一项调查中,研究人员问被
调查者是否在过去一个月之内看了某品牌的广告。 购买这一品牌产品的100人中,有 62% 的人说看过 ;未购买商品的 200 人中,有 79% 的人说没看过。通过这个
例子我们看出购买者对广告的认知率较高。 一般来说, 我们会想到 “看到广告的人,或者对广告印象深刻的人购买的可能性更高” 。误差值只有 0.1%,可以忽略不计。
但是,在统计之后,我们必须要注意因果关系方向这个问题。上面这一数据和统
计分析的结果将因果关系反过来也是可以成立的。也就是说“因为看了广告而购
买商品”和“因为购买了商品而对广告印象深刻”这两个假设都是有可能的。
(五)教育上的因果倒置
有研究者曾对家长做过问卷调查,旨在分析儿童玩暴力游戏与犯罪的关联,结果发现,少年犯罪者中玩过暴力游戏的比率很高。但这样就支持“减少暴力游
戏能够减少少年犯罪”的观点吗?答案是尚无定论。
如果儿童都玩过同样的一种暴力游戏,有些孩子变成少年犯,其父母就会认
为是暴力游戏的错 ;而有些则没有,父母则会认为这个游戏是适合男孩子玩的战
斗游戏。对于同一款游戏,双方父母的态度不同,视其为洪水野兽的父母与毫无
偏见的父母,其孩子的犯罪率有很大不同,所以这种因素也要考虑进去。假使不
将这种因素考虑进去,我们应该假设没有游戏的影响,人类其实本身就具有暴力
倾向。严格来说,那些具有严重暴力倾向的儿童更喜欢玩暴力游戏,从而进行犯
罪活动。这样来说的话,哪怕是再限制暴力游戏,也不能阻止他们犯下罪行,毕
4YK[XJOEE .049
第三章? 注意 :回归分析也有陷阱
竟即便没有游戏,他们的暴力倾向也是存在的。
三、遗漏变量,分析有误差
如果我们将某两种事物之间使用回归方程式建立联系,可千万不要遗漏某个
重要的解释变量,更不能让其他的变量把这个重要变量的影响给覆盖了,不然分
析结果就会非常具有误导性,可能会与事实南辕北辙。
(一)学校考试成绩中的数字陷阱
假如我们要评估一所学校的教学质量,在现在这个时代,最客观的量化指标
就是考试分数了。这是因变量。学校的开支是解释变量。评估人员希望这样的模
型可以量化学校开支与学生分数的关系。
但是开支大的学校,其学生在考试中就一定会取得高分数吗?如果学校开
支是唯一的一个解释变量,毫无疑问,我们肯定可以在两者之间找到显著的相
关关系。
分数可以通过加大学校的开支来提升,这样的观点明显就不符合实际。
其实,学校开支与分数之间还存在众多潜在的解释变量,其中最重要的一
个就是家长教育。受教育程度高的家庭一般住在相对较富裕的地区,能够享有
更多的学校设施,花销也更多,培养出来的孩子由于训练和学习资源丰富而普
遍比经济能力较差的家庭的孩子在学习成绩上好一些。所以,不能遗漏这一重
要的变量,不然回归分析的结果将认为学校开支与分数之间存在显著相关关系。
那可能吗?分数高低是由学生的优劣决定的,而不是看学校的教学楼是花了多
少钱盖起来的。
美国一位大学教授曾经说 :SAT 考试分数与家庭的汽车拥有数存在显著的
相关关系。这位大学教授想借此说明,他觉得 SAT 在大学录取上面存在不公平。
SAT的确存在缺陷,正如中国的高考一直被人们诟病一样。但考试与家庭轿车拥
有数之间是否存在相关关系这一观点是值得怀疑的。可以想见,一个富裕的家庭
再多买 5 辆汽车,也不能保证他的孩子考上大学。家庭拥有汽车的数量反映了这
4YK[XJOEE .
更多免费电子书搜索「雅书」 https:yabook.org050
数字陷阱
个家庭收入和教育等社会经济地位的高低。而 SAT 分数经过训练是可以得到显
著提高的。学生通过参加培训,可以显著提升分数。既然培训与分数之间存在
着相关关系,那么家庭较富裕的孩子就能得到更多的学习资源,获得更大的竞
争优势。
(二)健康上的数字陷阱
我们可能在媒体上读到过有关常打高尔夫球对身体健康的影响,报道称,常
打高尔夫球易患心脏病、癌症和关节炎。对于这样的内容,我们大可不必相信。
高尔夫球员患这些疾病的概率比不打高尔夫球的人要高,这我不能否认,也不奇
怪。只是,我同样认为打高尔夫球对健康是有益的。它不仅能使你的社交生活更
丰富,也能让你增加运动量。
在这两种观点之间如何进行取舍?其实,在量化某项运动对健康的影响时,不要忘了“年龄”这一变量。一般情况下,年龄越大的人,打高尔夫球的时间和
机会也就越多,特别是退休之后。很多研究人员在研究打高尔夫球与健康的关系
时都忽视了年龄这一变量,忽视了这样一个事实:打高尔夫球的人一般比不打高
尔夫球的人年龄要大。
所以说,并不是打高尔夫球导致了患上那些疾病,而是人已经步入衰老期,尤其是癌症和心脏病,这些疾病通常都是在这些人群中产生。而且,那些有条件
的常去的人对打高尔夫球是非常有兴趣的,常常乐此不疲。
如果将年龄这一变量放入分析中,我们可能会得出一番相反的结论 :在年龄
相近的人群中,常打高尔夫球对上面提到的严重疾病还能起到一定的改善作用。
(三)概率上的数字陷阱
概率论中也会出现由于遗漏相关变量而出错的情形。
假设你是一家大型航空公司的风险管理总监,你的助理对你说,跨越大西洋
航班的引擎出现故障的概率为 1100 000,由于这类航班的班次很多,因此这类
风险应该极力避免。但令人欣慰的是,每架航班都至少有 2 个引擎,2 个引擎都
出现故障的概率为 110 000 000 000。估计听完你助理的理论后,你就会让他收
4YK[XJOEE .051
第三章? 注意 :回归分析也有陷阱
拾东西回家了。
为什么呢?因为 2 个引擎发生故障不是互相独立的事件,假如飞机在起飞时
飞来一群天鹅,2 个引擎都会损坏。同样,其他的众多因素也可能会对飞机引擎
性能造成影响,比如天气变化、维护不当等。当一个引擎出现问题时,另一个引
擎出现问题的概率肯定远远大于 1100 000。
在 20 世纪 90 年代,英国检方由于没有意识到这一点,对概率使用不当,作
出了一次严重的司法误判。英国检方想当然地认为不同事件之间就如抛硬币一样
彼此独立,但却忽视了它们之间的联系,因为某个特定结果的出现可能增加与之
相类似的结果发生的可能性。
这一错误起源于一个名为“婴儿猝死综合征”(SIDS)的疾病,得了这种病
的婴儿,在表面看起来很健康的情况下会突然死亡。由于这一疾病很神秘,不容
易解释,因此引来了众多猜测和怀疑。
事件的起因是这样的。
1999 年年底,英国的所有媒体都疯狂般地报道一位冷血杀手——34 岁的
英国女律师萨利 · 克拉克。她被指控谋杀了自己的两个亲生孩子。她的第一个
孩子在三个月大时原因不明猝死。一年以后,第二个孩子也在两个月大时原因
不明猝死。
当时,医学界刚刚开始注意到SIDS的现象。
萨利的第一个儿子在尸检后就被确认为患有“婴儿猝死综合征”,但她第二
个孩子猝死时,医生在尸检时强烈怀疑这位母亲,于是举报了她。
指控方并没有直接的证据指控萨利犯有恶行。在两次婴儿猝死事件中,这位
母亲都是单独和婴儿在一起。在与婴儿的接触中,人们都表示,他们看上去都非
常健康活泼,看不出有受到虐待的迹象。
萨利是一名律师,家庭条件优越,金发碧眼,十分漂亮,工作、生活中处处
受人尊敬,实际上却很可能是亲手杀害自己两个孩子的冷血杀人狂。这样的社会
案件一般会更加吸引人们的兴趣。
由于人证、物证不足,参与萨利一案的 10 名陪审团成员只能通过听取一连
串的医学专家证人的证词来判断萨利是否有罪,但出庭的专家证人纷纷说出自己
的意见,没有达成一致。
按说这种局面对律师出身的萨利很有利,但非常不幸,她碰上了英国儿科权
4YK[XJOEE .
更多免费电子书搜索「雅书」 https:yabook.org052
数字陷阱
威罗伊· 梅铎。梅铎刚刚被女王封爵,名气和声望正如日中天,并且在统计研究
方面有很强的权威性。
梅铎爵士受英国政府委托,率领一支跨领域的团队,仔细研究了 44 000 多
个样本后刚刚完成了一项研究成果,正好运用到萨利案件上。法庭上,梅铎爵士
根据报告得出推论 :
一个家庭出现婴儿突然死亡综合征的概率是 18 543,但如果连续出现两起,概率则为 17 300 万。
梅铎爵士满头白发,气质彬彬,象征着权威。他在陪审团面前以不容置疑的
牛津口音,一字一句念出其专著《儿童虐待的基础知识》中的一句话 :一个死婴
是不幸 ;两个死婴很可疑 ;三个死婴就是谋杀!
《儿童虐待的基础知识》有这样的一个结论:尽管婴儿猝死综合征有家庭聚
集的现象并没有得到有效的证明,但儿童虐待案件却常常甚至总是与家庭因素有
关 :一个虐待过老大的母亲,很有可能会虐待老二、老三。
这一结论被称为“梅铎定律” ,在 20 世纪 90 年代对英国的检察机关和社会
工作机构产生了深远的影响:只要一个家庭有两个或以上婴儿猝死,社工和警方
都以“有罪推定”的方式处理:除非有其他证据证明,否则这些人都有极大的可
能虐待,甚至故意杀害自己的孩子。
他是这样推理的 :
假如全国婴儿出现兔唇的概率是 1100 000,那么你未出生的小宝宝出现兔
唇的概率也是 1100 000 ;假如一个人连续中了两次福彩双色球,一定存在猫腻;
假如一个犯罪现场的DNA和一个嫌疑犯的DNA基因库中的某个DNA样本匹配,而匹配的概率是 12 000 000的话,那么嫌疑犯的犯罪可能很大。
果真如此吗?
梅铎爵士多次以专家证人的身份出庭类似的案件,他的权威地位不容置疑,这可以决定案情的走向,而这次萨利也不例外。既然萨利和她的辩护团队无法拿
出萨利没有杀害婴儿的证据,那么萨利就是凶手!
萨利·克拉克的上诉被驳回。 但由于案情诡异, 再加上萨利的美貌和优渥出身,媒体进行了广泛报道,梅铎爵士的证词迅速得到学术领域的广泛关注。于是,一
个看似与之无关的专家群体也介入了萨利案。
英国皇家统计协会发表新闻声明,公开指责梅铎爵士的推理,认为他的每一
4YK[XJOEE .053
第三章? 注意 :回归分析也有陷阱
步推理都犯了统计学中的错误。在声明的最后,皇家统计协会甚至与老派英国机
构的外交辞令不同,说话不再给人留有余地,而是用斩钉截铁的口吻表示 :
虽然很多科学家都对统计学方法有所了解,但统计学仍然是一个专业领域。
皇家统计协会敦促法院经由统计学专家在法庭上使用统计学证据。
现在我们来看一看梅铎爵士犯了哪些统计学错误。
1.环境谬误——假设总体的概率就是个体的概率
比如,全国出现兔唇的概率是 1100 000,那么你的孩子出现兔唇的概率
也是 1100 000。但其实你的孩子出现兔唇的概率到底是 100% 还是 25%,或
者其他概率,是取决于你和你配偶的基因的,与全国人整体的发病率并没有
直接联系。
2.独立性谬误——需要证明独立性,却假设独立性先验存在
虽然概率计算本身不存在问题,但前提是一定要确保婴儿猝死事件是完全随
机的,相互之间没有任何未知联系。不过,由于医学家对这一病症还缺乏有效的
了解,同一家庭里两位婴儿先后猝死很有可能存在相关关系,比如基因等。
按照梅铎爵士的计算,假如一个家庭连续出现两起婴儿死亡的概率是
17 300 万,英国的历史上就应该显示,大约每 100 年才会有一起“一个家庭连
续出现两起婴儿猝死的案件”。
但就在萨利案宣判后几个星期,英国医学期刊刊登了一篇论文,上面的数据
显示,英国大约每年都会出现一起“一个家庭连续出现两起婴儿猝死”的案件。
更讽刺的是,梅铎爵士自己就曾在多次类似的案件中作为专家证人出庭作证。
3.检察官谬误
当 DNA 检测手段被大规模应用于刑侦工作中时,人们才注意到这一错误。
在早期 DNA 检测时,人们并不是对全基因组进行测序,而是采取片段比对
的方式。这时, DNA比对命中的概率大约是数万分之一。这样的概率肯定非常小,但当DNA 样本库足够大时,命中的概率就会非常大了。
我们假设 DNA 比对命中的概率是 110 000。当 DNA 样本库达到 20 000 个
样本时,任意一个DNA片段在这个样本库中命中的概率都是86%。这也不难理解:
4YK[XJOEE .
更多免费电子书搜索「雅书」 https:yabook.org054
数字陷阱
尽管每一个人抽中福彩大乐透的可能性是数百万分之一,但是,我们几乎每一期
都会开出中奖的用户。
梅铎爵士认为,一个家庭连续发生两起婴儿猝死的概率实在太低了,因此发
生这件事情的家庭就很可疑,这与因为中福彩大乐透的概率太低了,所以隔壁邻
居中了福彩大乐透就非常可疑是一样可笑的逻辑。
实际上,每一期彩票的数量那么多,总会有人中大奖。英国每年出生那么多
婴儿,总会有人遭遇“连续两个小孩猝死”的事件。20 世纪 90 年代初,英国和
美国的法庭都在多个判例中确认了“检察官谬误”的地位,对 DNA 证据的使用
进行了规定,但这些原则并没有在本次审判中使用。
这次争论终于让“杀婴事件”的案情得以逆转。最终,由于皇家统计协会的
报告,2003 年,萨利·克拉克赢得了第二次上诉。英国法庭鉴于这次事件的影响,又对 243 个类似案件进行了重新调查,到现在为止,至少有 4 起案件得到逆转。
但这一切对于萨利来说太迟了,这位可怜的母亲失去了两个孩子,还被当成杀人
恶魔,由于酗酒过度,在 2007 年死于家中,年仅 42 岁。
四、无关变量太多,结果无意义
有很多人认为,如果遗漏解释变量会带来不必要的麻烦,那在分析时加入大
量的解释变量是不是就能解决问题呢?答案是否定的。因为变量一多,超出一定
的量,尤其是无关变量太多,分析结果就会被稀释,从而失去统计意义。
为了很好地说明这一点,我们来看下面的这个例子。
一个班级约 40 人,每个学生都抛掷一枚硬币,结果是反面朝上的学生就要
退出,剩下的学生继续抛硬币,这样直到有一名学生一连五六次都抛出正面朝上
的结果。有的人会向这名“胜利者”提出一些搞笑的问题: “你是怎么坚持到最
后的?是不是手腕有技巧?你能不能教给我们怎样让正面一直朝上?是不是因为
你今天穿了某歌星的歌迷会服?”
抛硬币一直都是正面朝上,这显然是运气好,周围的学生都见证了这件事情。
可是统计学对此却有另外的看法。
概率论认为,连续5次抛出正面朝上的概率是132,比确定的推翻零假设的
4YK[XJOEE .055
第三章? 注意 :回归分析也有陷阱
概率 120 还要低。在这个例子中,我们的零假设是学生抛硬币不存在什么特殊
能力,但连续抛出5 次正面朝上的概率却推翻了零假设,这就说明备择假设成立,也就是说这名学生拥有抛硬币一直正面朝上的特殊能力。在结束这一活动之后,我们就可以从他身上寻找成功的诀窍了。可能是他抛硬币的动作,他受到过体育
锻炼,硬币抛到空中时他的注意力等,无关的解释变量太多了,显得非常荒唐。
统计学中有一个被大多数人普遍接受的惯例,在零假设成立的前提下,假
如某个概率小于或者等于 120 的事件真的发生了,那么,我们可以推翻零假设。
假如我们进行 20 次试验,或者在某次分析中加入了 20 个无关变量,我们就会得
出一个具有统计学意义的虚假结果。
医学研究一直以来都有一个黄金标准,也就是采取随机抽样的方法进行临床
试验。现在我们也该以怀疑的眼光来审视一下这个标准了。
医学研究中有一个不可见的秘密,很大的一部分原因是来自“发表性偏见”。
医学研究人员和医学杂志只注重关注那些振奋人心的发现,而忽视那些否定性的
发现,可能他们会发表唯一一篇结论为某药物有效治疗某疾病的论文,而选择性
地忽略另外 19 篇证明该药物无效的论文。研究人员可能会因为先入为主或者某
个肯定性发现对自己有利而存在有意无意的偏见。
由于种种原因,很多专家发表的研究后来被证明是不正确的。希腊一位医生
兼流行病学家曾对 3 本具有很高声望的医学杂志刊登的 49 篇研究论文做了统计,发现每一篇论文的研究发现都被至少转载了 1 000 次,但是有大概三分之一的结
果都被后来的研究推翻了。据这位医生观察,已出版的医学研究论文中,估计有
一半到最后会被证伪。
五、预测趋势胡乱分析,结果很可笑
当数据在数据图上看似合理地呈现时,看起来可以归纳出某些数据特征,但
这其中也许会存在数字的骗术。统计学家、经济学家或者科学家就算发现了数据
之间的关系,也不能肯定这种数据关系是否有真正的意义。数据图中的线或者公
式可能会表述出数据中的紧密联系,但也许实际上并没有实用价值。
2004 年,动物学家、地理学家和公共卫生专家曾在刊载于《自然》杂志上
4YK[XJOEE .
更多免费电子书搜索「雅书」 https:yabook.org056
数字陷阱
的研究报告上联合署名,他们对田径运动员在历届奥运会 100 米短跑项目上的成
绩做了研究,发现了一些显著的规律。
男运动员越跑越快,在这个项目上所费的时间越来越短,可以画出一条具有
下降趋势的直线来说明这个规律。女运动员同样如此,也可以画出一条具有下降
趋势的直线。
数据图上,男女运动员的成绩直线如果继续延伸,将会相交,也就是说,女
运动员的成绩会赶上并超过男运动员的成绩。科学家推断的时间是 2156 年。科
学家由此得出结论,女运动员将在 22 世纪中叶在短跑项目上比男运动员更快。
科学家还精确地指出,那一天会在 2064—2788 年出现。
不过,这样画线是不切实际的。如果继续将线延长,我们会很容易看到其
荒谬的一面。照这两条线的趋势,女运动员在 2224 年左右可以于 7 秒之内跑下
100 米,速度竟达到 32 英里 小时。她们或许可能会耍弄语言手段表示这是可
能实现的。照这样说,这两条线还能延伸下去,如果一直延伸,你会发现,到
2600 年,女运动员的速度能达到音速并超越它。这种趋势下去,她们的速度还
会超过光速。这如果可以实现的话,时光就会倒转,这些女运动员在开始比赛之
前就已经赢得比赛。这样分析以后,你还会觉得这两条线可以展示出真实的未来
趋势吗?其实,这只不过是对真实的错误解释。
虽然这两条线在最开始的时候令人信服,但它并没有显示出数据间的真正联
系。女运动员由于求胜心切,会在很短时间内竭尽全力参加比赛,所以短期内成
绩上升得比男运动员要快。可是当运动员逐渐成熟以后,提升速度会变得越来越
慢,增长趋势就会放缓,直至趋于最高水平。由于运动员都达到了各自的身体极
限,提升也就终止了,线条不再呈现上升趋势,而是变为水平线。
既然是水平线,那么这两条线就永远不会交叉,也就是说,女运动员的最佳
成绩可能会在多年以后与男运动员的成绩接近,但不会超过。这是由自然法则决
定的。
这份杂志早在之前就已经在这种愚蠢的预测上栽过跟头了。
1992 年,两位生理学家研究了男女长跑运动员的比赛成绩,并画出了数据
曲线。他们最后得出结论,女运动员的成绩会在 1998 年超越男运动员,到那时,她们的最佳成绩会是 2 小时 1 分 59 秒。但后来的实际情况却出乎他们的意料。
2000 年悉尼奥运会的马拉松比赛,女运动员的金牌得主成绩只有 2 小时 23 分
4YK[XJOEE .057
第三章? 注意 :回归分析也有陷阱
14秒,比男运动员金牌得主慢 13 分钟。
画一条线,建立一个公式,描述数据之间的规律,这样做虽然看着容易,但
没有实际价值。这些数据看起来令人信服,但要真的用来预测实际事物,就完全
无效了。但尽管这样,好多科学家、经济学家等都在难以置信地,有意或无意地
使用着这种数字骗术。
这是随意进行回归分析,结果毫无意义,就像疯子似的呓语。看来我们要
正确地使用这个工具,运用它强有力的技能,在规定的数集范围内找出一定的
规律。
4YK[XJOEE .
更多免费电子书搜索「雅书」 https:yabook.org4YK[XJOEE .第四章
统计调查,数字陷阱的重灾区
4YK[XJOEE .
更多免费电子书搜索「雅书」 https:yabook.org4YK[XJOEE .数据在统计调查中十分重要,因为统计调查的结果最终是要用数据
来呈现的。但是统计调查的数据会在收集的过程中掺水,或者是样本质
量出现问题,导致统计结果并不都是如实反映真实情况。何况,统计调
查数据还会为人所用,成为其盈利的工具。
一、样本数据不足,离正确结论失之千里
大量用户反映,使用 ××× 牌牙膏将使蛀牙减少 23%!
这是一则广告的大字标题,足以让你印象深刻,历历在目。你如果患有蛀牙,肯定希望减少 23%的痛苦,于是就会接着往下读。这则广告称这些结论出自一
家具备极高声望的实验室(尽管你并未听说过),并且还经注册会计师证明,比
如此具有权威性,你还能对这些数据产生怀疑吗?
但生活的经验告诉你,牙膏之间的差别其实是微乎其微的。那么,这家公司
是如何得出如上结论的呢?它们是否在说谎,又如何逃避责任呢?其实,它们有
一个非常简单有效的方法既让读者上当,又使自己并没有说谎。
秘诀就是不充分样本,也就是统计角度的不充分。其实,样本用户只有12 人,它用小字将这点内容披露了出来。有的广告商比这家公司还要坏,索性将类似的
文字略去,让读者一头雾水,哪怕你是再精明的统计学家也会疑惑 :这里面到底
玩了什么把戏?
4YK[XJOEE .
更多免费电子书搜索「雅书」 https:yabook.org062
数字陷阱
一款名为“可尼斯博士”的牙粉上市,在宣传语中声称“在治疗臼齿方面获
得了极大的成功” 。理由是 :该牙粉中含有尿素,经过实验室证明,尿素对于治
疗臼齿有极大功效。但该实验室的结论只建立在 6 个样本用户上,根本不具备说
服力。
下面让我们回头看看,××× 公司是怎样获得这样一个没有漏洞而且经得
住检验的标题的。
让一组人在六个月的时间内每日记录蛀牙数,然后使用该牙膏产品。试验结
果只会有三种:蛀牙增多,蛀牙减少,蛀牙数量不变。假如发生了第一种和第三
种结果,那么该公司就可记录下这些数字并将其藏匿,然后重新实验,等到有一
组数据证明蛀牙明显减少,并且该数据足以好到作为标题即可。但不管实验者使
用的是该品牌牙膏还是苏打粉或者原来的品牌,上述结果都有可能会发生。
该公司为什么喜欢使用小样本呢?因为在大样本的使用中,任何由于机遇产
生的差异都是微不足道的,不足以作为广告标题。比方说, “蛀牙减少 2%”将
不会对销量有多大的提升作用。
小样本是如何利用机遇产生一个没有作用的结果的呢?成本极少,你自己也
可以试一试。比如抛一枚硬币,有一半的次数是头像朝上,这种概率谁都知道。
那让我们检验一下吧。我试着抛了十次,结果是八次头像朝上,这证明头
像以 80%的概率朝上。现在你自己试一下,也许你抛出的结果是头像 5 次朝上 5
次朝下,但也可能是其他结果,如果你足够耐心,抛上 100 次,差不多是 50 对
50 的比例,这才代表着真实的概率。概率只有在大量实验之后才能有效用于预
测和描述事物。
有研究人员曾做过一项关于小儿麻痹症疫苗的实验。他们给 450 名儿童接种
了疫苗, 而另外680名儿童则没有接种疫苗。 单纯从数字上来看, 这个实验不算小。
可当不久以后该区域感染流行病时,接种疫苗的儿童和没有接种疫苗的儿童
都没有患上小儿麻痹症。
其实,在最开始设计这个实验时,研究人员忽略了该病的低发生率。如此低
的发生率,在这种规模的样本中一般只会产生 2 名患者。因此,实验从一开始就
注定要失败。只有数据量达到这次实验数据量的 15 ? 20 倍时也许才能产生足以
解释某些事物的结果。
那么我们该如何避免被不科学的结论愚弄呢?难道要我们所有人都成为统计
4YK[XJOEE .063
第四章? 统计调查,数字陷阱的重灾区
专家,亲自检验一下数据吗?并没有那么麻烦。我们有一种非常简单的用于检验
显著性的方法。它是用来反映实验数据代表实际结论的可能性的,而不是代表由
于机遇产生的结论。这便是那些没有透露的数据,如果掌握了这个方法,你便能
看清其中的企图。
如果显著程度在某条信息中被提供,将会使你对它有更深刻的了解。显著程
度通常用概率表示,比如,普查局以 19 20 的概率保证它们的结果是正确的。
在通常情况下,5%的误差水平是最低要求,有时需要更精确的 1%的误差水平,这就意味着以 99%的概率保证该结果是真实的,任何类似的事情“实践上是几
乎确定”的。
还有另一类没有透露的数据,它的遗漏也同样具有破坏性。这是表明事物整
体范围的全距和与平均数偏离水平的数据。在通常情况下,平均数(不管是否指
明均值或中位数)都由于过于简单而导致无用。对实际情况一无所知通常要比获
取错误信息好得多,但有时知之甚少也十分危险。
现在美国的许多房产都是为了满足统计学上的平均家庭,即 3.6 人的家庭,用现实的语言说是 3 个人或 4 个人,即两个卧室的房屋。这种规模的家庭,虽然
是“平均”的,实际上却只代表了一小部分家庭。“我们为平均家庭建造一般规
格的房屋。”制造商在这样说的同时,却忽略了具有更多人口或更少人口的大部
分家庭。这样的后果是,一些地区大量重复建设两个卧室的房子,而低估了其他
规模的需求。这是不完全信息的统计资料造成巨大浪费的实例。
在看到这么有说服力且权威的 3.6 人时,人们往往忽略了常识。它在一定程
度上战胜了人们观察得到的事实,即许多家庭规模比这个家庭规模要小,还有相
当一部分比它要大。
假设一对父母在《星期天》图画副刊等地方读到“孩子”将在某月学会坐直
的内容时,他们立刻会联想到自己的孩子。如果恰恰他们的孩子在该月不能坐直,父母一定会得出结论 :自己的孩子智力低下、不太正常或这很不公平等。既然一
半的孩子在那时都坐不直,那就会有一半的家长将为此苦恼。当然,就数学的角
度而言,这些不快将与另一半聪明孩子的家长的愉悦互相平衡。当不开心的家长
做出种种努力使孩子与标准一致时,产生的危害将无法弥补。
错误出在研究者经过耸人听闻或消息不灵通的作者向读者传递信息的筛选
过程中,而读者又没有发现这个过程中所遗漏的数据。如果能给“准则”或者
4YK[XJOEE .
更多免费电子书搜索「雅书」 https:yabook.org064
数字陷阱
平均数加上反映全体范围的指标,那许多误会将消除。当发现自己的孩子属于
正常范畴时,父母将排除由微小和无意义的差异而引起的担心。无论如何几乎
没有人是正常的,就如同抛 l00 次硬币,几乎很难出现 50 个正面和 50 个反面
的情况。
将“正常的”与“期望的”混为一谈导致事情变得更糟。这则关于孩子坐直
的内容仅仅描述了一些通过观察得到的事实,这使得那些阅读书籍和文章的父母
错下结论 :晚一天或晚一个月学会坐直的孩子是低能儿。
让我们再举一个遗漏样本的例子。有时并不是数据本身说谎,而是我们没有
注意到那些沉默的数据。
第二次世界大战时,英国皇家空军邀请美国的统计学家分析德国地面炮火击
中联军轰炸机的资料,并且从专业的角度建议机体装甲应该如何加强,以便降低
被炮火击落的概率。但依照当时的航空技术,机体装甲只能局部加强,否则机体
过重,会导致起飞困难及操控迟钝。
统计学家将联军轰炸机的弹着点资料,描绘成两张比较表,研究发现,机翼
是最容易被击中的部位,而飞行员的座舱与机尾,则是最少被击中的部位。
作战指挥官由此认为,应该加强机翼的防护,因为分析表明,那里“密密
麻麻都是弹孔,最容易被击中” 。但是统计学家却有不同观点,他建议加强座舱
与机尾部位的装甲,那儿最少发现弹孔——因为他的统计样本是联军返航的受损
飞机,说明大多数被击中飞行员座舱和尾部发动机的飞机,根本没来得及返航就
坠毁了。
所以,分析者要有足够广阔的视角和逻辑,才能在数据里挖掘出更多正确的
事物,为你服务。
二、资料不匹配,何谈正确结论
假如你想说明某件事情是对的,但你知道并没有能力去证明它,那么你可以
尝试着解释其他事情,并且假装认为它们是同一件事情。在统计资料中,人们的
思维大多不会觉察到这两者的区别。这就是不相匹配的数据,它可以为你保持有
利位置,并且常常奏效。
4YK[XJOEE .065
第四章? 统计调查,数字陷阱的重灾区
(一)媒体的不匹配数据
《本周》杂志刊登了一篇探讨驾驶安全的文章,这篇文章的内容肯定会激发
你的阅读兴趣。
文章称 :“如果你开车以每小时 70 英里的速度疾驶在高速公路上,当时间是
早上 7 点时,你生还的机会将是晚上 7 点的 4 倍,因为晚上 7 点发生的灾难是早
上 7 点的 4 倍。”文章中提到的证据基本上是正确的,但证据似乎并不能证明提
出的论点。晚上的车祸比早上多,那只是因为晚上有更多的车和人在高速公路上。
如果照他这样的荒谬逻辑来推算的话,天气晴朗时驾车比有雾时要危险得多,因
为晴天比雾天多,所以天气晴朗时会有更多的交通意外。但根据生活常识来看,我们都知道有雾会让驾车变得更危险。
在媒体上看到交通事故的报道时,如果我们不清楚它们是不相匹配的数据,那么我们很可能被很多交通事故的记录吓得够呛。
有这样一则事故报道 :“去年飞机失事导致的人员死亡数比 1910 年多出数
倍”,难道这就意味着现在乘飞机要比以前危险得多吗?大错特错,因为现在乘
坐飞机的人数与之前相比差的何止是几百倍了。
媒体报道,×××× 年,死于火车交通事故的人数超过 4 000 人。人们在看
到这样的消息时肯定会对火车的安全问题加以重视,很有可能减少乘坐火车的频
次,而宁愿自己开车。但如果你深入了解一下你就会发现完全相反的结论。这些
交通事故中,将近96%的人是那些驾驶汽车在路口与铁路相交处同火车相撞的人。
也就是说,只有 160 人是火车上的乘客。而且,除非将这个数据与总旅客路程数
相结合,否则 160人也不能直接用于比较。
如果你即将出门远行,这是一趟穿越全国各地的长途跋涉,而你又十分关心
旅途的安全,你可能会询问坐火车、飞机或者汽车哪种交通方式更安全,哪种交
通方式的交通事故数少。其实,你这样根据事故数来判断危险性的方法是不正确
的。你应该询问每 100 万个乘客中的遇难人数,然后再计算比例,通过比较这些
比例,你才能知道最大的危险所在。
英国政府 2015 年开始同意让父亲和母亲共休产假。但一年后的统计数据却
显示,只有 1% 的父亲选择了休假。BBC、《卫报》等各大媒体报道之后引发强
烈社会反响。真的是这样吗?原来,这个“1%”,其基数并不是有资格休假的父
4YK[XJOEE .
更多免费电子书搜索「雅书」 https:yabook.org066
数字陷阱
亲人数,而是所有男性人数。有人指出,如果这么算,即使当年所有新生父亲都
选择休假,调查得到的数字也只不过是 5%。
(二)广告中的不匹配数据
商家有时并不能确保他所出售的医药秘方能够治疗你的感冒症状,但他可能
会用大字标题在报纸上刊登一篇非常具有冲击力的实验报告,声称在 11 秒内该
药只需半盎司就能够杀死试管中的31 108个细菌, 而且这家实验室是非常有名的,上面有一个家喻户晓或者令人印象深刻的名字,旁边还有一个白大褂医生的肖像
或照片。
他们不会告诉你们这里面的小把戏,而且也不会指出试管中的抗菌剂在喉咙
里根本就不发挥作用,特别是为了药物不灼伤喉咙特意进行了稀释以后。他们更
不会为你们透露杀死了哪些细菌。其实,哪种细菌导致你感冒了呢?又或者感冒
可能根本与这种细菌无关?
其实那些细菌与感冒到底有无联系是很难确定的,尤其是患者在流着鼻涕、不停咳嗽的情况下,谁会在意这个问题?
当然,你可能会觉得这个例子太绝对了,很容易看出其中的破绽。但是,不
匹配的资料一般情况下不会以这种面貌出现的。更高明的手法有的是,请你睁大
眼睛往下瞧。
电动榨汁机在最初发明出来的时候,它的广告随处可见。广告称: “经过实
验室证明,这种榨汁机的榨汁功能增强了 26%,得到了某著名家政研究机构的
推荐。 ”听起来的确不错。如果你拥有这样一台功能增强 26%的榨汁机,你还有
什么理由去买别的榨汁机?但是,现在我暂且不论实验室的实验是什么,能够证
明什么,我们只是看看根据这个数据能得到怎样的结论。广告中称榨汁机功能增
强了 26%,那它是与什么做比较呢?如果只是与一台老旧的手摇榨汁机作对比
的话,恐怕人们就不会那么积极地去掏钱购买了,因为说不准它是市场上最差的
一种榨汁机。这个数字除了非常精确,让人在最开始有一种很兴奋的消费冲动以
外是毫无意义的。
4YK[XJOEE .067
第四章? 统计调查,数字陷阱的重灾区
(三)医学上的不匹配数据
许多统计资料,包括那些对人们十分重要的医学资料,由于与原始数据不符
的报道而被扭曲。在一些棘手的问题上,例如,流产、非法出生、梅毒,存在十
分惊人的矛盾数据。你可能会对某一时期流感的问题很感兴趣,并从中发现一定
的结论 :这类疾病几乎只出现在南方的 3 个省,占据病历资料的 80%。但比例
如此之高的真正原因是 :目前只有这 3 个省仍保留着对此类疾病的记录,其他省
早已经销毁了这一记录。
在美国南部地区,1940 年以前有成千上万的疟疾病例,而今天只有极少例,这似乎表明对于疟疾的治疗在近几年发生了有益并且巨大的进步。但实际上,目
前只有在确诊后才进行记录 ;而在以前,疟疾是美国南方许多人用以表示感冒或
者着凉的一句方言。这跟我国很多地区把伤风感冒说成中风是一样的道理。
在美国与西班牙交战期间,美国海军的死亡率是 9‰,而同时期纽约市居民
的死亡率是 16‰。后来海军征兵人员就用这些数据来证明参军更安全。如果假
定这些数据是正确的,那么促使这种差异产生的真正原因是什么?海军征兵人员
根据两个数据的差异得出的结论是否正确?
这两组对象是不可比的。海军主要由那些体格健壮的年轻人组成,而城市居
民包括婴儿、老人、病人,他们无论在哪儿都有较高的死亡率。这些数据根本不
能说明符合参军标准的人在海军会比在其他地方有更高的存活机会,相反的结论
也不能证明。
你也许听说过这个令人沮丧的新闻 :“1952 年是美国医学史上的小儿麻痹症
年”,这个说法基于该年有多于往年的病例。
但如果专家进一步斟酌这些数据,就会发现一些令人鼓舞的事情。
首先,1952 年有更多处于易感染期的孩子,就算发病率保持不变,也会有
更多的患者。
其次,人们对小儿麻痹症认识的加深,导致更多病人到医院进行诊断和轻微
发病记录的增多。
最后,当年有增加的经济刺激,即增加的小儿麻痹症保险以及从国家婴儿麻
痹基金获得更多的帮助。所有这些都是对小儿麻痹症达到新高的质疑,而且当年
的死亡人数也肯定了我们的怀疑。
4YK[XJOEE .
更多免费电子书搜索「雅书」 https:yabook.org068
数字陷阱
这是一个有趣的事实,在考虑某种疾病的发病情况时,使用死亡率或者死亡
人数比发病人数更合理,这是因为死亡报道和死亡记录的质量更高。在此例中,明显不相匹配的数据比表面上完全匹配的数据还要好。
(四)公司运营中的不匹配数据
将某一种资料说成另一种样子,这种“挂羊头,卖狗肉”的行为在生活中还
有许多其他的形式。最普遍的做法是将看上去极像,而完全不同的两件事混淆在
一起。
如果你想搜寻这种不相匹配的数据,那么在公司的财务公报中,你将大有收
获。你要注意那些看起来很大的利润或者掩盖在其他名目下的利润。
某家公司的财务公报显示,×××× 年该公司赢利 3 500 万美元,即销售 1
美元的产品获得 1.5 美分的利润。可能你会觉得这家公司的盈利很低,真是太不
幸了。假如公司厕所的一个灯泡烧坏了,需要花 30 美分更换,于是 20 美元销售
额的利润就这样没了。
其实,财务公报中的利润仅是实际利润的一半或三分之一,没有报道的利润
隐藏在贬值、特殊贬值名目下以应付将来的紧急情况。
百分数同样可以掩盖某种真实的数据。最近 9 个月内,某汽车公司一直公开
自己的税后利润率为 12.6%,但同期该公司的投资利润率竟高达44. 8%。其实公
司的利润非常高,但它不会把所有真实的数据都公开的。
《琴师》杂志的一位读者反映,AP 商店公布的销售净利润只有 1%,也就
是说每1 000美元的投资只有10美元左右的利润, 该公司应该是在进行自我保护,它们害怕公司被误认为是奸商。
如果将该比率与 FHA 抵押利率或者银行贷款利率相比,肯定是很少,因为
前者的比率是 4%? 6%甚至更高。是不是说 AP 商店从此退出百货行业,将它
的资金存入银行,然后依靠利率过活会更好些?
但投资回报率与销售总收益可不是一回事。该杂志的一位读者解释道 :如果
我每天早上以 99 美分购进一件商品,并在中午以 1 美元卖出,那我只获得 1%
的收益,但是全年我却获得了投资额的 365%。
在描述同一个数据时有不同的方法。比如说, 你可以将相同的事情表述为1%
4YK[XJOEE .069
第四章? 统计调查,数字陷阱的重灾区
的销售利润率,15%的投资回收率,1 000 万美元的利润 ;利润上升 40%,或者
与去年相比下降了 60%。选择一个目前最有利于你的说法,而且读到这个数据
的人中,极少有人会对它的真实性表示怀疑。
在美国,不相匹配的数据每 4 年便会出现一个兴盛期,这并非因为这种数据
存在自然波动的特性,而是因为每 4 年有一场竞选。1948 年 10 月共和党发表的
竞选纲领完全建立在看似相互联系但实际上却毫无关联的数据之上 :
1942 年杜威当选州长时,一些地区教师的最低年收入只有 900 美元。在杜
威政府的建议下,由杜威指定的委员会的表决,立法机构于 1947 年从州财政盈
余中拨出 3 200 万美元直接用于提高教师收入水平,这使得纽约市教师最低收入
水平提高到 2 500? 5 323 美元。
也许,杜威先生想借此表明自己是教师的朋友,但是这些数据并不能证明这
一点。这里使用了前后比较的老把戏,一些没有指明的因素加入到过程中,导致
前后并不一致。以前只有 900 美元,而现在是 2 500 ? 5 325 美元,的确有了长
足的进步。但实际上,前者是该州乡村地区的最低收入,而后者仅仅是纽约市的
最低收入水平。这些进步只能部分归功于杜威政府。
三、样本选取错误,系统误差不可避免
《纽约太阳报》的某篇报道曾称:“1924 级的耶鲁毕业生平均年收入有 25 111
美元。”《时代》杂志评论道 :“哇,他们干得可真不错!”
可是等一等,这个令人印象深刻的数据到底意味着什么?是否像表面看到的
那样,足以证明如果你把你的孩子送进耶鲁大学,那么在老年时你就不用辛苦地
上班,甚至他年老时也不用上班 ?
在充满怀疑的惊鸿一瞥后,我们发现这个数据有两点可疑之处 :它惊人地精
确 ;它大得令人难以置信。
任何一群分布很广的人其平均收入都不太可能精确到以元为单位。就算是
自己去年的收入,除非全部来自薪水,否则也很难知道得如此准确。对于年收入
4YK[XJOEE .
更多免费电子书搜索「雅书」 https:yabook.org070
数字陷阱
25 000 美元的阶层而言,多种投资渠道使得收入不可能完全来自薪水。
毫无疑问,这个可爱的平均数出自耶鲁人之口。即使 1924 年他们在纽哈芬
接受过良好的教育,也很难保证四分之一个世纪后,他们还能坚持说真话。当问
及收入时,有些人出于虚荣或天生乐观而夸大数据 ;有些人却故意缩小数字,特
别当涉及计征所得税问题时,往往会犹豫不决,生怕与其他文件填报的数据不符,谁知道税务员又看到了什么?也许存在两种趋势——夸大与缩小将相互抵消,但
这种可能性极小。一般而言,一种趋势总会强于另一种趋势,但我们无从猜测哪
种趋势较强。
常识告诉我们,单凭某一数据很难反映实情,这是我们得到的结论。那些实
际收入也许只有 25 111 美元一半的人们最终会“有”如此高的平均收入,最大
的误差来源在哪儿?接下来,让我们来揭开这神秘的面纱。
这是一个抽样过程。在你所遇到各种各样的课题中,大部分统计问题的核心
便是抽样。抽样的原理本身很简单, 但实践中对其进行的加工导致了许多副产品,有些是不正确的。举个例子,如果你有一桶豆子,有红色、有白色,那么,红色
的豆子占比到底有多少呢?解决的办法只有一种:数豆子。然而,用一种更简单
的方法,你也可以得到红豆数目的近似结果: 抓一把豆子,计算其中红豆的比例,这把豆子中红豆的比例与一桶的比例基本相同。
因此,这个收入数据是建立在一个由能够取得联系并愿意回答问卷的耶鲁学
生组成的样本之上的。那么,这个样本具有代表性吗?也就是说,能否假设这个
样本与样本未被包括的人具有同样的收入水平?
那些在耶鲁大学毕业生通讯录上被注明“地址不详”的迷路小羔羊是谁呢 ?
他们是高收入阶层吗?他们是华尔街的金融家、公司领导层?还是制造企业或公
用事业的执行总裁?不,富人的地址是不难找到的。这个班级最富有的人,即使
忽略了与校友办公室联系,他们的地址也可以通过查 ......
您现在查看是摘要介绍页, 详见PDF附件(6782KB,175页)。





