如何用数据解决实际问题.pdf
http://www.100md.com
2020年1月17日
![]() |
| 第1页 |
![]() |
| 第20页 |
![]() |
| 第29页 |
![]() |
| 第42页 |
![]() |
| 第174页 |
参见附件(5977KB,245页)。
如何用数据解决实际问题,这是一本关于用数据来正面且解决实际的问题书籍,全书共分为5个章节,作者详细的介绍了数据解决问题的方法,让你能够更有说话权。

如何用数据解决实际问题简介
数据真的有用吗?如何从庞杂的数据中提取对自己有用的信息?如何厘清多种数据关系,锁定问题的关键?如何用数据呈现客观事实,使自己的观点更富逻辑和说服力?
用数据解决实际问题的能力,已经成为大数据时代人人必备的硬实力之一。本书摒弃了复杂的统计学原理和数学公式,紧密贴合多种工作场景,介绍了一整套简单实用又立竿见影的方法和流程。根据本书的方法,即使没有专业背景,也能轻松实现数据分析与解决问题的完美融合。
如果你想发挥数据的优势,想用数据传达重要信息、创造更多价值,本书可以助你一臂之力,帮助你提升竞争力,获得话语权!
如何用数据解决实际问题作者
著者简介
柏木吉基,日本数据分析实战专家及zi深培训师,数据&故事公司总裁。
毕业于庆应义塾大学,后在美国获得MBA学位。曾在日产公司工作十余载,专门负责为高端决策层提供参考和支持,他独创的数据分析工具受到全球总裁首肯,在实际工作中取得了卓越业绩。
柏木吉基先生主张用最基本方法分析数据,通过具有内在逻辑的故事展现解决问题的过程。他于2014年创立数据&故事公司,为诸多日本诸多企业和地方政府提供高水平的数据分析培训,其方法因简单实用和卓见成效而广受好评。
译者简介
赵媛,毕业于天津外国语大学,后来获得大阪产业大学经营学硕士学位,在日资企业工作多年,擅长工作场景中的日语翻译。
如何用数据解决实际问题目录
第1章 解决问题,你需要“流程”
第壹个重点是“划定范围”
从锁定原因到研究对策
开始之前的准备工作
数据分析需要“假设”
用框架来查缺补漏
开端决定了结论的质量
开始以后很难再扩大视野
思考问题之“外”的问题
「解决问题的故事1」
问题:汽车销量下滑,怎么办?
第壹步:明确计划与现实之间的差距
第2章 分解数据,找到“问题的关键”
“趋势”视点和“快照”视点
“WHAT 型假设”
表示大小的“平均值”
“好用”背后的陷阱
平均值不能代表总体
了解“中位数”
“油炸豆腐”和“天妇罗面渣”,哪个更好吃
平均值所掩盖的真相
乌冬面和荞麦面的教训
用“波动”的视点给平均值做补充
标准差为什么“用不上”
“变异系数”的魅力
视觉也是“感觉”
「解决问题的故事2」
第2步:“分解”数据,锁定问题的关键
第3章 采用交叉视点,锁定“原因”
表示二者关系的“相关系数”
Excel 的小妙招
锁定原因也需要“假设”
相关系数的四大优势
找到相关分析的着眼点
奖金被用到哪里了
用Excel 加载项进行批量分析
利用矩阵排列优先顺序
不要随便编故事
「解决问题的故事3」
第三步:建立WHY 型假设,关注影响客户忠诚度的要素
第4章 制定对策,要依据“方程式”
10秒钟完成一元回归分析
关注相关系数的平方
注意事项及应用事例
看相关系数还是看斜率
「解决问题的故事4」
第四步:通过一元回归分析,发现车型B 和车型C 的不同问题
第5章 用数据讲故事
解决问题的故事
把解决问题的过程展现出来
在组织中使用数据的价值与难点
你能用数字推翻众人的理解吗
更上一层楼(高级技能简介)
如何用数据解决实际问题截图


如何用数据
解决实际问题
[日]柏木吉基 著;赵媛 译
网址:
小编自己做了一个电子书下载网站, APP电子版制作与发行
本书由后浪出版咨询有限责任公司授权得到
ISBN:9787210104346
出版时间:2018年8月
出版社:江西人民出版社·后浪
作者:【日】柏木吉基
书名:如何用数据解决实际问题
COPYRIGHT
序章 我在日产学到了什么
让戈恩社长点头称赞的管理工具
给出“答案”的期限是 3~4 个月
如何在实际工作中使用数据
第 1 章 解决问题,你需要“流程”
第一个重点是“划定范围”
从锁定原因到研究对策
开始之前的准备工作
数据分析需要“假设”
用框架来查缺补漏
开端决定了结论的质量
开始以后很难再扩大视野
思考问题之“外”的问题
「解决问题的故事 1」
第 2 章 分解数据,找到“问题的关键”
“趋势”视点和“快照”视点
“WHAT 型假设”
表示大小的“平均值”
“好用”背后的陷阱
平均值不能代表总体
了解“中位数”
“油炸豆腐”和“天妇罗面渣”,哪个更好吃
平均值所掩盖的真相
乌冬面和荞麦面的教训
用“波动”的视点给平均值做补充
标准差为什么“用不上”
“变异系数”的魅力
视觉也是“感觉”
「解决问题的故事 2」
第 3 章 采用交叉视点,锁定“原因”
表示二者关系的“相关系数”
Excel 的小妙招
锁定原因也需要“假设”
相关系数的四大优势
找到相关分析的着眼点
奖金被用到哪里了
用 Excel 加载项进行批量分析
利用矩阵排列优先顺序
不要随便编故事
「解决问题的故事 3」
第 4 章 制定对策,要依据“方程式”
10 秒钟完成一元回归分析
关注相关系数的平方
注意事项及应用事例
看相关系数还是看斜率
「解决问题的故事 4」第 5 章 用数据讲故事
解决问题的故事
把解决问题的过程展现出来
在组织中使用数据的价值与难点
你能用数字推翻众人的理解吗
更上一层楼(高级技能简介)
后 记
出版后记 序章
我在日产学到了什么解决实际业务或者管理中的问题是商务人士
每天都要面对的必修功课。或者不妨说,商务人
士的工作就是要解决各种各样的问题。其中大概
有很多人依靠过去累积的知识或直觉解决眼前的
问题。但是,请考虑下面这两个问题:
以前的经验今后也会畅通无阻吗?
自己所见的范围和经验没有局限性吗?
关于第一个问题,不难想象,在瞬息万变、新事物层出不穷的当今社会,已经无法仅凭个人
或组织的既往经验来判断和解决所有的问题。至
于第二个问题,很明显,随着全球化的发展,业
务逐渐走向多元化,并不断扩大,从业务的整体
来看,个人所能掌握的知识是极其有限的。
我在日产汽车公司的全球总部工作了大约 11
年。最初的 6 年,我隶属于掌管海外市场的营销
和销售部门,主要工作是通过“数据”来把握所负
责国家的销售业绩、当地子公司的经营状况等无法亲自确认的情况,然后根据业绩数据来预测将
来,制定预算和计划。
在此期间,日产公司的总部进一步实现了全
球化发展,公司里可以看到来自各个国家的面
孔,外籍员工的人数与日俱增。在这种情形下,如果部门中资历较老的日本人仅凭自己的直觉或
经验发表意见,有时就会被视为过于“主观”,甚
至被外籍高管置之不理。
因为是中途转行加入日产公司,我不太会受
到过去的条条框框或陈规旧矩的束缚,并且一直
有意识地思考,作为半路入行者应该如何为公司
创造价值,自己有哪些不同于为公司效力二三十年
的老员工的新价值。
我的具体做法是,结合自己所擅长的数字和
逻辑,从外部的视角出发,深入挖掘公司及海外
市场的数据和信息,反复尝试,直至找出能让自
己信服的解释或故事。
让戈恩社长点头称赞的管理工具
当然,并非所有的尝试都能达到预期的效
果。不过,在这个过程中,我也发现了一些工作
十几年、二十几年的老员工都未曾察觉的问题或
事实。我用简单易懂的方式将这些问题展现出
来,既实现了自身的价值,赢得对方的信赖,同
时也自然而然地为自己找到了立足之地。高层管理者能否客观地把握全球的业务状
况,迅速采取适当的行动,这直接左右着公司的
经营。我通过当时的直属上司,将自己开发的管
理工具和机制提交给日产 CEO 卡洛斯?戈恩先
生。这个工具能够按照相同的指标,对除日、美、欧之外的 120 个国家或地区的销售及经营状
况进行客观的数据管理,从而帮助经营者在俯瞰
全局的基础上采取适当的措施。而在这之前,一
般都是由各地区的负责部门按照各自标准来评价
其经营状况,各自采取他们认为必要的措施。
这样不仅无法掌握各地区的判断和措施是否
适当,经营者也无法掌握涵盖所有市场的整体情
况。因此我决定要深入探究这个问题。
我的想法和思路能够以符合逻辑的数据形式
展现出来,因此得到采纳,成为后来的管理工具
之一。后来,我成为第一位运用该工具工作的管
理者,使它走上常规应用的轨道。通过这段经
历,我体会到运用数据来客观地把握和评价现状
的重要性及其对公司管理的影响,并认识到逻辑
和数字能够在向对方传递信息时发挥重要作用。
这为我解决各种问题奠定了基础。
后来,作为公司的内部咨询师,我在专门为
戈恩社长以及各部门高层管理者解决管理和实际
业务问题的团队度过了 4 年时光。不同于外聘咨
询师,我们肩负着参与公司内部政治、提出方案并推动执行、与相关部门构建人际关系等重要责
任,是非常值得挑战的岗位。
给出“答案”的期限是 3~4 个月
无论哪个部门的问题,一般都必须在 3~4
个月的短时间内给出答案。大多数情况下,我都
需要与相关部门的关键人物一起,推动团队得出
结论。
这些结论当然是要呈报给 CEO 和(以外国
人为主的)高层管理者的。对有些领域(例如商
品企划)的问题,我并没有直接从事相关业务的
实际经验,但仍然需要在期限内做出客观的数据
分析,并提出合理的建议。因为根本没有“过去
的经验”,所以为了获得高层管理者的认可,我
只能逐一确认客观事实,并用环环相扣的故事把
数据统一到一起。
在客观事实当中,只有数据(数字)对任何
国籍、职业经历或语言背景的人都能发挥威力。
不过当然不能只把业绩数据做成图表就直接提交
上去,必须用客观的、合乎逻辑的方式证明“为
什么会这样”“为什么说这样不好”,才能让对方接
受“那么需要怎么做”。
例如在海外设立新公司、大规模重组、彻底
改变业务流程等,这些左右公司命运的重大决
策,是怎样在最高层经营会议上提出来的呢?缺乏事实和逻辑根据的方案在提交给 CEO 之前,根本就无法获得相关部门高管的批准。任何项目
的方案都必须满足一个最基本的条件,那就是首
先要得到相关部门高管的认可,让他们觉得“这
个内容可以接受,而且也足够简单易懂,能向
CEO 解释清楚”。
如果缺少任何人都能看懂的“数据”,没有能
说得通的“故事”,方案就无法在有限的时间内获
得批准。如果仅凭一时灵感或者主观偏见,导致
内容与事实相悖,或者提示了错误的方向,则可
能造成严重的后果,包括相关的人际关系等都会
变得难以收拾。尤其是在很多项目中,各部门的
责任范围都非常明确,各领域之间存在着对立的
利害关系。因此我需要一些技巧,保证内容必须
符合事实,而且不能作为个人的意见来阐述,而
是要让数字或数据来“说话”。
我并没有可以适用于任何情形的方法。不过
得出结论的过程以及数据的着眼点、基本的分析
方法等并不局限于特定的部门或问题。这些最基
础的部分就像计算机的操作系统,能通用于很多
解决问题的项目。
复杂的管理问题不一定需要高难度的统计方
法。简单易懂的表达方式反而更为重要。虽然也
有很少一部分项目完全不涉及数字,但大部分问
题都与金额或指标等数值紧密相关。本书介绍的思路和方法,都是数据分析、统
计分析、数据科学等专业领域中最为基础的部
分。在挑战公司中的一般问题时,高难度的方法
未必能获得正确答案,有时反而会使我们离目标
越来越远,这样的事例并不少见。
除了规模宏大的管理问题之外,日常的实际
业务中也可以用到完全相同的思路、工具或流
程。这些方法可以根据更多的信息及更客观的事
实,更高效地解决各种问题。充分运用数据,可
以为此发挥重要作用。
如何在实际工作中使用数据
我们常说将数据应用于实际业务,但具体要
怎样做呢?根据不同的阶段和水平,我们所需的
能力可以分为以下 4 种。
(1)解读数据
掌握观察数据的“视点”(这是驾驭数据的基
础)
(2)基本的数据分析方法
掌握通用的整理和分析数据的基本方法
(3)综合技能
将各种方法或思维方式有机结合起来,形成
具有整体一贯性的解决问题的故事
(4)高级分析技能和 IT 系统掌握运用专业的高难度方法和高难度技术进
行分析的能力
有一些专门从事高难度数据分析的专家,被
称为数据科学家。并不是所有的商务人士都需要
这些高难度的分析技能。根据我的个人经验及我
与各行业客户接触的切身体会,对一般商务人士
来说,具备(1)~(3)的技能就足够了。
虽然作为数据分析的第一步,解读数据的能
力极其重要,但商务人士在运用数据来解决问题
时,最具有说服力和逻辑效果的是“综合技能”,即将各种数据分析结合起来,通过故事找到解决
方法的能力。
本书在介绍各种基本数据分析方法的同时,将构建故事作为重点。有些章节会分别介绍单独
的数据分析方法,但面对越是复杂的问题,组合
运用的效果就越好。希望读者能感受到,1+1 不
仅等于 2,有时 1+1 还会等于 4、等于 5。
此外,本书还会根据各章主题,结合简短的
事例来介绍一些单独的分析方法和思维方式。与
此同时,本书还会通过各章内容共同讲述一
个“解决问题的故事”。
如果有人问我在日产公司参与的各种项目当
中,有多少是可以运用本书介绍的内容来解决
的,我可以断言“几乎所有都可以”。我并不是力
求针对某些特定问题得出分析结果的数据科学家,也不是撰写学术论文或报告的统计学家。我
是“解决问题的专家”,我的目标就是在组织当
中,从更贴近实际业务和管理的立场,与相关人
员达成共识,以推动工作前进并取得成果。
要实现这个目标,本书介绍的内容已经足够
了。当然,在大量实践中积累经验,可以进一步
提高技能。希望各位读者能身临其境地面对每个
问题,与我一起思考。
那么,请大家在阅读本书时,假设自己正面
临着下一页的问题。本书各章的最后会依次介
绍“解决问题的故事”,提示解决这个问题的线
索。
要解决的问题
近一年来,你所负责地区的汽车销售额明显
下滑。你和周围的人都接受了社会上大多数人的
观点,即认为其原因在于年轻人对汽车的疏远和
少子高龄化的发展。
所有人的思路都停留在“这样下去可不行”“整
体经济形势不容乐观”的原地打转,重复从过去
一直沿袭至今的挽回措施:增加拜访客户的次
数,增加邮件推送广告的数量,希望能对现状有
所弥补。终于,销售本部长感到不能再这样持续下去
了,命令你提出新的改进措施。如果你的提案获
得批准,将会立即得到实施。提交期限是下周周
末,然而到目前为止,你还没有想好应该如何改
进。
这时,你得知总部的市场调查部收集了汽车
用户的市场调查数据,于是向他们要来了相关资
料。果然不出所料,这一年的销售额每月都在下
降。像以前一样仅靠恒心与毅力,恐怕难以应付
这种困难局面了。
那么,到底应该如何解决这个问题呢?让我
们现在就开始行动吧。 第 1 章
解决问题,你需要“流程”实际工作中的大部分数据分析都只是运用分
析工具来“摆弄”现有的数据。因此,虽然不知不
觉中做出很多图表,但耗费大量的精力和时间,最后也不过是总结出一份报告,只是描述了“本
月 XX 分店取得了优异的销售业绩”“经费的使用
额在整体上有所增加”等实际情况。当然,这样
很难找到有效的应对措施,或者找到造成这种现
象的原因。
为了避免这种情形,我们需要了解“流程”,这是数据分析的前提。掌握了流程,才能避免见
到数据就立即动手,却总是在原地打转的情况。
分析的各个详细流程还会在后面的章节介绍,我
们先来概观一下数据分析的整体流程(故事)。
第一个重点是“划定范围”
首先,我们要了解在实际工作中解决业务问
题的整体流程,以及这一过程中涉及“数据分
析”的范围。解决问题的流程从明确目的或问题
开始,然后再逐步运用数据来把握现状,或者从
所有数据中找到问题的关键(“A 店铺”“B 商品”“20~30 岁男性顾客”等)。
从开始运用数据把握现状到找到问题关键为
止的过程叫作“数据整理”。这一阶段仅限于整理
数据,还没到挖掘数据进行分析的阶段。这一阶
段的特点是直接运用“总销售额”等表示整体情况
的数据。
不过,所有业务都出现同样问题的情况比较
少见,大多数情况是只有其中的某些关键部分才
是主要问题。为此,需要逐渐划定数据的范围。
不划定对象数据,在所有数据上做文章的
话,由于多个要素掺杂在一起,会很难找到问题
的关键(着眼于何处、如何划定范围会在第 2 章
介绍)。只有确定了分解数据的角度,对分解之
后的要素进行比较,我们才能发现问题的关键。
这样就可以从包含所有要素在内的整体数据中,划出作为分析对象的数据范围。
从锁定原因到研究对策
假设我们已经锁定了问题的关键,例如“问
题是支店 A 的销售”或“问题是服务 B 的集客效
果”等。那么接下来,就应该考虑“什么原因导致
了这些问题”。为了找到原因所在,需要进一步
缩小对象范围。关注 2 种以上数据之间的关系,有助于锁定原因。这里才是数据分析的精髓。
从上一阶段“找到问题的关键”开始,“数据整理”的工作逐渐开始变为可以叫作“数据分析”的内
容。当然,只是找到原因不能算解决了问题,还
要针对原因决定必须采取的措施,而且提出方
案,不能只是停留在口头层面。
设定什么样的目标?数值是多少?实施需要
哪些资源?只有将这些内容落实为具体的数值,决策者才会批准。方案最终获得实施,才算到达
终点(实际上,之后还需要检验和反馈实施的结
果)。
如果各个分析过程的内容及结果互不相干,无法形成一个连贯的故事,就没有说服力,我们
需要通过整个流程,形成一个贯穿全体的故事
(经过)。为此,首先要明确最重要的目的和问
题,确保所有过程与操作在理论上最终都与这一
目的或问题相关,这样整体的逻辑和流程才不会
出现偏差。
此外,就像我在日产的所有工作一样,大多
数情况下我们都必须在有限的(多是极其有限
的)时间里取得某种形式的成果。如果分析漫无
目的,时间转瞬即逝,结果很可能会超过期限。
把握包括分析阶段在内的整个解决问题流
程,就能从全局来考虑时间的分配,了解“还有
多少时间可用”“目前在整个进度中处于哪个阶
段”等。
这样做的优点是可以平衡准确度与时间之间的关系,考虑为目前从事的分析分配多少时间、答案需要精确到何种程度的同时,有计划地开展
工作。这样,我们到达“得出答案”这一终点的概
率也会大大提高。
如果没有时间限制,我们或许可以不计成本
地进行高准确度的分析,但对不是专门从事分析
的普通人来说,这是不现实的。为了在有限的时
间里取得一定的成果,建议大家从一开始就对整
体计划和“地图”做到心中有数。
开始之前的准备工作
进入具体分析作业之前,必须先明确目的或
问题,接下来就详细介绍这一部分内容(图 1-
1)。
图 1-1 解决问题的流程从“明确目的”开始不常做数据分析的人,开始可能很难迈出第
一步,而是一直在原地打转。肯定很多人都有过
这样的经历吧?
接到上司“数据分析”的指示,很多人会先把
过去几年公司销售额的变化做成柱状图,然后再
用折线图来体现每年相对上一年的增长。接下
来,对不同种类的商品进行 ABC 分类。ABC 分
类是指按照从大到小的顺序将销售额排序,根据
不同商品在整体中所占比例的大小,将其分为“A
类”“B 类”“C 类”,这是一种排列优先顺序的分析
方法。
利用手边的数据,暂且先做了这些分析。可
是在这之后,人们就会陷入停滞不前的状
态,“接下来该怎么做呢……”
会出现这种情况,是因为分析者只关注了代表结果的数据,而没有具体考虑分析的目的或问
题。
在解决问题的过程中,数据分析的目的是针
对“原因是什么,需要采取哪些行动”等问题得出
结论。销售额、利润等数据体现了公司业绩的最
终结果,这类数据容易收集,也更容易得到人们
的关注。但是仅盯着结果数据进行分析,无法实
现“改进结果”“解决问题”等目的。
抱着“先从容易收集的数据开始统计”的想法
进行分析,这本身就是错的。正常情况下,首先
应该确定分析的目的。但是忙于日常业务的商务
人士在面对数据时,却往往会想要“先做成图表
看看”。他们明知没有意义,却还是不由自主地
这样做。
这样一来,无论怎样分析,大多数工作都是
徒劳,效率非常低。在我举办的数据分析培训
中,也有很多学员无法正确地迈出数据分析的第
一步,不断重复错误。不要从分析(方法)开
始,而要从明确目的或问题着手,这一点是最重
要的。
数据分析需要“假设”
确定目的或问题后,才能决定假设、方法、所需数据等具体内容。进行数据分析,“假设”可
以发挥重要作用。如图 1-2 所示,在解决问题的过程中,有两个环节需要假设。
图 1-2 分析流程中必不可少的“假设”
首先,在“锁定问题的关键”时,需要通
过“WHAT 型假设”对数据进行分解和比较。此外
在“锁定原因”时,还需要通过“WHY 型假设”来列
举出候补原因。
关于这两种不同类型的假设,第 2 章将会介
绍具体事例,在此仅用一个例子来说明如何通过
假设得知“分析什么,如何分析”。假设我们使用
WHY 型假设,来探讨店铺 A 的现烤面包销售额
在最近 3 个月急剧下降的原因。
为了整理思路,可以制作一个如图 1-3 所示的图表。按照逻辑关系,将目的或问题、假设、方法以及所需数据从上至下依次连接起来。
图 1-3 通过假设得出所需的方法及数据
假设听起来好像很难,也许会让人有些抵
触。其实我们也可以把假设替换成“着眼点”来考
虑。
在这个事例中,可以考虑以下三种假设(为了便于参考,在此做了简化)。
假设 1:卖场的服务水平变差了(服务的原
因)
假设 2:顾客对畅销商品的评价变差了(商
品的原因)
假设 3:促销活动减少了(促销的原因)
大家可以发现,这里并没有列举什么特别高
深的内容。重要的是,要将这几点用语言表达出
来,确保任何人都能看懂。括号内的原因为着眼
的关键词。
如果觉得最初的假设挖掘得还不够深入,也
可以进一步反复思考“为什么”,继续深入挖掘第
二层、第三层假设,从而找到更为具体的问题
(原因)。这里不再详细介绍深入挖掘的方法,但请注意:并非所有的情况都是只有一层假设就
够了。
接下来,要确定检验各假设的方法及所需数
据。如果检验假设 1 的方法是“调查不同销售人
员之间的差别”,那么所需数据就是“不同销售人
员的销售额数据”和“不同销售人员的工作履历数据”。对假设 2 也一样,如果将方法定为“调查不
同商品之间的差别”,则需要“不同商品的销售额
变化数据”和“其他店铺不同商品的销售额数据”。
按照这个步骤进行准备,就可以大大减少面对数
据不知所措的场面。
做完了这些工作,接下来总算到了分析数据
的环节。我们要根据数据来检验假设。要确定对
问题来说,哪种假设是正确的、哪种假设的影响
最大。做到这一步,就能够发现问题出在哪里、应该采取哪些对策,或者是否需要继续深入调查
或分析。也就是说,这样就可以采取下一步措
施。
研究假设的效果并不仅限于此。它还有助于
制作提交给公司内部或外部的演示资料。在开始
分析之前,将“问题”“假设”“分析结果”“结论”等
必须以符合逻辑的方式展示给其他人的主要内容
或流程确定下来,这样可以提高工作的效率。
接下来再介绍一下建立假设的方法。人们建
立假设时,很容易依赖工作中的常识、自身的经
验或直觉,可能会无意识地排除一些重要的假
设。因此很多人会担心自己的假设是否存在偏
差、是否视野过于狭窄。
我们既然采用了数据分析这种科学的研究方
法,也就应该尽量客观地提出假设。为此,可以
请别人对自己的假设进行确认,也有一些可以用来自己检查的方法。方法之一是运用“框架”作为
思考问题的线索。这里的框架是指商务人士都经
常会接触到的流程图、损益表及 4P 营销理论等
(图 1-4)。
图 1-4 可用于假设的“框架”这些方法可以帮助我们整理思路。针对“缩
短从接到订单到发货的时间”的目的,可以通过
流程图,整理出“接到订单” “确认库存”“联系顾
客”“指示发货”“发货”等各工序中可能存在哪些问
题。
比如,在接到订单的阶段,可以假设“接到
订单后信息是否未能立即传递给仓库负责人
员”;在确认库存阶段,可以假设“不同商品所需
的库存检索时间是否有差异”等。这样可以更容
易针对具体对象提出假设,也便于确定采用的方
法和所需的数据。
损益表也有助于建立假设。面对“防止利润
继续减少”的问题,可以针对“销售收入”“销售成
本”“销售费用及一般管理费用”等项目,分别提出
假设。例如,针对销售收入可以假设“单价或数
量是否减少了”,针对销售成本可以假设“人工
费、原料费是否提高了”等。
此外,我还建议运用 4P 营销理论的思维方
式,将问题按“产品”“渠道”“促销”“价格”进行分
类。如果问题是“防止销售业绩继续下滑”,则可
以从这 4 个角度来提出假设。这样就比较容易整
理出如“产品竞争力下降了吗”“因断货而错失销售
良机了吗”“促销的效果减小了吗”等问题。用框架来查缺补漏
前面介绍了框架的作用,但这并不说假设必
须完全符合框架。使用框架,是为了检查假设是
否有遗漏。此外,框架还有助于明确“可视的范
围”和“不可视范围”。它可以帮助我们认识
到,“自己目前正在哪个范围进行研究”。这一点
极为重要,因为它直接规定了数据分析的范围。
例如对产品非常熟悉的人,就有可能将注意
力只集中在产品上,而不太会考虑渠道或价格。
即使是十分了解业务流程的人,对于销售收入、销售成本等财务方面的假设,有时也会出现遗
漏。因此,利用框架提炼出需要考虑的关键词,再次确认自己的视野是否受到局限才是万全之
策。
此外,遗漏并不都出于无意识的疏忽。我经
历过的公司内部改革中,对一些需要伴随痛苦的
改革、改进或问题,相关人员有时不一定会爽快
地提供、明示所有的知识或信息。尤其是对自己
不利的信息,有人甚至会刻意隐瞒。
这种情况下,就必须依靠其他通用信息(框
架等),实现尽可能完善的分析。尤其是对方远
在国外的情形下,难度就会更大。因此我们需要
具备克服这些困难的能力和技巧。
接下来再介绍一下提出假设时的其他关键。从能影响各项假设的驱动视角来思考问题,更便
于找到下一步应该采取的措施。驱动是指“自己
能够控制的数据”。因为根据分析数据的结果,找到解决问题的措施,才是大多数问题的最终目
标。
根据应该采取的措施来提出假设的做法是本
末倒置,但如果提前意识到之后应该采取的措
施,则可以避免出现最糟糕的情形,即“分析后
却没有找到应该采取的具体措施”。能否做到这
一点是重要的分水岭,决定了我们的工作只是以
分析告终,还是能够解决问题。
看到这里,也许有的读者会觉得,“假设是
很好,但是在数据分析之前要做的工作太多
了。”这一点其实不用担心。因为我也并不是每
次进行数据分析之前,都要制作类似图 1-3、图
1-4 的图表。
在尚未习惯数据分析的阶段,制作图表是一
种行之有效的方法。但实际上很多时候,这个工
作只要在头脑中做就可以了。制作图表可以提高
数据分析的效率,更容易实现目标。但如果成为
负担,害得我们为此而顾不上关键的数据分析和
解决对策,图表就失去了意义。
此外,即使提出了思路清晰的假设,确定了
所需的数据,在实际工作中却很少会遇到所需数
据全都摆在眼前的情况。不过即便这样,我们也不应该根据“现有数据”来开始所有的工作。只
在“现有数据”的范围内进行分析或者解决问题,会妨碍我们发现问题的本质及有效的对策,很可
能导致我们的工作仅以“数据游戏”告终。
没有数据就要不计代价地花费时间或金钱去
收集数据,这种观点没有错,但在实际工作中却
是不现实的。因此商务人士需要设法借用相同或
相近的数据来代替理论上所需的数据。
例如,假设我们需要“工作繁忙程度”数据。
如果对所有员工就最近一个月的繁忙程度进行问
卷调查,应该能够获得包括主观评价在内的数
据。但是如果不具备进行问卷调查所需的时间或
人力,就应该寻找与“繁忙程度”近似的数据。这
样就可以拓宽思路,用“每月人均处理票据的数
量”“平均加班时间”“日平均工作时间”等常规的管
理数据进行分析。
我在日产负责中东及近东市场时,曾经需要
预测未来的市场需求。当时没有日产汽车的需求
预测数据,我必须自己收集可能与之相关的数
据,并用数字来证明自己的预测。原油价格、外
汇汇率、对象市场的 GDP(国民生产总值)等数
据可以反映出中东及近东市场的特征,并且在相
关机构的官方网站上都能够查到。于是我将这些
数据与日产过去的业绩进行对照,从中选出可以
用上的内容,尽量从自己能够获得的数据中挖掘出更多的信息,反复摸索试错。
这种努力已经不是分析方法的问题,而是依
靠个人创意和毅力获得成果的尝试。这次经历也
使我改变了“没有合适的数据就无法分析”的观
点。这件事坚定了我的信心,对任何看似有用的
数据,都要想方设法从中挖掘信息,分析出尽可
能正确的结论。
开端决定了结论的质量
下面针对最初的“设定问题”做一些详细介
绍。从顺序上来看,“设定问题”位于“假设”之
前,直接决定着分析的质量。对所有问题来说,最初的“问题定义”都决定了后面工作的成败。
针对实际业务的数据分析也是同样的道理。
例如,假设下属想按照下面的步骤进行分析,您
会在哪些地方指出他们的漏洞呢?
问题:过度降价导致洗发水 A 的年度利润下
降
↓
假设 1:某些店铺过度降价
假设 2:集中在特定时期过度降价
假设 3:与竞争对手展开价格战导致过度降价
↓
假设 1 所需数据:每个店铺的实际降价数据
假设 2 所需数据:每月实际降价数据
假设 3 所需数据:竞争对象产品的价格变化
数据
收集数据进行分析的结果显示,不同店铺之
间确实存在降价幅度的差异,不同月份也可以看
出某种程度的季节性变化,此外竞争对手也在挑
战降价极限。检验的结果,就是所有假设都不是
毫无根据的。
不过,大家是否看到这个看似顺理成章的结
果中潜藏的风险了呢?其最大的风险是设定问题
时,分析者将思考范围狭隘地限定在“自己设想
的范围内”。尤其是当分析者拥有具体的直觉和
经验,并对其深信不疑时,这种倾向就表现得更
为显著。很多时候,分析者并没有意识到,他们
进行分析仅仅是为了验证自己的想法。
如果分析的结果能够支持(或接近)自己的
想法,分析者就会大大满足,对风险就会变得极
为迟钝。他们往往会产生一种错觉,认为分析取
得了成功。这样一来,耗费时间与精力所做的分析就都成了徒劳。
如果最初就对自己的想法坚信不疑,即使只
能从分析结果中获得零散的支持,人们有时也会
用“自己的故事”去填补其欠缺之处。当我们遇到
看似完美的问题设定、完美的假设、完美的分析
结果时,就应该怀疑它是不是属于这种情况。这
种分析大多是一开始就有了结论,未必具有很大
价值。
那么,这个事例中具体存在哪些问题呢?答
案是,在问题设定中,就已经包括了“原因”(在
这个事例中为降价)。越是具有丰富经验及敏锐
直觉的人,越有可能在设定问题时就已经想好了
针对原因需要采取的“对策”。
这项实际业务技能本身很了不起,但客观分
析的一个重要步骤,就是要有意识地回避“思考
的近路”。因为在设定问题时,分析者的思考还
无法超出“降价”的范围。
从刚才的事例来看,所有的工作都变成了收
集与降价有关的数据,从而得到分析的结果。要
避免这种情况,在定义问题时,应该尽量具体地
思考“怎样才是最理想的状态”。
这样一来,就可以通过确认希望实现的理想
状态,来扩展自己的视角,能避免思路立即集中
到具体原因上。
我过去就曾遇到过一位“在这一行业潜心钻研 30 年”的部长级人物,由于他断言“这绝对是
因为 XX”,使我接下来费尽周章,才得以进一步
探究更接近本质的问题。在这种情况下,最重要
的是不要轻易放弃,要用客观数据解决问题。很
多时候,都能找到以前未被觉察的问题或原因。
在刚才的事例中,对“怎样才是最理想的状
态”来说,答案是“最理想的状态是洗发水 A 的年
度利润保持一定水平之上”。虽然也可以采用相
反的方式,从一开始就定义“问题在于 XX”,但
在定义“XX”时,人们往往容易加进自己设想的原
因或对策。
为了避免这种情形,建议首先从正面确认理
想的状态是什么。这样可以有意识地将“本质上
的问题”与“原因”暂且分开考虑。
例如,如果将问题定义为“成本过高”,那么
思路就会被限定在“降低成本”的范围之内。但如
果考虑“希望达到怎样的状态”,则较易形成“不要
挤压利润”的想法。这样才能确定“增加收入”的最
终目标,与只考虑成本相比,视角就会更加宽
阔。
在此基础上定义问题,即现状尚不满足这个
理想状态。在该事例中,问题是“洗发水 A 无法
保持一定水平以上的年度利润”。可见问题原本
就是指现状与理想状态之间的差距。因此不知道
理想的状态是什么,就无法确定问题。跳过这一步展开分析,会带来巨大的风险(徒劳无功)。
当然,我们使用数据解决定量问题,就尤其
需要考虑如何用数字来体现现状与理想状态之间
的差距。用数字定义问题,具有以下两个优点:
(1)可以明确用哪项指标来衡量;(2)可以定
量地与其他人一起确认问题的严重程度及最终目
标。
接下来,要思考为什么现在没有达到理想状
态。这是(WHY 型)假设之一。这样思考,就
不太会认为原因“只是降价”或“只是成本”了(图
1-5)。
图 1-5 根据理想的状态及其与现状之间的差距找
到问题作为示例,我们列举了除“降价”以外的其他
原因(假设)。由于问题是更高一层、更接近本
质的“利润”方面的内容,那么与利润相关的所有
要素,都可以成为假设。
顺便提一下,如果不是为了解决问题,而是
从最开始就有希望实现的明确目标的话,情况就
完全不同了。例如在“为了将产品投放到某个市
场,想用数据证明市场规模足够大”的情况下,就可以直接将其设定为目标,提出能够检验这个
结论的假设。开始以后很难再扩大视野
开始数据收集或分析之后,有时也会想“还
是再看看别的数据”。不过这种场合一般只是凭
着偶然的念头来扩大范围。开始分析之后,要想
重新扩大视野,改变分析范围,无论在时间上还
是在心理上,都具有很大难度。
因此,可以毫不夸张地说,能否在分析之初
从逻辑上设定合理的范围,直接决定了之后的分
析质量。研究假设的风险之一,是提出假设会缩
小思考及分析的范围,可能导致即使得出一些分
析结果,却都不是最佳的答案(有时还会导致无
法得到想要的结果)。从这个意义而言,决定胜
负的第一扇门在于假设。
邂逅预料之外的分析结果,才能帮助我们找
到更接近本质的答案。只在最初预想的范围内进
行分析,得出意料之中的结果,就无法充分发挥
数据分析的作用。大概很少有人意识到,在分析
流程的入口处还会有这样的陷阱吧(图 1-6)。
图 1-6 设定更宽的检验范围(思考范围)思考问题之“外”的问题
在日产工作时,对高层领导或上司布置的问
题,我从不就事论事地只看问题本身,而会留
意“问题之外的问题”,试着从高出自己一两个级
别的水平进行思考。很多时候我向提出者进行确
认后,又重新定义了问题。每次遇到这种情况,我都会感到自己的视野过于狭窄。不过这样的经
历多了,就逐渐培养出在接手项目时,从开始阶
段就扩展思路的能力。现实工作中,即使明白这个道理,仍有很多
人会觉得,与其自己刻意扩大问题范围,逐一梳
理原因,还不如只选取自己和周围人都能认同的
问题,用不疼不痒的结论敷衍了事,这样工作起
来才轻松。
尤其是在既要负责日常的本职工作,又需要
解决问题的情况下,“差不多就下个结论,尽快
处理完”的心理就会占上风。从零出发精确分析
的理想论与现实中的时间和精力相互较量,二者
之间需要达到平衡。当然,这个平衡点的位置会
因人而异。
我也曾经历过很多类似情况,不过后来我认
识到,从平时就养成高效处理日常业务的习惯,确保留出一定时间的技能和意识也是解决问题的
能力之一。大多数情况下,对比我们高出一两个
级别的人来说,分析者采用了怎样的研究方法,他们只要看看结果就会一清二楚。
此外,如果一个人总是在差不多时放弃努
力,那他将永远无法掌握具有更高价值的工作技
能。事实上,只是如何设定问题这一项,就完全
能够体现出分析者的工作态度。
看到这里,相信您已经发现了,高质量、高
效率的数据分析并不只取决于“数据分析”本身的
质量。也就是说,在实际动手处理数据之前,应
该先缜密地思考,这一阶段的内容和质量基本上决定了后面分析的质量及整体故事的有效性。
从接受提案的一方来看,他们认同的并不是
数据分析的内容和方法,而是以清晰明确的、能
够说服别人的问题或逻辑前提为基础提出的建
议。解决问题的目标是准确地锁定主要原因,让
相关人员接受自己的建议,在获得认同的基础
上“推动其采取措施”。否则,无论展示出多么高
超的分析方法,也无法实现这个目标。
「解决问题的故事 1」
问题:汽车销量下滑,怎么办?
第一步:明确计划与现实之间的差距
“汽车销量下滑”,这是公司内部公认的事
实。那么是不是就可以把这句话设定为问题,然
后直接进入数据收集和分析阶段呢?
如果这样立即开始工作的话,恐怕会由于没
有与相关人员确认“下滑”的准确含义、是否可以
直接作为问题、对公司事业具有多大影响等信
息,导致分析者依照自己的主观感觉来决定优先
顺序和判断标准。定量评价或判断数据分析结果时,尤其需要
客观的判断标准。如果标准含糊不清,我们花费
大量时间和精力得出的分析结果就有可能在最后
关头被全盘推翻。
这里首先需要在定量把握问题的同时,把握大
致的现状。因此我们必须对问题及其主要指标做
出如下定义,并与相关人员进行确认。
“汽车销售额自一年前开始逐渐减少,与上
一年度的月平均销售额相比,本年度最近一个月
降低了大约 15%。这意味着与本年度计划相比,全年预计将有约 10% 的目标无法实现。”
也就是说,首先需要确定,用“销售额”作为
衡量汽车销量减少程度的指标。
接下来,为了确认这就是“问题”,还需要明
确现状与计划之间的差距。即从最开始就要明确
没有达到计划的“现实”与“理想(计划)”之间的
差距。这样一来,接下来就可以讨论要如何做、做什么、需要改进多少的问题了。
做了这些工作之后,我们才算站到了起跑线
上,可以为解决问题而构建“故事”了。除此以
外,我们还明确了前进的方向。这样,接下来就
不会偏离目标,可以有效地进行分析了。 第 2 章
分解数据,找到“问题的关键”明确目的或问题、大致把握现状之后,就进
入提出假设、确定问题关键的阶段。那么,具体
应该如何找到“问题的关键”呢?
“问题的关键”是指从诸如“东京支店”“产品
B”“20~30 岁女性顾客”等切入点找到的引发问题
的关键部分。在这个过程中,把握数据和分解数
据的视点很重要。因为要锁定“问题的关键”,需
要准确把握数据所显示的信息,在此基础上对分
解的结果进行比较,从而锁定关键点。
例如,面对“最近销售业绩下滑”的问题,如
果不考虑“用哪些数据、看哪里、怎样看”就开始
分析,就可能花费了大量时间和精力,却仍然无
法获得理想的结果。
我们来看下面的例子。图 2-1 是根据手头的
上个月销售数据,假设“某个区域存在问题”,用
不同区域的日平均销售额做成的柱状图。如果有
人根据这张随处可见的图得出结论,认为“区域 B
存在问题”,他的上司一定会提出质疑。
图 2-1 不同区域的日平均销售额(某个月)“这只是上月的数据。其他月份是什么情
况?今后预计会变成怎样?”对此,可能很多人
都会(在心里)大喊:“早说啊”“那要怎么办”。
然后不得不再去查看过去几个月的销售额,重新
进行分析(图 2-2)。
图 2-2 不同区域的日平均销售额(过去 5 个月)从这个折线图反映的趋势来看,似乎可以认
为“区域 B 的业绩的确不好,不过区域 E 的减少
趋势也需要注意”。把这个图表拿给上司,结果
又被追问:“你比较的是日平均销售额,但这些
区域能直接比较吗?”如果每个区域的店铺数量
不同,单纯比较销售额就没有任何意义(图 2-
3)。
图 2-3 每个区域的店铺数量用每个区域的销售额除以店铺数量,重新把
各区域的单个店铺平均日销售业绩制成图 2-4 所
示的图表。从这个图可以发现,与其他区域相
比,区域 B 的销售业绩并不差。至此,已经重新
分析两次了。
图 2-4 每个区域的日平均销售业绩(单个店铺)其实这些工作都只是“数据整理”,并没有通
过“数据分析”来寻找导致销售额减少的原因及其
对策。也就是说,做到这里才算是通过分析数据
锁定了应该深入挖掘的对象(问题的关键),站
在了分析的起跑线上。
可能很多人都曾经有过类似的徒劳经历,为
什么会发生这种情况呢?其原因在于,分析者没
有确立把握数据特征的视点,就开始着手整理数
据。因此,每次只对被质疑的问题继续挖掘,然后又会被从其他视点追问,如此反复。
每当上司或者其他人指出一些问题,分析者
都会觉得“他们说的确实有道理”。然而事实上,如果最初就从全面的视点把握数据,这些无用功
和错误都可以避免。如果不在数据分析的“地
图”上规划好到达终点的路径,而是先走起来再
说,就可能会走弯路,甚至无法到达目的地。
“趋势”视点和“快照”视点
前文的例子中缺乏“把握数据(捕捉数据特
征)的视点”的问题,在很多情况下可以通过“趋
势”和“快照”两个视点来解决。缺少其中的任何一
个,论点都容易出现遗漏,导致例子中被上司质
疑的情形。因此,我在做分析时也一定会确认是
否涵盖了各种视点。如果判断分析中不需要某个
视点,我则会确认其原因。
“趋势” 视点可以捕捉一段时间内的变化,也
被称作时间序列。通过数据观察变化经过,可以
得知有哪些流程,以及形成目前状况的经过。关
注过去的变化,预测将来的动向,可以带来飞跃
性的效果提升。因为从时间的变化过程中,有可
能找到问题的关键或原因所在。重点挖掘这些内
容,找到所需信息的概率就会增加。
“快照” 视点是截取某个期间的情况。用指标
(平均值等)体现该期间的大小、比例和分布情况等,可以轻松地把握大致情况,或进行比较,从而确定该因素对问题的影响程度。例如,区域
A 的销售额的确出现了大幅度下降(趋势),不
过如果通过“快照”发现其年销售额规模不及整体
的 1%,我们就会毫不犹豫地将其从深入挖掘的
对象中剔除出去。
运用“趋势”和“快照”的视点把握了数据的整
体情况之后,还可以运用相同的视点找到问题的
关键。要做到这一点,可以根据相对定位进行评
价,例如“销售额高于其他区域”“不良品多于 B
产品”等,这是一条捷径,即通过比较发现数据
与其他因素之间的相对差异。
“WHAT 型假设”
不过,对较大范围(包括多个要素)的数
据,即使进行比较也很难找到差异。此时需要运
用“四则运算”来分解数据,使其变得更为详细和
具体。这就叫作“WHAT 型假设”(图 2-5)。
图 2-5 建立 WHAT 型假设在此基础上,接下来需要关于“维度”的思
路。分解数据之后,会得到某个指标或者变量
(例如:客户忠诚度)。我们需要考虑从何种维
度对该指标进行比较,才能找到问题的关键。在
依赖数据之前先进行推测,也可以说是 WHAT 型
假设的一部分。
这样一来,只要熟悉业务内容,人们就会想
到“区域”“产品”“顾客年龄”等许多维度。从中优
先挑选与问题联系最紧密,最能体现差异的维度
进行比较,便可以找到问题的关键。例如从产品维度对保持率进行比较,可以发现产品 X 明显高
于其他产品,这就是问题的关键。那么,想要找
到问题的关键,需要对哪些指标进行比较呢?
很多事例按大小或比例对销售额、揽客人数
等加以比较,此时必须注意原始数据的波动。因
为,尤其是用平均值代表整体数据的大小时,数
据波动的信息就会完全消失。
找到“问题的关键”所需的视点可以用图 2-6
的矩阵图来表示。这个矩阵图可以防止比较时遗
漏重点问题。我们并不一定要机械地查看矩阵图
内的所有项目。不过大家需要知道,不事先考虑
好“为什么要计算这个指标”“希望由此了解什
么”,而是漫无目的地“姑且”考察数据波动,就无
法让数据分析有的放矢。
图 2-6 利用矩阵图整理比较的重点
接下来,分别对“大小或比例”和“波动”做详
细介绍。表示大小的“平均值”
应用最广、最具代表性、最便于计算的统计
指标大概要算平均值吧。可能有人觉得“不就是
平均值吗”,不过可千万别小瞧了它。平均值虽
然用起来很方便,但却有一个陷阱,让很多人都
陷入其中。
为什么平均值可以广泛用于各种场合呢?我
们首先从积极的方面来考虑。单纯地罗列数据的
话,人们很难从中获得信息。数据越多,就越会
超出人们能够处理的极限。
此时,我们可以制成图表,或者取整体的平
均值。这是为了将整体归纳为图表或者平均值
等“一个对象”,便于人们理解和认知。尤其是平
均值能够作为体现数据“大小”的代表值或标准值
发挥作用。因此,平均值这个指标用途广泛、非
常便利。
例如,让同一个小组对产品 A 与产品 B 进行
评价。与其列出每个成员的评价结果,不如计算
出能够代表整体水平的平均值。例如得知产品 A
的平均分为 55 分,产品 B 是 87 分,人们就可以
把握每种产品的大致情况,将产品 A 与产品 B 进
行比较也会更为简单。此外,如果不想关注销售
额每天的细微变化,而是希望了解销售额每个月
的大致变化,使用平均值会更方便。因为对于想了解每月变化的人来说,每天的
数据或每小时的数据只不过是过剩信息。这种情
况下使用平均值,便能剔除那些过剩信息。
像这样,将大量数据归纳为一个平均值,能
为实际工作带来很多方便。而且无须额外说明,谁都理解其含义,平均值可以说是一个万能的工
具。
不过虽然谁都用过平均值,但面对“平均值
究竟是什么”的问题,却有很多人不知如何作
答。
“好用”背后的陷阱
大多数人可能会回答平均值是处于所有数据
正中间的数值,或者是代表值、标准值。但很少
有人会考虑“平均值真的能够‘代表’数据,或者真
是‘标准’的数值吗?”有人认为平均值代表了数据
整体的大小,那么他们的头脑中想象的一定是图
2-7 所示的情况。
图 2-7 是直方图,能够显示位于各个区间
(横轴)的数据分别有多少个(纵轴),体现了
数据的分布方式。在这个示例中,平均值处于所
有数据的正中,与平均值相等或接近的数据最
多。其他数据的个数随着对平均值的偏离而逐渐
减少。这种情况下,平均值确实可以被称作代表
值或标准值。图 2-7 直方图示例
但是,如果毫不怀疑地把类似图 2-7 的情况
作为前提来使用平均值,就有可能陷入意想不到
的陷阱。因为未必所有数据都会呈现出同样的分
布方式。
平均值不能代表总体
回忆学生时代,得知自己的考试成绩高于班级平均分时,大家是否会觉得“排在中等以上,还不错”?不过,如果您对这句话没有感到任何
疑问,就需要注意了。此外,如果听到某国的平
均寿命是多少岁,就认为这个国家的人都是在平
均寿命前后去世,这样的人也同样需要注意。
图 2-8 是一个 40 人班级的考试成绩分布情
况。其平均分为 51 分,但位于所有成绩正中间
(即第 20 名与第 21 名之间)的却是 57.5 分。也
就是说,得了 55 分的人虽然高于平均分,却并
未排进班级的“前一半”。请注意,图 2-7 以平均
值为中心,数据个数逐渐减少,而图 2-8 的数据
却呈现出截然不同的分布方式。
图 2-8 考试成绩的分布在图 2-7 的情况(往往是很多人所想象的情
形)下,可以说平均值就是代表值。但在图 2-8
中,平均值周围并没有集中很多数据。因此,按
照数值大小顺序,位于中间的数值(中位数)也
偏离了平均值。这种情况下,就不能把平均值看
作代表数据的值。
之所以产生这种现象,是因为平均值会受到
离群值的影响。而且,数据波动越大,离群值就
越多。其结果就是,“平均值未必是代表值”的可
能性更大。例如平均寿命也是一样,假设某个国家 5 岁以下的婴幼儿死亡率较高,那么除非有很
多高于平均寿命的长寿者,否则计算出的平均寿
命就会偏低。寿命集中分布在低年龄段和高年龄
段两个区域,平均寿命处于其中的某个位置。这
种情形下,在平均寿命前后去世的人数就相对较
少。
再看一个比较极端的例子。假设对 100 个人
进行问卷调查,其结果为有 50 人选择“1.极不赞
同”的,而其余 50 人则全部选择“5.极为赞同”(图
2-9)。
图 2-9 对问卷调查的回答
这种情况下的平均值是多少呢?平均值应该
是 3。然而却没有一个受访者选择了“3. 既不赞同
也不反对”。那么这里的平均值就没有任何意
义,反而还可能会掩盖人们的意见集中在 1 和 5
的事实。平均值的便利之处在于可以不用处理全
部数据,只关注由整体得出的一个数值即可,但
其缺点是牺牲了原始数据。这是一个很大的陷阱。
我在日产工作时养成了一个习惯,对只用到
平均值的提案抱有怀疑的态度。有些人只根据平
均值便断定“数值大,很好”“数值太小,不行”,这样的评价过于肤浅,其背后可能隐藏着更多信
息。假如没有认识到这一点,我一定会错过很多
重要的信息。
那么,有没有一种方法,可以大致判断能否
将平均值视为代表值呢?根据直方图的视觉效
果,可以确认到数据的分布方式和平均值的位
置。但在实际工作中,不可能每次都用这个方法
来确认。
了解“中位数”
这种情况下,还有一种简便方法,即“中位
数”。中位数是指把所有数据按从大到小(或从
小到大)的顺序进行排列时,排在最中间的数
据。顾名思义,中位数就是位于中间位置的数
据。有奇数个数据时,中位数是正中间的数据,有偶数个数据时,中位数则是中间两个数据的平
均值。
例如,如果有 4 个数据(0、3、6、9),那
么中位数就是 3 与 6 的平均值 4.5。中位数可以
用 Excel 函数直接得出来,记住这个函数和平均
值的函数会很方便。?平均值:=AVERAGE(在此处指定数据范
围)
中位数:=MEDIAN(在此处指定数据范
围)
如果以平均值为中心,所有数据都大致均等
地分布在其左右两侧,那么中位数的值必然会接
近平均值。相反,如果受离群值的影响,平均值
在所有数据中的位置较偏,那么中位数与平均值
之间就会出现较大差异(也有个别情况例外)。
我们也可以在这种情况下再用直方图等查看平均
值为什么会出现偏离。
图 2-10 为平均值和中位数的特征一览表。详
细了解平均值和中间值的各自特征,并根据需要
组合运用,可以避免落入滥用平均值的陷阱。
图 2-10 平均值与中位数的特征“油炸豆腐”和“天妇罗面渣”,哪个更好吃
根据平均值进行比较,不仅要注意原始数
据,还需要注意“数据构成”的差异。
例如,假设您是一家荞麦面馆的老板。为了
了解客人喜欢的配菜是“油炸豆腐”还是“天妇罗面
渣”,分别向 200 位客人做了问卷调查,请他们
打分(满分 100 分)。其结果如图 2-11 所示。
图 2-11 对油炸豆腐和天妇罗面渣的评价大概很多人会认为:油炸豆腐的(总平均
分)高出 6 分多,那就多进些油炸豆腐来卖吧。
不过在店里打工的学生说:“我们店里既有
乌冬面,也有荞麦面,所以我对哪一种更受欢迎
做了统计”,并拿来了结果。如图 2-12 所示,他
分别统计了乌冬面和荞麦面的平均分。
图 2-12 对乌冬面与荞麦面的评价
令人吃惊的是,无论乌冬面还是荞麦面,都
是天妇罗面渣的平均分更高。他的表格没有任何
计算错误或数据选取错误,只是正常计算了平均
值,但结果却与图 2-11 截然相反。如果没有这名
学生提出疑问,您可能会根据最初的结论,判断是油炸豆腐更受欢迎。
这种矛盾的现象被称为“辛普森悖论”,可能
很多人都不太了解。有些情况下,考察数据整体
和考察不同部分,会得到相反的结论。如果您是
店老板,对这种情况会做何判断呢?
平均值所掩盖的真相
上述过程中隐含着回答者构成的不同。此次
问卷调查的回答者人数分布如图 2-13 所示。
图 2-13 油炸豆腐与天妇罗面渣、乌冬面与荞麦面
的回答人数分布
也就是说,为油炸豆腐打分的大部分回答者
是吃乌冬面的人,而为天妇罗面渣打分的回答者
则多是吃的荞麦面。简单地说,是回答者在“乌
冬面”和“荞麦面”之间的不平衡分布影响了总平均
分的结果。从图 2-12 可知,乌冬面的分数高于荞麦面。
也就是说,与荞麦面相比,乌冬面会拉高分数。
选择“油炸豆腐”的人中,吃乌冬面的人数(180
人)远远多于吃荞麦面的人数(20 人),乌冬面
拉高了“油炸豆腐”的平均分。看到这里,可能很
多人脑子里会画上一个“?”,那么我们就再从直
观上确认一下(图 2-14)。
图 2-14 油炸豆腐与天妇罗面渣出现不同比较结果
的玄机?乌冬面的分数 > 荞麦面的分数
油炸豆腐:吃乌冬面的人数 > 吃荞麦面的
人数
天妇罗面渣:吃荞麦面的人数 > 吃乌冬面
的人数
这三个不等式同时成立,就产生了“油炸豆
腐的平均分高于天妇罗面渣”的结果。但分别看
乌冬面和荞麦面的评分结果,却都是“天妇罗面
渣的平均分高于油炸豆腐”。
乌冬面和荞麦面的教训
只看整体,我们可能注意不到“数据构成要
素的差异(这里是乌冬面与荞麦面的不同)”,忽略这种差异进行单纯比较,就有可能导致无法
察觉该差异所造成的影响。正如这个事例所显示
的,关注原始数据内部的要素,有时会看到不同
的风景。
在这个事例中,通过留意乌冬面与荞麦面的
要素,我也许会转为专注乌冬面与荞麦面的差
异。也就是说,问题并不是油炸豆腐和天妇罗面
渣的不同。
一般而言,将数据细分至何种程度才能做出适当判断,这个问题并没有标准答案。为了找出
正确答案,分析者需要了解自己的数据可以分为
哪些层次,目前分析处于何种状态,这一点很重
要。此外,进行比较时,了解样本的选取方法也
很重要。
作为平均值的特征,我们应该了解:平均值
掩盖了“乌冬面与荞麦面回答人数的不同”。
事先了解到平均值虽然方便,但也具有这样
的副作用,我们就可以在有意识的前提下面对平
均值。
我平时看到平均值,会更为关注“眼前这个
数值是哪些要素综合计算出来的”。
如果能注意到一笔笼统的账目中到底包含了
什么,或许就可以像这个事例一样,对乌冬面与
荞麦面的要素进行分解,从而找到其中隐藏的信
息。也就是说,平均值的背后可能还蕴含着很多
沉睡的宝藏。
用“波动”的视点给平均值做补充
尽管需要留意,但平均值仍然是无人不晓的
便利工具。如果有人问“工作中哪些场合会用到
平均值”,我会回答:“想大致了解对象大小的时
候”。当然,我还会补充一句,“同时也要关注平
均值背后的隐秘信息”。我们可以记住以下两个
重要事项。①平均值最适合表示整体的大小
平均值便于人们把握大体趋势,可以通过平
均单价等把握和比较整体情况。
②平均值的缺点是会掩盖原始数据的部分特
征
注意到这一点,可以避免遗漏更为精确的信
息。
只从大小的维度处理数据,会遗漏许多信
息,但实际工作中的绝大部分资料都只有平均
值,完全不提及数据的波动。
请看图 2-15 的例子。如果只按平均销售额
(粗框内)来看这家店铺的业绩,会得出什么结
论呢?因为从 6 月到 7 月期间平均销售额没有变
化,所以结论一定会是“没有什么变化”吧。也就
是说,结论是无须过多担心。
图 2-15 某店铺 6 月与 7 月的销售额比较但是,如果我们将关注点从日平均销售额转
到相关月份里每日销售额出现波动的程度,也许
就会发现,6 月到 7 月出现了每日销售额波动幅
度增大的情况。
在商业世界中,波动也可以说是“风险”。虽
然最初得出“没有变化”的结论,但它很可能是错
误的,正确的结论应该是“风险增大了”。只注意
平均值的人忽略了这一点,因此无法得到正确的
结论。
需要注意的是,“波动大”或“风险大”并不一
定就是坏事。风险也可以反过来看作机会。有时
我们也可以有意选择“高风险、高回报”的情况。
不过,对希望实现精确的库存管理、希望每
日销售额尽量保持稳定的人来说,体现波动(风
险)增大的指标对店铺管理具有重要意义,是极
其重要的信息。对于如此重要的信息,决不能只
是漫不经心地浏览一下数据,就主观地判断
是“大”还是“小”。更何况仅根据最近的数据变动
情况,也未必能够掌握准确的数据特征。
能够客观体现波动大小的指标叫作标准差。
标准差表示以平均值为中心,数据对平均值的偏
离程度。人们可以根据标准差的数值对类似每日
销售额的波动程度等进行相对评价。
之所以要做相对评价,是因为只看标准差的
大小,很难得出有价值的信息。只有在相同条件下(例如对同一家店铺的不同月份进行比较、对
销售额规模相同的不同商品进行比较等),比较
相对大小才能发挥作用。
如图 2-16 所示,对同一家店铺的不同月份进
行比较,虽然平均值都是 45 万日元,但由于标
准差从 10.1 万日元增至 20 万日元,所以可以定
量地体现出风险的增加。为了避免类似“感觉数
字的浮动幅度似乎有所增大”等含糊不清的意
见,或者由于数据太多,连这种直觉都无法发现
问题时,可以用标准差的指标客观地进行判断。
图 2-16 平均值相同,标准差可能不同这样一来,就可以进一步研究和讨论“为什么 7 月份销售额波动会增大”。找到原因,才能
根据需要采取措施。
不过在实际业务中,标准差会受到很多制
约,不像平均值那么易于使用。这也是个令人头
疼的问题。
例如,个体商店与百货商场的日销售额相距
甚远,比较二者的标准差不具有任何意义。因为
原始数据的大小不同。
日平均销售额 1 000 万日元的店铺波动幅度
(标准差)是 30 万日元,日平均销售额 100 万
日元的店铺也有 30 万日元波动,如果说二者“波
动幅度相同”,恐怕谁都会觉得不对头。
此外,很多书都从统计学的角度介绍标准
差,其代表性的说明如下:
“以平均值为中心,在向其左右各扩大 1 个
标准差的范围内,会包含约占整体三分之二的数
据(满足正态分布的条件下)”
第一次看到这句话的读者,恐怕很难立刻理
解其含意吧。这句话换成更易于理解的说法,就
是“在所有数据以平均值为中心呈左右对称分
布、数据个数随着数值对平均值的偏离而减少的
情况下,在平均值增加和减少 1 个标准差的范围内,会包含所有数据的三分之二(如果有 100 个
数据,就会有约 66 个数据分布在平均值增加和
减少 1 个标准差的范围内)”。即使这样说,大
概还是会有很多人不明白吧。
更麻烦的是,即便理解了这段话的含义,在
大多数情况下,“包含三分之二数据的范围”也很
难直接应用到实际业务中。
“以平均值为中心左右对称”“数据集中在平均
值附近,极端数据较少。如果不符合这些(正态
分布的)前提,标准差就没有太大意义。然而我
们很难断定所有数据都接近正态分布。不如说在
商业领域里,相反的情形更多。
标准差为什么“用不上”
因此,很多人因为“统计书上的内容”与“自己
运用”之间存在明显的距离(还有很多情况下,二者之间的距离甚至大得已经感觉不到距离),而放弃使用标准差。
这就是人们常会觉得“理论上好像明白,但
不会实际运用”标准差这个工具的原因。
标准差的计算公式如图 2-17 所示。为了去除
正负影响,先把各个数据的值与平均值的差平方
后相加,除以数据个数之后,再开方。简而言
之,就是用一个数值来表示各数据与平均值距离
的和。图 2-17 标准差的计算公式
用计算器计算标准差很麻烦,可以使用
Excel 函数立即得到结果(图 2-18)。此外,不
同版本的 Excel 中还有很多类似的函数。
图 2-18 Excel 中的标准差函数定义
当然,只要不是严谨的学术领域,我们在现
实工作中也可以不考虑其前提条件,而只是粗略
地比较数据的波动程度。但重要的是,如果我们
在自己完全不了解(或者是忽略了)原本的制约
条件下得出结果,那么在运用该结果时应该知道
它并不是严密的。
我在日产工作时曾经制作了一个系统,用来
管理遍布世界各地的 120 个国家或地区的销售代
理店业绩。在数十项评价指标当中,有一些无法只靠绝对值评价好坏,也有的指标需要在所有代
理店中进行相对评价。当时我采用的方法是,将
平均值增减 1 个标准差的范围定义为“标准”范
围,关注处于该范围之外的数据(代理店)。如
果随便设定一个标准,据此来评价好坏的话,人
们有可能会质疑评价本身是否合理,但如果能够
说明客观标准是如何设定的,就不太会出现类似
问题。
作为标准差的应用事例之一,再来介绍一下
学校里常会用到的偏差值。步入社会以后,除非
在教育领域工作,否则可能很少有人会用到偏差
值,但这里还是做一简单介绍,来加深大家对标
准差的理解(图 2-19)。
图 2-19 偏差值的计算公式
例如,如果有人在平均分为 50 分的考试中
得了 80 分,虽然知道这个分数“高于平均分”,但却无法得知这个人在整体中的位置。80 分与平
均值之间的 30 分差距是“大”还是“小”,取决于所有分数的分布情况。
如果得分超过 80 分,甚至更高的人数很多
(即标准差较大),就不能说 80 分是一个相对
优秀的结果。而如果大部分人的分数都在平均分
50 分前后(即标准差较小),则可以说 80 分
是“非常优秀”的成绩。偏差值就是用来表示“成绩
得分的相对位置”的指标。
那么,有没有什么办法可以将不太好用的标
准差运用到实际工作中呢?这里介绍两种能够轻
松掌握数据分布的方法。
一种方法是用柱状图来展现数据的分布情
况,可从视觉上直接确认。在前文提及的直方图
中,纵轴表示数据的个数(频数、频率),横轴
表示数据大小的间隔(区间)。经常有人会问间
隔的“最佳幅度”是多少,这个问题并没有标准答
案。在实际业务中,一般由分析者根据目的或者
是否便于理解来自行决定。
比较两个直方图,可以看出哪一边的数据波
动更大(或更小)。使用直方图将全部数据直观
体现出来,可以帮助人们把握数据分布的形状、特定范围内的数据个数等只看标准差所无法获得
的信息。
与在 Excel 中直接查看数据相比,做成直方
图可以更轻松地把握实际情况。直方图只是从直
观上把握数据,所以不必在意计算标准差的前提以及评价标准差的方法等比较难懂的细节问题。
因此,向其他人展示或者进行说明时,直方图的
魅力之一就是可以作为更便于理解的信息发挥作
用。
直方图也是我在日产工作时经常用到的方法
之一。如果不了解对方的专业水平或关注点所
在,或者要向来自不同国籍或部门的高管进行展
示时,这是一种更为“保险”的方法。虽然做直方
图需要使用大量数据,但其优势是任何人都能很
快理解。当然,这种方法在数据的特征和结果较
为明显时效果会更好。而对于很难从直观上判断
的情况,使用直方图反而会招致混乱。
“变异系数”的魅力
还有一种方法是变异系数。使用标准差对波
动程度进行相对比较时,必须满足被比较的两个
数据大小相当或相同(例如同一家店铺不同月份
之间的比较、相同销售额规模的两家店铺之间的
比较等)的前提条件。因为一般情况下,如果原
始数据值较大,其波动(标准差)也会相对比较
大。不消除“数据大小”的差异,就无法进行适当
的比较。
说到数据的大小,请各位回忆一下平均值的相
关内容。如果能用标准差除以全部数据的平均
值,消除数据大小的差异,就可以不必在意原始数据的大小,从数值上用标准差来比较两者的波
动程度。标准差除以平均值得到的值叫作变异系
数。
顺便提一下,我们无法单独评价变异系数,这个指标只能用来比较不同数据的波动程度。例
如,图 2-20 为大规模店铺与小规模店铺的日销售
额。只看标准差的话,大规模店铺的波动更大,为 50。
然而考虑到二者之间原本存在销售额的差
异,不能这样做单纯比较。计算变异系数,则可
以消除销售额规模的差异,从而得知小规模店铺
的数据波动更大。也就是说,小规模店的经营风
险相对更大。
图 2-20 大规模店铺与小规模店铺的比较
变异系数的魅力在于计算简单,而且与其他
统计指标一样,可以只用这一个指标进行客观比
较。有些情况下,它还可以弥补直方图的如下缺陷。
例如,记录 A、B、C 三个区域的快递送达
天数,制成直方图(图 2-21)。
图 2-21 三个区域送达天数的不同如果根据这些直方图来讨论哪个区域送达天
数的波动更大(注意讨论的不是送达天数),人
们的意见可能会出现分歧。事实上,由于区域 C
的数据向左右扩展的范围看似更大,所以很多人
会认为该区域的波动较大。我在培训中展示这个
直方图时,大家会根据表面现象做出不同的主观
判断。这样就无法对讨论的前提形成一致。
视觉也是“感觉”
所谓视觉,也是一种“感觉”,具有容易让人
根据主观进行判断的一面。可以说最能在这种场
合发挥威力的,正是根据数据做出的客观判断。
图 2-21 中还标出了每个区域的平均送达天数
和标准差。在这个事例中,可能是因为只有区域
C 的覆盖范围较广,所以其平均送达天数较长,为 5.9 天。
如果仅比较平均送达天数,就会得出“区域 C
波动幅度大”的结论,毫无疑问这是错误的。不
过前面已经说过,这种情况也不适合只用标准差
进行比较。
计算各区域的变异系数,区域 A 最大,为
0.5,所以结论是区域 A 波动幅度相对最大。像
这样,用数值进行比较的结果一目了然,不会因为人们对“表面现象”的主观判断差异而产生分
歧。这是在组织中进行决策的一个极其重要的研
究方法。不过正如前文所述,我们需要先考
虑“由此能够获知什么”“它在这项问题中具有何种
作用”,然后再计算变异系数。如果只是在形式
上计算出变异系数,对其含义却并不理解的话,就是本末倒置了。
从易于理解和便于接受这一点来看,直方图
非常好用,但其问题是在 Excel 中无法用一个操
作直接制作(市面上销售的一些统计软件具有这
个功能)。因此需要我们根据实际数据,设定适
当的区间间隔,计算各范围内的数据个数,在此
基础上才能做成图表,所以略为费事。
图 2-22 原始数据与数据区间(分组)在此简单介绍一下用 Excel 制作直方图的方
法。对于平时不常使用 Excel 的人来说,首先需
要启动 Excel“加载项”菜单中的“数据分析”。
假设 A 列为原始数据(图 2-22)。在另外一
列(此处为 B 列)输入数据间隔。这里按照
10、20、30……100,以 10 为间隔来输入。它表
示直方图中区间幅度的最大值。为了便于理解,也为了以后用作直方图的横轴,在 C 列手动输入
每个区间的具体范围。
然后在加载项中启动“数据分析”,选择“直方
图”。在“输入区域”指定数据范围,在“接受区
域”指定自己设置并输入数据间距的范围。然后
选择便于自己查看的区域输出结果。按下“确
定”键之后,就会如图 2-23 所示,在 E 列和 F 列
显示出各数据区间及其对应的数据个数(频率分
布表)。
图 2-23 每个数据区间的数据数量(频率)接下来,将上述“频率”做成柱状图。直方图
中的柱体一般相互连在一起,没有柱状图中的间
隔,需要自己调整。对任意一个柱体点击右键,打开“设置数据系列格式”,将“分类间距”改
为“0”。这样,就完成了一幅如图 2-24 所示的直
方图(Excel2013“加载项”的“直方图”中包含制作
图表功能)。
图 2-24 完成后的直方图「解决问题的故事 2」
第二步:“分解”数据,锁定问题的关键
对问题做出恰当的定义,并大致把握现状之
后,接下来需要找到“问题的关键”。通过找出问
题的关键,可以实现确定分析范围的目的。如果
数据中包含所有信息,就会像一笔糊涂账,一直钻研也无法取得任何进展。因此,分解数据就显
得极为重要。
图 A 分解新车销售总额
如图 A 所示,“新车销售总额”可以通过四则
运算,用“WHAT 型假设”进行分解。左端的“新
车销售总额”是代表最根本问题的指标,可以分
解为“新车销售数量”与“平均单价”的乘法。分解“销售总额”的构成要素,可以使分析者
看到更为具体的内容。从新车销售数量和平均单
价两个方面,可以比只看销售额挖掘得更为深
入。当然,在这种假设的基础上进行分析,也还
是有可能无法找到任何值得参考的信息。通过数
据分析可以对此加以判别。
很多情况下,如果进展不够顺利,就得反复
试错,回到假设阶段寻找其他突破口。我们需要
放弃尝试一次便获得成功的完美主义。
仅根据新车销售数量的变化,还远远无法找
出“问题的关键”。因此,还需要将新车销售数量
分解为“本品牌首次购买数量”与“本品牌内再次购
买数量”的加法。也就是说,将首次购买本品牌
汽车的用户与再次购买本品牌汽车的用户加以区
分。
此时可以假设这两种用户之间存在不同的购
买动机。很多情况下,人们根据常识就可以建立
类似假设,了解相关业务的人,做出错误假设的
可能性也不会太大。
如果认为进一步分解能体现出数据特征的差
异,可以继续分解(虽然比较麻烦),从而提高
分析的准确度。在这个例子中,我们尝试进行了
更深入的挖掘。
图 B 根据图 A 进行数据整理的结果我们将“本品牌首次购买数量”,即首次购买
本品牌产品的顾客分为“从其品牌流入”的用户和
首次购车(非再次购买)的用户。
接下来,我们将“曾经买过本品牌产品、现
在需要再次购买的用户”分解为再次购买时仍然
选择了本品牌产品的用户和转为购买其他品牌产
品的用户。我们将重新购买新车的本品牌用户
中,再次选择了本品牌产品的人(回头客)的比
例作为“客户忠诚度”。
图 B 对这些内容做了数据整理。利用 WHAT
型假设进行数据分解,在结构上具有一个优点,即能够明确分解后的数据(例如“客户忠诚度”“从
其他品牌流入的数量”等)与上一级变量(“新车
销售数量”)以及最上层问题(“新车销售总额”)
之间的关系。
掌握了分解之后的各个项目的大致情况(倾
向),我们便可以找到更值得关注的关键。
从图 C 可以发现,新车销售总额在这 2 年期
间减少了大约 15%。这是所有问题的根源。根据
图 D 可知,平均单价在 2 年期间比较稳定,基本
在平均值(200 万日元)上下 5%(190 万~210
万日元)的范围内。至少在过去的一年里,没有
出现过价格明显下降的情况。另一方面,从图 E
可以看出,“新车销售数量”与销售总额一样,也减少了近 15%。由此可知,我们应该优先关注新
车销售数量的数据。接下来,我们可以进一步观
察图 F 所示的销售数量的明细。
图 C 新车销售总额的变化
图 D 平均单价的变化虽然两者在数量上没有太大差异,但本品牌
首次购买数量基本维持稳定,而再次购买数量却
在过去一年出现了减少。因此,从 WHAT 型假设
的构成也可以确定,“本品牌内再次购买数量”应
该是“新车销售总额”减少的主要
图 E 新车销售数量的变化图 F 新车销售数量明细的变化原因之一。不分析到这一步,即使发现“新
车销售额(数量)减少”,也仍旧无法回答“是否
存在其他问题”“如何断定这就是主要问题”等质疑
或追问。这样的话就难以保证分析的可靠性。
要注意的是,不能根据“本品牌内再次购买
数量”本身来判断“数量增加就好”或者“数量减少
所以不好”。我们应该意识到,根据单纯的数
量“增加或者减少”“多或者少”只能看到表面的结果,而很难对现状做出恰当的评价。
因为只有将“本品牌内再次购买数量”与当月
再次购买车辆的总人数(辆数)进行比较,才有
可能对现状做出评价。为此,需要进一步分解,掌握在所有需要再次购买的数量当中,有百分之
几的人实际再次购买了本品牌产品。
在看到某个数字时,我们要关注的是,“这
个数字能否真正评价我们想知道的问题”“这个数
字是在哪个范围产生的”“在与其他数据进行比较
时,是否需要统一标准(这个例子中的标准是每
月再次购买车辆的人数)”等问题。
将“再次购买数量”分为“本公司品牌”和“其他
公司品牌”,并不只是因为可以从理论上这样
做。之所以这样分解,是因为如果能确定这其中
存在问题,就可以采取具体的措施。了解再次购
买汽车时转为购买其他公司产品的人与再次购买
本公司产品的人的不同,才能采取对策。衡量这
一情况的不是具体数量,而是客户忠诚度
(%)。
只有将业务经验、常识及其他人的意见都动
员起来,才能获得创意和思路。因为数据自己是
不会讲话的。
反之,如果一个数据分析没有经历过类似的
思考过程,就可以说它没有目的和终点。实际
上,到处都可以看到这种“机械性”的数据分析。观察客户忠诚度的变化(趋势),可以发现
导致“本品牌内再次购买数量”减少的,不是整体
再次购买数量的减少,而是客户忠诚度的下降。
也就是说,分流至其他品牌的人数的比例增加了
(图 G)。
图 G 客户忠诚度的变化
对于“本品牌首次购买数量”,本来也需要用
相同的方法把握整体情况。但因为无法通过一本
书覆盖所有的内容,所以本书仅针对现状中已经
发现的“客户忠诚度”的问题,即如何让用户再次
购买车辆时仍然选择本品牌产品这一问题做进一步的深入挖掘。
比较的维度
虽然发现了客户忠诚度的问题,也还无法就
此锁定问题的关键。同样是客户忠诚度,在按照
某个维度比较时,还有可能会包含与问题有关的
要素和无关的要素。用户群体(年龄、职业、性
别等)、年数、车型(产品)等,从哪个维度来
比较客户忠诚度,才能锁定问题的关键呢?决定
维度之前的所有工作,都是建立 WHAT 型假设的
一部分。作为这个例子的可靠假设,可以展开以
下讨论。
按照不同的客户群体,例如不同年龄层的客
户来分析客户忠诚度,会发现对不同的车型来
说,人们的评价或喜爱
图 H 突出体现假设的要素(带灰色背景的项目成
为问题的关键)程度并不一定与年龄有关。也就是说,不同
的车型更能体现出人们对其评价或喜爱程度的不
同(图 H)。
根据这一假设,可以从“产品(车型)”的维
度来比较不同产品的客户忠诚度。首先,我们来
整理一下应该怎样比较(图 I)。
图 I 从产品维度进行比较(1)对新车销售数量和客户忠诚度在一定
时期内的平均值进行比较
对销售总额这个最根本的问题来说,是否存
在对其影响较大的车型和并无太大影响的车型
呢?虽然深入挖掘是好事,但如果挖掘的对象对
问题整体的影响微不足道,这个工作就不会产生
任何意义。根据对问题影响的大小来决定优先顺
序和关注程度,也决定了根据分析结果采取的措
施能够对解决问题产生多大贡献。
对销售数量的构成比例进行比较,可以发现
只有车型 A 的比例明显小于其他车型(图 J)。
那么如果将问题锁定为车型 A,即使采取了有效
的对策,对解决整体问题的影响仍然是有限的。
因此可以暂且降低车型 A 的优先顺序。
此外,按照不同车型,对客户忠诚度在 2 年
期间的平均值进行比较,只有车型 A 的客户忠诚
度显著偏低,其他车型之间没有太大差别(图
K)。也就是说,从“快照”的视点无法发现车型B 到车型 D 之间的差异。读者们肯定也会感
到“怎么会这样?”
图 J 不同车型在新车销售数量中的比例
图 K 不同车型的平均客户忠诚度
(2)对客户忠诚度的变化进行比较接下来,利用折线图对过去 2 年期间不同车
型的客户忠诚度进行比较。根据前面确认的结
果,暂且将车型 A 从比较对象中剔除,对其余 3
个车型进行比较(图 L)。
图 L 不同车型的客户忠诚度的变化
这时可以发现,车型 B 和车型 C 的客户忠诚度均自一年前开始逐渐降低。也就是说,转为购
买其他公司产品的比例提高了。具体数字是 2 年
期间从约 80%~90% 减至 50%~60%,降低了
30~40 个百分点。可见,拥有本品牌产品但需要
再次购买车辆的人中,这 2 年期间有近 30% 被其
他公司夺走。
(3)对一定时期内客户忠诚度的波动进行
比较
接下来对 2 年期间客户忠诚度的变异系数进
行比较(图 M)。
图 M 不同车型客户忠诚度在 2 年期间的变异系数
虽然车型 A 的变异系数明显高于其他车型,但该车型数量较少,对整体的影响很小,因此在
此就不涉及。从其他车型来看,正如前面的客户
忠诚度的变化(图 L)所示,车型 D 的波动较
大。从平均来看,车型 D 的客户忠诚度与车型
B、车型 C 几乎没有差别,在 2 年期间也并未出
现恶化,所以很难将其认定为直接影响问题的关
键。但从波动程度来看,车型 D 极有可能含有其他问题或风险,需要引起注意。
当数据的数量更多或者期间更长时,从趋势
的视点来观察波动的变化也会发挥一定作用,但
因为这里只有 2 年期间的数据,所以对这一点就
忍痛割爱,不做详细论述了。前文的这些结果可
以归纳为如下内容(图 N)。
图 N 对问题的关键的汇总
接下来,作为问题的关键进一步深入挖掘的
对象,可以锁定为车型 B 与车型 C。一个重要的
事实是,车型 B 与车型 C 的结果并不是通过偶然
的调查碰巧得出的。我们从逻辑上探索最根本原
因的同时,通过全方位的检验,将这 2 个车型锁
定为问题的关键。面对“为什么最后锁定这 2 个
车型”的质疑,能够提供确凿的“根据(论据)”,这一点可以确保整个问题解决过程具有可靠性和逻辑性。
分析到这一步,接下来要针对“为什么车型 B
和车型 C 的客户忠诚度会出现下降”,进行原因
分析。 第 3 章
采用交叉视点,锁定“原因”前面介绍了如何用平均值和标准差等指标
来“计算每月平均销售额”“比较每家店铺来店人数
的波动”等。此外还介绍了如何在此基础上从某
个维度对大小、比例或波动等进行比较,划定对
象数据的范围,锁定问题的关键。
那么,从这些指标可以获得哪些信息呢?不
过是现有数据范围内的结果或者现状。进一步分
解销售额的构成要素,对每种商品、每个店铺、不同月份等进行深入研究(分解),能够更进一
步锁定具体的问题的关键。不过其结果仍然不过
是“更为细致的现状”。
在实际工作中,我遇到的很多情况是:虽然
通过数据分析细致入微地了解了现状,但到锁定
原因的阶段,却又用突兀的主观见解来代替客观
事实。“这一步也能展现出客观根据就完美了”,像这种令人深感惋惜的例子屡见不鲜。
通过在日产工作的经历,我切身感受到,接
下来的这一步能否用数据说话,会导致后面的工
作方法截然不同。因为人们对其认可程度完全不
同。尤其是如果在某个关键点突然变成定性的主观逻辑,原本连贯的“故事”就会戛然而止,整个
分析也会变得苍白无力。
在解决实际问题的过程中,正确了解现状作
为第一步确实非常重要,但绝大多数情况下,这
一步的最终目的应该是锁定导致该结果的原因,为解决问题而采取必要的措施(行动)。然而很
多运用数据的过程,其实都没有超出了解现状这
一步。那么为什么无法从了解现状的阶段继续走
下去呢?
这是因为人们的思维被限制在销售额、来店
人数等单个维度的范围之内。不摆脱限制,就无
法跨出了解现状的范围。假设使用平均值、标准
差来把握“XX 商品的销售可能存在问题”的现
状,或者将其锁定为问题的关键,那么接下来就
应该考虑“为什么 XX 商品的销售额会下降”。
再接下来,除了销售额以外,还必须关注有
可能影响销售额的种种原因(驱动因素)。例如
可能包括产品、客户服务、宣传促销、价格政策
等。知道了这些因素中有哪些影响销售额、哪些
并无影响,说不定就能够锁定原因。
表示二者关系的“相关系数”
像这样,关注 2 种以上数据之间的关联程
度,就可能获得仅从一种数据中绝对无法得到的
信息。换句话说,就是将视野从一维的数据,扩大为关注 2 个维度,有意识地转换思路和视点。
为了把握 2 种数据之间的关联,首先需要确
认它们是否密切相关。
“相关系数”可以表示相关程度,计算相关系
数的方法叫作“相关分析”。相关系数的值介于-1
和+1 之间(图 3-1)。
图 3-1 相关系数
相关系数越接近 1,正相关的程度越高。也
就是说,一方数据增加,另一方数据也会随之增
加。二者完全成比例(如果一方增至 2 倍,另一
方也随之变为 2 倍)时的相关系数最大,是 1。
相关系数为 0,表示两个数据没有任何关联,互
相独立。实际业务中使用的第一手数据,一般都
不是 0 或者 1 所表示的完全不相关或者完全成比
例相关,而是介于二者之间。Excel 的小妙招
那么,相关系数是什么数值时,可以判断
为“相关”呢?判断相关系数的大小并无一定之
规,一般 0.7 以上可以视为“高度(正)相关”。
0.7 并不是一个严格的标准,现实中根据不同的
分析目的和所需准确度,有时 0.5 以上即可视为
相关。
同样,当相关系数为负数时,两种数据则
为“负相关”。负相关只是数据的变化方向不同,原理与正相关一样。也就是说,如果一方数据增
加,另一方数据则会随之减少。
以下为相关分析的具体事例。例如,在根据
预计来店人数来决定营销费用的情况下,来店人
数与营销费用之间正相关的程度越高,营销费用
的效果越好。投入的营销费用越多,来店人数就
增加越多。但如果二者之间没有足够的正相关关
系,营销费用就很有可能白白浪费。图 3-2 为运
用 Excel 函数计算相关系数的例子。
使用 CORREL 函数可以计算相关系数。
在“=CORREL”后面的括号中指定两种数据的范
围,并用逗号隔开,即可立即得出相关系数。在
图 3-2 的例子中,相关系数为 0.84,可知二者高
度相关。图 3-2 来店人数与营销费用的变化作为参考,我们再看运用这些数据制成的散
点图(图 3-3)。纵轴为来店人数,横轴为营销
费用。由于具有 0.84 的高度相关,纵轴会横轴的
增加而增加,从直观上也可以确认到向右上方上
升的趋势。
图 3-3 营销费用与来店人数相关如果两个数据不相关,散点图就会呈现出不
规则分布。因此除了相关系数之外,用散点图从
直观上展现两种数据之间的关系,有时也可以发
挥重要的作用。尤其对下面 3 种情形来说,散点
图会很有用。
①能够发现明显的离群值(出于某种原因,明显偏离其他数据的数据)。离群值可能会产生
影响,导致整体的相关系数变低。如果能够合理
去除离群值,那么其他数据的相关系数可能会有
不同。
②相关系数能够体现两种数据之间的比例关
系(线性关系),但并非所有数据之间都是比例
关系,也可能是其他类型(曲线等)关系。这些
其他类型的关系可以不依赖相关系数,从散点图
中看到。
③借助散点图,对相关分析、相关系数一无
所知的人也可以理解分析的结果。
并非所有情况都需要制作散点图。可以先通
过 CORREL 函数计算出相关系数,然后再针对重
要内容用散点图加以确认。锁定原因也需要“假设”
第 1 章中曾经提过,着手处理数据之前,应
该首先确认目的或问题,在此基础上提出假设,这一点非常重要。在分析问题原因时,假设也同
样有效。与原因有关的假设叫作 WHY 型假设。
例如,在刚才的例子中,目的或者问题
是“增加来店人数”。为此首先需要找出影响来店
人数这个被解释变量的原因。一般来说,在自己
所从事的行业或业务中,找出可能影响最终结果
的原因并非难事。
但需要提防一些陷阱,防止受前例束缚的主
观臆断,或者将视野限定在平时常见的数据范围
之内。
克服常识的限制,不因为“这是平时一直关
注的数据”“前辈、上司都这么说”而放弃思考,而
是客观地进行探索,这也是从事数据分析的条件
之一。此外,还有 2 点需要注意。
(1)寻找接近结果的原因
例如,针对提高销售额的目的,将“营销费
用”作为原因的话,销售额和营销费用需要通
过“来店人数”才能具有关联。三者之间是“销售额
—来店人数—营销费用”的链条结构。
但实际上不只有来店人数会影响到销售额,而营销费用与销售额的直接关联就更为薄弱。所以这两个数据之间的相关关系就不太容易把握准
确。因此,最好先分析类似来店人数与营销费用
等关系更为紧密的数据之间的关联,在关联更密
切的数据之间考察相关关系。
(2)选择能够采取对策的原因
即使可以从理论上找到很多原因,并断定其
与要实现的指标具有高度相关,但如果都是自己
无法控制的外界原因,那么这个分析结果就派不
上用场。如果分析的目的就是研究倒也无妨,但
如果是为了在实际工作中实现目标或者解决问题
而做数据分析,这样就会毫无意义。建立假设时
就要设想“假设得到验证,就能采取哪些对策”,这也是考验数据分析者能力的一个方面。
相关系数的四大优势
如果你过去只会从平均值或图表中探索数据
含义,那么今后在锁定问题原因时可以使用相关
分析这个得力工具。这是帮助数据分析在实际业
务中向前迈出一大步的最佳方法之一。因为相关
分析具有以下四大优势。
(1)能够立即得出答案
正如前文介绍的,运用 Excel 的 CORREL 函
数,立刻就能得出相关系数。对每天忙于日常业
务,需要在短时间内找到答案的一线工作人员来
说,相关系数可以节约时间的特点极其重要。在短时间内得到答案,就意味着可以在有限时间内
多次尝试。
我们不一定从一开始就能得到预想的结果。
所以进行数据分析时,能够在短时间内检验多个
假设,这个优势不容忽视。
(2)简单易懂,更容易得到对方理解
相关分析的结果(相关系数)介于-1 至+1
之间,对任何人来说都很易于理解。而且无须向
对方详细解释“相关”的含义(其他分析方法的名
称大多令人费解)及分析结果的意义。实际工作
中,数据分析的结果需要得到理解和认可,因此
是否便于沟通也很重要。在这一点上,相关分析
可以说是完全合格的。
(3)能够分析单位不同的数据
在工作中,输入的信息与输出的信息不一定
都能用同样的单位表示。代表性例子是,发送网
页宣传单的次数与来店人数之间的关系。输入信
息是发送网页宣传单的次数,单位是“次”,而输
出信息是来店人数,单位是“人”。两种数据单位
不同,无法进行四则运算,或者单纯用数值进行
比较,但做相关分析就完全没有问题。也就是
说,相关分析的方法通用性很高,不受单位限
制,可广泛用于现实业务。
(4)为回归分析等进一步分析做铺垫
将数据的相关关系写成公式,就可以通过“回归分析”(第 4 章)做出更为具体的预测或
制定计划方案等。也就是说,相关分析还可以为
下一个分析阶段提供线索。
相关分析可以单独运用于实际业务,也可以
为其他深入分析做准备。这样可以避免只用单独
的一种方法结束分析,而是用其他方法做补充,或者组合使用,从而通过多个分析形成脉络,描
绘出解决问题的完整故事。正如我多次强调的,贯穿始终的故事可以增强分析的论据,显著提高
对方的理解和接受程度。
我在日产工作时,曾在很多项目中运用过相
关分析。对那些全面掌握商业管理领域各项技能
的高管,不用解释“什么是相关”,相关分析可以
被所有高层管理者积极地接纳。即使有人不了解
相关分析,也可以使用散点图直观展现两个数据
之间的关系,获得相同的效果。散点图的直观效
果与相关系数的定量分析相辅相成,在很多场合
都曾发挥出卓越效果。
除了需要高层管理者进行决策的场合,在销
售部门的日常业务中,相关分析也能够发挥威
力。一般来说,汽车行业拥有丰富的销售数据。
我刚入职时,也会收到各种途径汇报上来的销售
业绩,但这些数据只不过是从各种角度展示的业
绩而已。半路入行的我最感兴趣的是,这些数据
与结果之间具有怎样的联系、会受到怎样的影响等问题。因此我使用各种数据,逐一考察它们与
结果类数据之间的相关关系。
这么做的结果,是一些之前“只是结果”的汇
报可以发挥更大的作用,使我洞悉影响结果的原
因。我所属的部门负责区域销售,过去没有将数
据组合在一起看过,而这种做法作为一个新突破
口或新视点,成为有效利用数据的第一步。
找到相关分析的着眼点
那么,应该如何将相关分析用于眼前的问题
呢?有一个降低难度的方法,就是记住常见的应
用模式。图 3-4 列举了在解决问题的实际工作中
应用相关分析的两种模式。
图 3-4 在实际业务中运用相关分析的着眼点第 1 种模式通过相关分析,找出对最终目标
具有密切影响的原因。例如,针对“销售额”这个
最终目标,(通过假设)找出“顾客满意度”“降
价”“产品魅力”等可能影响该目标的因素,观察这
些因素与其相关程度的高低,可以得知按动哪个
按钮(原因),会对销售额产生剧烈影响。这样
就可以将资源转移到与目标关系更为直接的活动中。反之,对那些本以为有助于增加销售额而一
直进行的活动,如果未能发现它们与目标的相关
关系,结论可能就是需要重新考虑是否继续这些
活动。
日产公司的全球总部也会面向各地区开展各
项策划或活动。但寄予厚望而策划的活动,有时
却未能如愿,或者最初虽然有效,但几年后就变
得收效甚微。负责与当地沟通的部门,常能听到
来自一线的类似反馈。
实际上,对正在开展的活动,很难对其成果
展开讨论,或者在讨论之后终止活动。有时开展
活动这件事本身更容易被视作成果,无法客观证
明“已经没有效果”,是很难决定终止活动的。
这种情况下,新的项目接二连三地分派到当
地,却无法确定哪些项目可以不必再继续下去,当地可能就会陷入项目不断增加的困境。为了解
决这个问题,我们曾经多次尝试用相关分析来检
验效果。这样一来,不是由某个个人做决定,而
是通过“数据”“客观地”展现效果的有无,从而反
映出真实情况。用数据区分有效的项目和无效的
项目,可以对有限的资源实现最优化配置。
第 2 种模式是在某个业务流程中找到瓶颈。
业务流程中包含金钱、信息等的流动,理想的状
态是所有要素都畅通无阻地抵达最终阶段(输
出)。但如果某个环节出现了停滞,预想的输出就无法实现。让我们来看一个具体事例。
假设某计算机批发商向各零售店支付奖金,以便它们在各自店铺进行减价促销。零售店将奖
金用来减价,从而增加销售。其具体流程如图 3-
5 所示。
图 3-5 在销售过程中应用相关分析
面对“计算机销售未取得预想业绩”的问题,需要在实现“销售台数”这一最终输出的流程中,找出问题(瓶颈)所在。找不到问题,就无法采
取适当的措施。按照设想,本来应该是以下情
形:
“每台计算机的奖金金额”越高,零售店“每
台计算机的减价促销金额”越高?“每台计算机的减价促销金额”越高,购买计
算机的顾客越多
其中任何一项存在问题,在“每台计算机的
奖金金额”与“每台计算机的减价促销金额”之间,或者“每台计算机的减价促销金额”与“销售台
数”之间就会看不到相关关系。
奖金被用到哪里了
进行相关分析之后,各数据之间可以得出如
图 3-6 所示的相关系数。
计算机 A 的情况是,奖金被用于减价促销
(相关系数:0.81),但减价并未体现为销售台
数的增加(相关系数:0.29)。看来计算机 A 并
不能依靠减价的方法来增加销量。这样,就找到
了店铺减价流程中的一个瓶颈。计算机 A 需要立
即改为采取减价以外的其他措施。
计算机 B 的情况是,似乎只要减价就可以期
待销售台数增加(相关系数:0.94),但零售店
并未将奖金用于减价促销(相关系数:0.34)。
这样,就发现了零售店在减价流程中造成的瓶
颈,也许是零售店对一线员工管理不利造成的,也许是零售店故意将奖金揣进了自己的口袋。此时需要采取的措施是对零售店加强指导,或者将
销售渠道改为其他零售店。
图 3-6 相关分析的结果
像这样,关注流程之间传递的数据,分析它
们之间的相关关系,有时可以发现需要解决的问题。在实际工作中应用相关分析,一开始可能比
较难,但如果我们随时意识到图 3-4 所示的 2 种
模式,将其套用到各种情形,就能通过反复尝试
逐渐培养出这种视点和直觉。
相关分析探索的是两种数据之间的相关系
数,但实际业务中,需要考察的对象可能不只两
种。例如下面的情形,假设这是过去 15 周内各
种商品销售数量的数据(图 3-7)。
图 3-7 过去 15 周内各种商品销售数量用 Excel 加载项进行批量分析
图 3-7 的样本量在实际工作中其实还不够充
分(一般认为最少需要 30 个样本),不过我们
就暂且用它来粗略地考察一下各商品销售数量是
否相关。然后可以根据其结果提出假设,在卖场找到有利于顾客依次购买的摆放方式。从冷冻食
品到面包,5 种商品两两组合,可以得出 10 种模
式。对这种规模的数据,可以用 Excel 的
CORREL 函数逐一计算出相关系数。
但如果商品种类变为 10 种,就会产生 45 种
组合模式。这时再用 Excel 的 CORREL 函数计算
相关系数会非常吃力。这种情况下,可以使用
Excel 标准配置的“加载项”功能。这里以 Excel
2013 为例进行说明。其他版本可能略有不同。
首先在“文件”菜单中单击“选项”。在接下来
出现的页面点击“加载项”,并从右侧列表中选
择“分析工具库”(图 3-8)。
图 3-8 选择加载项点击页面下部的“转到”按键,在接下来的画
面中勾选“分析工具”,点击“确定”。这样就在
Excel 中加载了分析工具。加载成功以后,同一
台计算机以后无须再次加载,非常方便。图 3-9 勾选分析工具
加载完成后,“数据”标签右侧会显示“数据分
析”。点击“数据分析”,在图 3-10 所示页面选
择“相关系数”。点击“确定”后,将数据所在范围
指定为“输入区域”,在“标志位于第一行”前划
,点击“确定”完成操作。于是前文的例子就可
以得到图 3-11 所示结果。这里将小数位数设定为两位。
图 3-10 选择“相关系数”
图 3-11 5 种食品的相关系数矩阵(分析结果)图 3-11 显示了 5 种数据之间所有组合的相关
系数。从中可以发现,有 3 种组合,即冷冻食品
与酒、酒与副食、点心与面包的相关系数超过
0.5。可能是最近独自一人吃晚餐的顾客比以前增
加了,酒与冷冻食品或副食的销售情况比较相
似。点心与面包的组合可能是面向儿童顾客的。
进一步调查星期几、哪些商品或者哪些时间段的
销售情况更好等信息,也许可以得到更深入的结
果。
这样一来,很容易就可以找到下一步分析的
线索。数据种类较多的相关分析中,Excel 加载
项是一个强大的工具。对数据分析感兴趣的读
者,不妨立刻启动加载项尝试一下。
利用矩阵排列优先顺序
相关系数不仅能单独使用,还可与其他指标
组合起来进一步应用。例如,图 3-12 的例子是温
泉旅馆的顾客问卷调查结果。除了综合满意度之
外,该问卷调查还包括顾客对其中 5 个因素的评
分。
图 3-12 温泉旅馆顾客满意度问卷调查结果“综合满意度”决定了顾客是否会再次光临,因此需要判断在哪个方面加大力度才能提高综合
满意度。旅馆的资源(经费、时间、人员等)有
限,需要对 5 个因素进行比较,决定其优先顺
序。为此,我们考察了各因素与综合满意度的相
关系数(图 3-13)。图 3-13 各因素与综合满意度的相关系数
同时还计算了各个因素的平均得分。仅凭这
些仍然难以做出判断,所以又以相关系数为纵
轴,以平均值为横轴,做成图 3-14 所示的矩阵。
为了明确评价标准,我们将综合满意度的平
均值(61.6 分)和相关系数 0.5 做了突出显示。
与综合满意度具有相关关系(以 0.5 为标准)
的,包括“料理”“洗浴”和“服务态度”。“料理”与
综合满意度的相关程度最高,不过“料理”的得分
已经达到了较高水平,远远高于平均值,因此与
其他方面相比,可改进的余地比较小。当然,如
果“料理”得分降低也会产生严重的后果,所以必
须要维持现状。
图 3-14 顾客满意度矩阵另一方面,“洗浴”与综合满意度有相关关
系,但平均得分较低。因此“洗浴”方面还有较大
的改进余地,而且改进越多就越能提高综合满意
度。同理,继“洗浴”之后需要强化的是“服务态
度”。
需要注意的是,这里将与“综合满意度”的关系的密切程度作为一个维度,将“得分”数值作为
另一个维度,这样可以把性质迥异的 2 个维度结
合起来,互相补充对方所欠缺的信息。
也就是说,只靠相关系数体现的关系密切程
度,无法看出“现在的得分是高还是低”。另一方
面,仅凭“得分的高低”,也无法了解它对综合满
意度有多大贡献(恐怕很多人都有过仅凭得分高
低做判断的经历吧)。将 2 个维度组合起来,可
以补充缺失的信息,能够更深入、更清晰地体现
出整体情况。
像这样,需要客观地决定优先顺序时,可以
通过 2 个维度展现其相对定位。这样不仅可以使
分析更具深度,也更便于与其他人共享直观化的
信息,在组织内形成共识。请想象一下对每个维
度单独展开讨论的情形,与只用平均值单纯比较
相比,运用相关系数得出的结果更易于展开讨
论。
来自不同部门或具有不同国籍等多样化背景
参与者之间,很难实现相互理解并达成共识。不
过有一些方法确实可以让所有人都更容易接
受。“2 个维度”的直观方法就是其中之一。它最
大的优势就是,既可以让人从主观上理解,同时
又能够提供客观依据。
我曾经多次使用过这个武器。例如有时需要
在短短 5 分钟的有限时间内,同时展示结论和根据,征得所有高层管理者的一致同意,那么这个
方法就可以发挥绝佳效果。
不要随便编故事
相关分析既有效又简单,稍做尝试即可得出
结论,非常适合实际应用。但另一方面,如果理
解或使用方法不当,相关分析也有可能得出错误
的结论。如果能在分析过程中发现这些错误倒也
无妨,但这一点往往很难做到。实际上,有很多
情况必须依靠分析者本人的细心、知识或经验才
能发现。没有一种方法可以保证“这样做绝对没
问题”。
因此,我们在学习分析方法的同时,还需要
了解它的注意事项。随时有意识地进行检查,可
以大大提高数据分析的质量。那么,都有哪些陷
阱呢?以下介绍 4 种常见的情况。
陷井 1 因果关系
得知“具有密切关系”之后,人们常会下意识
地把某些故事套在上面。其中最容易接受的故事
就是因果关系。将信息碎片随意拼接起来,编造
出若有其事的故事(因果关系),然后再用它来“说服”自己,这种情况在日常生活中十分常
见。进行客观分析时,尤其需要注意这一点。
例如,“媒体曝光度”与“咨询件数”之间似乎
具有高度相关。那么是否就可以得出结论,认
为“进一步增加媒体曝光,就能增加销售额”呢?
答案是“也许是,也许不是”(图 3-15)。
也许是由于“咨询件数”的增加,引起同行业
的关注,才导致了“媒体曝光度”增加这一结果。
图 3-15 媒体曝光度与咨询件数之间是否具有直接
关联?
相关关系并不一定就是因果关系,这一点非
常重要。是否给相关关系套上因果关系的故事,是分析者个人判断决定的。所以要清楚,这并不
是分析结果所展现的内容。根据同样的分析结
果,却有可能得出与原本的因果关系截然相反的解释。
例如,二氧化碳浓度与气温变化之间确实存
在相关关系。人们一般认为,“因为二氧化碳增
加,导致地球变暖”,但其实也有论文提出截然
相反的观点,认为是因为气温升高,使海水中的
二氧化碳被排到大气中,导致二氧化碳浓度上
升。在这个例子中,对于哪个是原因,哪个是结
果,人们做出了不同的解释。仅靠相关分析,无
法明确其因果关系。
作为检验因果关系的方法之一,可以考察 2
种数据发生变化的时期(顺序)。因果关系应该
是原因变化在先,结果随后发生变化。
陷井 2 疑似相关
任何情形都可以通过计算得出相关分析的结
果(相关系数),但这个结果未必都是由“直
接”相关关系导致的。尤其是在复杂的商务世界
中,只用一对一的直接关系就能解释的情况其实
很少。如果仅凭计算结果创造故事,很可能会得
出有悖常识的结论。
例如,假设“顾客满意度”与“销售额”高度相
关。那么是否就能直接得出“改善服务,提高顾
客满意度,就能进一步提高销售额”的结论呢?对此,答案依然是“也许是,也许不是”。仅凭相
关分析的结果无法得出真正答案。如图 3-16 所
示,这种情况要求分析者考虑是否存在“第 3 个
要素”。
图 3-16 顾客满意度与销售额之间可能存在“第 3
个要素”在这个例子中,如果还存在分析中没有体现
出来的“减价”,就不能否定减价导致销售额和顾
客满意度同时提高的可能性。顾客满意度与销售
额同时增加,数字上得到的结果显示两者高度相
关,但我们却不能就此认定二者有直接关系(例
如因果关系)。在这种情况下不能把思考停留在
眼前的数据上,还要随时提出多种假设,分别考
察它们之间的相关关系,才能从某种程度上降低
风险。
如何解释分析结果,需要分析者亲自判断。
扩大解释的选项范围,可以避免结论受到狭隘思
路的限制。
陷井 3 数据的范围
所有的数据分析都有一个共同点,就是分析
所用的数据范围不同,会对结果带来很大差异。
图 3-17 显示了某保险产品销售专柜员工“接受培
训的次数”与“服务态度在顾客问卷调查中的得分
(服务态度得分)”的关系。如果一股脑地计算
所有数据的相关系数,可以得到 0.40 这样一个并
不算高的数值。
不过我们并不能据此得出“接受培训次数的
多少对顾客满意度没有贡献,因此没有意义”的结论。因为如果假设“只有达到一定次数之后,培训效果才会显现”,那么就有可能在散点图上
发现前后出现变化的点。图 3-17 的例子很明显,以接受培训 20 次左右为界,服务态度的得分趋
势开始发生变化。也就是说,需要对分界点的前
后加以区分,重新进行相关分析。
图 3-17 培训的效果检验单独计算接受 20 次培训以后的相关系数,可
以得到接近 1 的高度相关的数值。这个“选择分
析范围”的工作也要由分析者来做。分析者能否
针对数据范围提出适当的假设,有可能会导致截
然相反的结论。
除了最初就知道应该着眼于何处的情况,一
般情况下,可以用散点图将数据的相关关系直观
地展现出来,然后再逐一探索应该从何处着眼,这也是一个关键。
陷井 4 离群值
还有一个与其他分析方法共通的注意事项,即对“离群值”的处理。离群值指由于某种原因,与其他数据差距比较大的数据。分析对象中是否
包含离群值,会使相关系数产生很大差异。图 3-
18 是从 25 家经销商收集的汽车分期付款销售数
量。从整体上可以看出,随着贷款利率(横轴)
的升高,分期付款销售数量(纵轴)呈下降趋
势。
图 3-18 分期付款销售业绩在右上方,有一家店铺并不符合这个倾向。
它就是离群值。连同这个离群值一起计算,得到
的相关系数为-0.44,并不太高。但如果剔除离群
值,相关系数就会猛增为-0.74。
那么是否应该把离群值全都剔除在外呢?答案是“原则上,没有明确理由是不可以的”。
如果可以随意删除数据,就有可能出现分析
者操纵分析结果,导致分析丧失客观性和可信度
的情况。所以,发现离群值时,首先要调查这个
数据为什么会出现偏离。在此基础上,如果能找
到合适的理由,则可以将其从对象中剔除,再进
行分析。这个事例中,由于只有右上方的经销商
实施了极为优惠的首付政策,所以分期付款销售
数量的增长与贷款利率无关。
收集此类无法从数据中获知的信息,并进行
判断,也是分析者的重要工作之一。像图 3-18 一
样,用散点图加以直观展现,会更容易发现离群
值。
综上所述,与其他方法相比,相关分析有很
多需要分析者多加留意、开动脑筋的地方,这与
它能够用于各种问题和情况的较高通用性互为表
里。虽然分析者的技术和直觉可能永远也达不到
满分的水平,但随着分析经验的增加,其能力自
然也会不断提高。
「解决问题的故事 3」
第三步:建立 WHY 型假设,关注影响客户忠诚度的要素
锁定问题关键并进行检验之后,确定车型 B
与车型 C 的客户忠诚度自一年前开始下降,导致
很多顾客再次购买时转为选择其他公司产品,影
响了销售数量和销售额。
那么为什么会出现这种情况呢?可以通过关
注客户忠诚度与其他数据之间的相关关系来锁定
原因。
虽然也可以对客户忠诚度和可能相关的现有
数据逐一进行相关分析并建立假设,但为了保证
思路不受数据或随机因素的影响,我们首先从理
论上进行思考。
要寻找原因,可以构建“WHY 型假设”。
WHY 型假设是将问题放在最顶层,然后列出能
够回答“为什么”的所有可能答案。接下来,再针
对这些答案,同样重复“为什么”的提问,进一步
深入挖掘。
图 A 从“用户再次购买时为什么选择其他公
司产品”的疑问开始,最终将问题归纳为“售后服
务”“产品”和“价格”3 个关键词。总结关键词,可
以便于检查是否有遗漏或缺失。一句话不太容易
在大脑中留下印象,而只列出关键词,则比较容
易发现遗漏或者重复。图 A 车型 B 的客户忠诚度为什么会下降(WHY
型假设)
至于需要深入挖掘到何种程度,我认为只要
最终能够锁定原因,并设想出具体措施即可。这
个事例中,有一个原因选项是“因为其他公司推
出了具有竞争力的产品”。对这个原因,无论如
何深入挖掘,解决方法也只能是“开发更有竞争
力的产品”等中长期措施,不能成为尽快增加销
售的方法。因此,可以暂且将其优先顺序推后。
也有可能这才是根本原因,所以我们不是无计可施就忽视它的存在,而是因为目前需要优先
调查能在短期内采取对策的原因。与那些需要严
密调查理论上的所有原因,写成报告的情况不
同,商务人士需要根据目的、制约条件和实际情
况,采取灵活的措施。
那么,先来看综合满意度(月份平均)与客
户忠诚度是否相关。因为没有区分不同车型的满
意度数据,只有包括所有车型的综合满意度,所
以需要计算它与各车型客户忠诚度之间的相关系
数。
如图 B 所示,整体客户忠诚度与综合满意度
之间的相关系数为 0.64,由此可知一般来说(不
区分车型),两者之间存在相关关系。再看不同
车型客户忠诚度与综合满意度的相关,车型 B 和
车型 C 与综合满意度的相关系数分别为 0.75、0.69,数值较高,可以确认为相关。
此外,没有被列为问题关键的车型 A 和车型
D 与综合满意度不相关,决定顾客再次购买时如
何选择的,可能是竞争对手产品等其他原因。
只看综合满意度,并不能决定“应该采取哪
些措施”。这样的话仍然无法对实际业务产生意
义,所以接下来还要再次应用相关分析来探
讨“售后服务”“产品”“价格”与综合满意度之间的
相关程度。每一种车型都有数据,所以就按照不
同车型分别来看(图 C、图 D)。图 B 不同车型客户忠诚度与综合满意度的相关系
数图 C (车型 B)各项要素与综合满意度的相关图 D (车型 C)各项要素与综合满意度的相关通过图 C 可以发现,对车型 B 来说,与同类
产品的价格比(相对而言是贵还是便宜)对综合
满意度的影响较大。二者的相关系数为-0.72,表
示价格越高,顾客满意度就会越低。需要注意其
变化趋势是相反的,也就是说,车型 B 的用户对
价格比较敏感。
对车型 C 也进行同样的调查,结果为图 D。
可知对车型 C 来说,售后服务满意度与综合满意
度高度相关(0.59)。
同样是综合满意度,车型 B 的用户与车型 C
的用户所重视的关键点完全不同。当然,我们也
可以越过综合满意度,直接考察每个车型的客户
忠诚度与“售后服务”“产品”“价格”等数据的相关
系数。
不过在提出假设时,直接连接到具体项目,就有产生“逻辑跳越”的风险,可能会有人质
疑:“客户忠诚度为什么会与售后服务直接联系
在一起”。为了保证自己的故事能够令人信服地
说明整个经过,需要细心地构建假设,依据假设
依次分析,这会左右整个分析的可信度。
将前面所有分析组织起来,其结构如图 E 所
示。它体现了对问题进行深入挖掘的整个过程。
要注意,必须确保沿着挖掘出的原因逆流而
上,一定会达到“销售总额减少”这个最根本的问题。
此外,图 E 还体现出,分析者并不是只分析
了偶然想到的某些项目,而是通过这个构造避免
了遗漏或重复,并对那些最终确定并非问题或原
因的项目也进行了检验。另外,对话框里的内容
解释了停止深入挖掘的原因。这样一来,听众就
可以明白,分析者说到解决问题、进行分析或企
划的目标时,“该工作的最终目的”这一重要视点
始终没有动摇。锁定原因之后,接下来就是制定
改进(解决)措施了。
图 E 分析得出的解决问题的故事的构造 第 4 章
制定对策,要依据“方程式”前面介绍了如何确认 2 个数据之间的相关程
度并锁定原因。相关分析具有简单实用的优点,即使数据单位不同[例如“人”和“钱(日
元)”等],也可以进行分析。但在实际工作
中,要想充分发挥数据分析的作用,获得对方的
认可,还需更进一步的工作。
例如,相关分析的结果表明,“在网上公布
视频的频率”与“购买数量”高度相关(图 4-1)。
根据数据得出这一发现虽然有意义,但设想一
下,如果把“高度相关”作为结论汇报给上司,他
会做出怎样的反应呢?
上司一定会问:“我知道它们高度相关了。
那么,公布视频的频率对购买数量到底有多大影
响呢?”了解相关程度的大小,对锁定原因非常
有效,但只靠相关分析却无法得知这个原因会对
目标产生多大影响。
虽然找到了高度相关的原因,却仍然不知道
要改善到什么程度才能对目标带来变化。而对掌
管业务整体运营的人来说,这是一个非常重要的问题。
图 4-1 公布视频的频率与购买数量的关系
此外,上司可能还会问及措施或计划:“那
么具体要采取哪些措施,做到何种程度呢?”也
就是说,相关分析归根结底还只是锁定原因,而
无法规划下一步的措施。
现实工作中,人们需要根据数值采取行
动。“为什么要进行分析”“计划根据分析结果做什么”,这些视点和思维方式,对实际业务中的数
据分析工作具有极为重要的意义。
因此,继相关分析之后,还需要“一元回归
分析”登场。一元回归分析可以将 2 个数据之间
的相关关系表现为具体公式。前文的例子就可以
通过一元回归分析计算出“在网络公布视频的频
率”为多少时,“购买数量”会达到多少。
10 秒钟完成一元回归分析
例如,如图 4-2 所示,假设有 30 个星期内每
周公布视频的频率和购买数量的数据。首先使用
CORREL 函数确认二者之间的关联,得出相关系
数为 0.80,属于高度相关。接下来,可以按照以
下步骤,得出“公布视频的频率”与“购买数量”的
数值关系。
图 4-2 30 个星期内每周公布视频的频率和购买数
量的数据(1)用散点图展现 2 个数据间的关系
绘制散点图时,一般需要注意确认将哪个数
据设为纵轴(图 4-3)。除了清晰明了、简单易
懂之外,散点图还必须保证在之后的数值化过程
中,用纵轴表示“输出(结果或目的)”,用横轴
表示“输入(能够控制的变量)”。散点图的原则
是通过控制横轴的变量,引起纵轴变化。在Excel 中将纵轴的数据放在右侧,横轴的数据放
在左侧,就可以得到想要的散点图。
图 4-3 公布视频的频率与购买数量的散点图
(2)用散点图求回归方程选择散点图上任意一个点,点击鼠标右键,在菜单中选择“添加趋势线”。然后在图 4-4 所示
的页面中勾选最下面的“显示公式”和“显示R平方
值”。如图 4-5 所示,散点图上就会出现一条大致
从数据中心通过的直线,以及体现纵轴与横轴数
值关系的公式。
图 4-4 勾选在图表中显示公式和R平方值依据具有相关关系的数据,上述操作可以在
10 秒钟之内完成。这个方法与相关分析一样,能
在实际工作中发挥巨大优势。在实际工作中,我
们收集到的数据,并不一定都能预测出结果,或
者说可能大多数都无法预测结果,所以需要在较
短时间里多次试错。能在 10 秒钟之内完成一次
分析,也就意味着可以在有限的时间里进行多次
检验。
图 4-5 散点图上的回归方程和R 平方值(R2)那么,应该如何解释这个结果呢?散点图上
的公式为:
y=3.330 3x+84.911
在这个例子中,该公式可以理解为:购买数量(个周)=3.33×公布视频的频率
(次周)+84.9
可能很多人都发现了,我们曾经在中学数学
课上学过这个公式,表示直线y=ax+b (a是斜
率,b是常数)。这条直线就是图 4-5 中的直线。
一元回归分析公式用y=ax+b的形式来表现这条直
线,这就是回归方程(由此画出的直线叫作回归
直线)。
回归直线作为零散分布的原始数据的代表,是距离各点(数据)之和最小的直线。不过除非
所有数据都排列在同一条直线上,否则回归方程
与各点之间就一定会有偏差。就这一点而言,回
归方程无法完美地体现原始数据。
这样一来,就还需要另一个指标,来衡量回
归方程(作为原始数据的代表)的可信度。这个
指标就是散点图里写在回归方程下面的R2。
让我们再来看看相关分析。如果原始数据完
全相关(相关系数=1),那么所有的点都会排列
在一条直线上;但如果不是完全相关,相关系数
就会随着数据对完全相关(直线)的偏离,从 1
开始逐渐减小。其实,越偏离直线,指标越小于
1 的现象也适用于一元回归。数据偏离越远,回
归直线就越不能准确地代表原始数据,R2表示数
据的偏离程度。关注相关系数的平方
接下来,我们来看R2。在图 4-2 的例子当
中,相关系数是 0.80。其平方为 0.64,与从散点
图求出的R2 =0.640 2 的数值一致。R2就是相关系
数的平方。因此我们对R2也可以采取与相关系数
相同的评价标准。
多数情况下,我们将相关系数大于 0.7,或
者稍微放宽一些,将相关系数大于 0.5 的情况视
为“相关”。0.7 和 0.5 的平方分别为 0.49 和
0.25。大多数情况下,我将 0.7 作为相关系数的
标准,将 0.49 作为R2的标准,大于这个数值则判
断数据相关,可以放心地使用回归方程。对同一
数据来说,根据相关系数判断,还是根据R2判
断,其结果是相同的。
顺便说一下,x叫作“自变量”或“解释变
量”,y叫作“因变量”或“被解释变量”。不知道这
些专用名词也不会影响分析,不过与了解回归分
析的人交流时,自然会用到这些词,做些了解也
没有坏处。
如果用百分数(%)表示R2,它可以理解
为“被解释变量”在多大程度上可以由“解释变
量”来说明。就前文这个事例来说,就是在“购买
数量”这个变量当中,有 64.02%(=0.640 2)可以通过“公布视频的频率”得到解释。这样可能更便
于我们理解R2的含义。
那么,刚才得出的回归方程,应该如何解释
呢?斜率(3.33)表示,“公布视频的频率”每周
增加 1 次,“购买数量”将会增加 3.33 个。比较公
布视频的频率增加 1 次的成本和购买数量增加
3.33 个所带来的收益,就可以检验目前公布视频
的成本能否带来足够的销售增长。如果公布视频
1 次需要 1 000 日元的成本,而销售增加 3.33 个
带来的利润增长为 900 日元的话,我们就不会再
进一步增加公布视频的频率。
只靠相关分析的结果无法得到类似的数值关
系。通过这种关系可以得知,增加 1 次公布视频
的频率,会对目标即购买数量产生多大的影响。
如果其他要素与购买数量的相关程度较低,但能
给购买数量带来更大影响的话,也可以优先采取
那个方面的措施。
另一方面,假设本周销售目标为 400 个,也
可以将它代入y,反向推算公布视频的频率
(400=3.33×公布视频的频率+84.9)。计算可
知,需要公布视频的频率为 95 次周。将这种情
况反映在散点图上就是图 4-6。
像这样,知道达到目标(例如销售数量 400
个)所需要的输入(例如公布视频的频率)为多
少,就可以计算出需要多少资源,或者据此设定行动指标(KPI:重要业绩评价指标),从而制
定出更为客观并符合逻辑的计划。
图 4-6 用散点图逆向推算公布视频的频率
后文还会专门介绍具体应用事例,希望这种方法能帮助大家告别只靠“毅力和热情”来制定计
划的做法。当然,也可以先设定公布视频的频
率,再根据回归方程计算能带来多少购买数量。
注意事项及应用事例
运用一元回归分析要注意以下两个问题。
一个是“数据之间必须具有单纯的比例关
系”。与相关分析一样,一元回归分析的大前提
是 2 个数据之间存在直线比例关系。情况或关系
越复杂,就越不符合严密的线性关系。这种情况
就不适合套用y=ax+b。
Excel 也有计算曲线回归方程的功能。从理
论上讲,我们可以对两种方式取得的R2值进行比
较,选择R2值较高的方式。但考虑到在实际业务
中的运用,即使R2值略低,但只要高于一定标准
(例如 0.25 或 0.49),还是建议使用一元回归分
析。
因为一元回归分析除了计算简单之外,在说
明分析过程时,也更容易得到非专业人士的理
解。如果对方无法理解分析过程或所使用的理
论,一般也就无法接受由此得出的结论,最终就
无法达成共识。实际工作中的难点其实就在这
里。
还有一个需注意的问题,即“离群值以及不同的数据选择范围,会导致分析结果产生很大不
同”。这一点也与相关分析的注意事项一样。是
否采纳明显偏离其他数据的“离群值”,如何设定
数据的范围(例如是过去半年期间的数据,还是
一年期间的数据),分析者的不同判断会导致分
析结果出现很大差异。也就是说,分析者每一个
小小的决定都能操纵分析的结果。
当然,分析者必须要对离群值及数据范围等
的处理方法加以说明。把手边所有的数据都用
上,边做边看能得到什么结果的做法,无论准确
度还是可靠性都无法令人信服。
一元回归分析是一种极其卓越的方法,只用
10 秒钟的时间就可以使用 Excel 计算出数据间的
关系(回归方程或回归直线)。但工作中进行数
据分析的最终目标并不是用数字来表示数据关
系。只有数据关系得到了充分的运用,分析才具
有价值。
那么,该如何运用呢?几乎所有的数据分析
教科书都没有涉及。这也是很多人在实际工作中
最大的烦恼。不同的业务、行业或者商业形态,具有无数种运用数据关系的模式。希望下面介绍
的 3 个事例能为大家带来启发,成为大家在工作
中应用数据分析时的参考。
事例 1 对比成本和收益“把有限的资源(时间、成本)投入到哪
里、投入多少才能发挥最大效率”“现行的成本使
用方式是否真能带来预期的收益”……尽管我们
常有这些疑问,一般却不会去检验,而是任由资
源浪费。那么接下来,我们就尽量具体地考虑一
下,考察哪些关系,才能用数字体现成本与收益
的关系。
计算“成本”和“收益”的数值关系,需要根据
问题内容,确定具体是哪些指标(数据)代表成
本与收益,否则就不知道应该使用哪些数据。首
先看成本,我们需要定义它具体指哪些内容。例
如是只有广告宣传费,还是也包括相关的人工费
在内等。
对于收益,同样也需要明确此处所说的收益
是用哪些数据衡量的。例如,除了常用的“销售
额”“销售额增长率”之外,还可以考虑“来店人
数”“咨询件数”等指标。
哪项指标最适合用来分析,取决于它能否充
分体现出分析的目的,而且除了要考虑这种数据
是否能收集到,还有一个前提是它与成本之间必
须存在相关关系。图 4-7 以“广告宣传费”作为成
本,以“来店人数”作为收益,对 A 店和 B 店的成
本和收益进行了比较。
如果不用数值表示,而是直接站在店里观察
来店的人数,会怎样呢?假设在使用了 60 万日元广告宣传费的那一周,A 店观测到的来店人数
约为 500 人,B 店约为 750 人。B 店的绝对数值
更大,似乎可以得出“B 店收益更高”的结论。只
看来店人数多少的话确实如此,但是因为广告宣
传而来店的人数和并非因为广告宣传而来店的人
数是混在一起的,仅靠这一点并不能得知广告宣
传(费)带来的真正收益。
A 店的回归方程如下:
来店人数(1 周的人数)=3.73×广告宣传费
(万日元)+273.6
图 4-7 广告宣传费与来店人数的关系请大家注意,该方程的斜率为 3.73,这意味
着广告宣传费每增加 1 万日元,来店人数可以增
加 3.73 人。这个数值代表 1 万日元能够带来多大
的收益。同样可知,B 店每增加 1 万日元的广告
宣传费,来店人数会增加 2.86 人。同样是 1 万日
元,用在哪一家店铺的效果更好(即成本带来的
收益更高)呢?比较斜率,3.73 大于 2.86,因此
A 店的收益更高。
这个思维方式在前文“购买数量与公布视频
的频率”的事例中曾经介绍过,它在锁定问题原
因时也可以发挥作用。针对某个问题,如果存在
多个具有相关关系的原因,就需要讨论这些原因
之间的优先顺序。其中一个做法是从“关联更为
密切”的角度,比较哪个原因与问题的相关程度
更高。
另一方面,根据回归分析的结果,可以得知
某个原因能够对问题造成“多大程度”的影响。回
归方程的斜率体现了改善解释变量的成本,与问
题由此得到改进的关系。因此可以根据斜率,从“成本和收益”的角度决定优先顺序。
看相关系数还是看斜率
经常有人问我,“应该按照相关系数判断,还是按照成本和收益的比较结果判断?”我一般
会像下面这样回答。
“相关系数常作为筛选标准,与 0.7、0.5 等
界限值进行比较,只要高于界限值就可以判断是
相关。由于其中会包含误差等,所以并不按照其
具体大小进行判断。对已经确定具有相关关系的
数据,则可以运用回归分析来定量地比较或评价
其影响。也就是说,可以从 2 个视角来看,用相
关分析判断关联的紧密程度,用回归分析判断其
影响大小。”
下面,为了进一步理解回归分析的结果,我
们再来思考,同样使用了 60 万日元的广告宣传
费,为什么收益低的 B 店的来店人数会更多。其
原因在于,来店人数中包含了并非因为广告宣传
而来店的顾客。我们可以从“理论上”计算出不使
用广告宣传费(即 0 日元)也会来店的人数。在
回归方程中,把 0 代入广告宣传费,其结果就是
无论是否进行广告宣传都会来店的人数。
A 店:来店人数(人)
=3.73×0+273.6=273.6(人)
B 店:来店人数(人)
=2.86×0+569.3=569.3(人)也就是说,即使没有广告,B 店仍然会有约
570 人来店,远远多于 A 店的约 270 人。这可能
是店铺选址或商圈等方面的差异造成的。从使用
60 万日元广告宣传费时的来店人数(A 店约 500
人、B 店约 750 人)中,减去并非因为广告宣传
而来店的人数:
A 店:500 -约 270 =约 230(人)
B 店:750 -约 570 =约 180(人)
可知,使用 60 万日元广告宣传费,A 店能
够吸引来的人数比 B 店多约 50 人。在现实工作
中,上述内容不进行零广告宣传费的试验,就无
法得知。而运用回归分析,就可以轻松地计算出
理论上的数值结果。这正是回归分析的魅力之
一。
那么将 B 店的广告宣传支出削减为零,把所
有费用都集中到 A 店会更好吗?当然没有这么简
单。无限增加广告宣传费,来店人数就会成比例
地无限增长,这种想法是不现实的。回归分析归
根结底只是在所使用的数据范围内有效。而且不
要忘了,正如前文介绍的,一元回归分析只是将
现实世界嵌套在极其单纯“比例关系”模式中。它
非常易懂易用,但也因为过于简化而存在缺陷。分析者应该了解这一点。
事例 2 合理分配资源
让我们再次来看 A 店的例子。假设 A 店根据
来店人数的目标,计算出所需广告宣传费,并希
望将该金额反映在年度预算计划中。例如,配合
某月新商品上市,为了吸引更多的顾客来店,将
目标设定为 3 200 人。单纯按照每月 4 个星期计
算,则相当于每周 800 人。为了实现 800 人的目
标,需要的广告宣传费如下:
800(人)= 3.73 ×广告宣传费(万日元)+
273.6
根据这个方程式计算,得知每周所需的广告
宣传费约为 141 万日元,所以这个月(4 周)需
要的预算约为 560 万日元。与缺乏可靠根据的预
估金额相比,这种方法能够明确地体现出为达到
什么样的数值目标,需要多少预算。这样不仅能
够提高预算金额的准确度,提交高层管理者或上
司审批时也更具说服力。事例 3 设定合理的 KPI
很多公司或者组织只是为了完成眼前的任务
而努力,对“工作的最终目标是什么”“如何评价工
作的结果”等根本性问题都没有明确的定义。如
果把“看上去是否努力”作为判断产出的晴雨表,除了会导致加班费无限增加之外,还会让员工看
不到目标而盲目前进。这样的状态下,公司是无
法取得可靠业绩的。
因此,KPI 受到了人们的广泛关注。不过很
多组织虽然已经意识到 KPI 的重要性,并将其导
入工作中,但实际上,很多 KPI 是随意决定的,或者只是对上一年度业绩稍做调整。
在下面的事例中,某设施为了增加使用人数
(提高使用率),针对相关分析得出的原因,设
定了理论上的 KPI。假设使用人数与使用满意度
之间存在相关关系。
如图 4-8 上方的散点图所示,假设下一年度
使用人数的目标为 2 000 人(该目标可以根据维
持设施所需的最少人数等计算,也可以根据经营
计划、中期计划等目标来设定)。
根据过去数据进行回归分析,可以倒推出使
用人数达到 2 000 人所需达到的“使用满意度”。
该事例可以得出以下回归方程式:2 000(人)= 23.68×使用满意度(分)+
174.7
计算可知,需要达到的使用满意度约为 77
分。从散点图上也可以确认到这个结果。那么,怎样才能让使用满意度达到 77 分呢?只提出“提
高使用满意度”的口号,员工还是无法采取具体
行动。于是接下来关注与试用满意度高度相关
的“使用方便程度”,它是提高使用满意度的更进
一步原因。然后像图 4-8 下面的散点图一样,对“使用满意度”与“使用方便程度”进行回归分
析。与之前一样,可以用回归方程式反向计算
出,使用满意度要达到 77 分,使用方便程度的
分数需要达到约 66 分。可见,要实现 2 000 人的
使用人数目标,使用满意度需要达到 77 分,为
此需要将使用方便程度提高到至少 66 分。采用
这个方法,便可以将
图 4-8 通过 KPI 实现使用人数目标KPI 分别设定为 77 分和 66 分。接下来便可
以每月进行问卷调查,参考目标值,检测目前所
处的“位置”,从而采取适当的改进措施。
当然,提高使用满意度的方法不仅限于提升
使用方便程度(正因为如此,R2值也不是 1)。
而且事实上,设定 KPI 的这个方法说到底不过是
根据过去数据得出的理论数值。
不过,希望读者能把这个方法与完全没有任
何指导方针、不设定目标终点、只是拼命努力的
情况,或者毫无根据地把目标数值强加给一线工
作人员的情况做一个比较。两者在进度管理的有
效性、一线员工的接受程度等方面,应该都有很
大差别。
我在日产工作时,曾经很多次绘制回归直
线,比较斜率,从而考察某个行动(散点图上的
横轴)对某个目标(散点图上的纵轴)来说是否
有效,或者检验回归直线是否至少是向右上方倾
斜的(即越采取行动越能产生效果)。对各种背
景的人来说,这种方法都能够一目了然地展现出
某个行动是否有效。
不过在现实中,也有很多情况无法顺利求出
R2值或相关系数,此时就比较容易出现意见分
歧。虽然不一定 100% 有效,不过可以将分析对象划分为不同的地区或国家,或者划分成多个期
间分别尝试,有时便能在某个范围内找到更为详
细(不同情况下)的答案。由此出发,着眼于该
范围(不同地区等)特有的问题,就能够对问题
进行深入挖掘。
「解决问题的故事 4」
第四步:通过一元回归分析,发现车型
B 和车型 C 的不同问题
前面通过相关分析,已经得知车型 B 和车型
C 的问题原因分别为“相对价格”和“售后服务”。
接下来考虑如何解决车型 B 的问题。
车型 B 的客户忠诚度在过去 6 个月里跌至约
60%。虽然 1 年多以前的客户忠诚度接近 90%,但马上恢复到当时的水平是不现实的,因此公司
决策层提出的要求是,在 6 个月以内提高 25%,即将客户忠诚度恢复到 75%(60×1.25)。
如何使用数字将客户忠诚度 75% 的目标与一
线作为行动目标的 KPI 联系在一起,这关系到后
面的工作能否取得效果。
由于车型 B 的客户忠诚度与综合满意度之间的相关系数为 0.75,属于高度相关,因此可以运
用一元回归分析考察二者之间的数值关系(图
A)。根据一元回归分析得出的回归方程式,可
以计算出达 75% 的客户忠诚度所需的综合满意度
分数。
图 A 客户忠诚度与车型 B 的满意度数据客户忠诚度(75%)= 0.005×综合满意度+
0.375 3
用这个方程计算综合满意度,约为
75(分)。
根据图 B 的回归直线,也可确认要实现“客
户忠诚度 75%”,综合满意度需要达到 75 分。但
是只有“使综合满意度达到 75 分”的目标,仍然
无法得知“具体要将哪一方面改进到何种程度”。
为此,还需要进一步落实到具体内容上。
图 B 综合满意度与客户忠诚度的关系(车型 B)通过分析原因,我们已经得知车型 B 的综合
满意度与“同类产品价格比”高度相关。也就是
说,车型 B 的用户对该产品与其他公司产品的价
格差较为敏感,会影响满意度。
因此,对“综合满意度”与“同类产品价格
比”进行一元回归分析,结果如图 C 所示。根据
这个回归方程,可以计算出达到 75 分的综合满
意度,需要将同类产品价格比维持在何种程度
(与之前的思路相同)。综合满意度(75 分)= -103.35×同类产品价
格比+180.55
计算得出的同类产品价格比为 1.02,即车型
B 与同类产品相比,价格高出 2% 之内属于容许
范围,如果超过这个范围,从理论上看,综合满
意度就很难达到 75 分。
图 C 综合满意度与同类产品价格比的关系这样就可以采取措施,要求卖场的营业人
员、销售公司随时监控同类产品的价格动向,为
产品 B 设定同类产品价格+2% 的价格界限值。然
后,销售一线就可以针对价格、综合满意度等指
标设定目标,为实现该目标而努力。
通过前文的分析,已经明确此项措施在逻辑
上会直接关系到销售数量和销售总额等上级目标
的提高。这样一来就可以通过故事(逻辑)将一
线的措施与上级目标联系起来。
当然,还可以对上级目标进行一元回归分
析,计算出客户忠诚度提高到何种程度,销售数
量会如何变化,最终能达到多少的销售总额。
在实际工作中,很少有单纯凭借一个原因就
能完全解决上级问题的情况。无论多么缜密的公
式,应用到工作中时都难以保证完全跟预想的一
样。一般都需要一线的监控和调整,才能使操作
实现最优化。不过最开始有无理论上的目标和数
值指标,会对其效果或效率带来差异。而且在需
要提出对策或计划,获得上级批准时,这一点也
会影响其说服力的大小。
车型 C 与车型 B 原因不同
接下来再看车型 C。车型 C 也与车型 B 一样,客户忠诚度与综合满意度高度相关,不过其
综合满意度与“售后服务满意度”的相关程度较高
(图 D)。
首先,根据对客户忠诚度与售后服务满意度
进行一元回归分析的结果可知,要达到 75% 的客
户忠诚度所需的售后服务满意度如图 E 所示。本
来也应该像车型 B 一样,用“综合满意度”为媒
介,先分析“客户忠诚度”与“综合满意度”,然后
再分析“综合满意度”与“售后服务满意度”,一步
步推进,这样更为细致和合乎逻辑。
不过这个步骤在车型 B 的部分已经讲过,所
以对车型 C 就越过“综合满意度”,直接对“客户
忠诚度”与“售后服务满意度”进行回归分析。由此
可以计算出售后服务满意度约为 74 分(从图 E
中也可以确认)。
客户忠诚度(75%)=0.0048×售后服务满意
度(分)+0.3933
图 D 车型 C 的综合满意度与各方面的相关关系图 E 客户忠诚度与售后服务满意度的关系
接下来,为了将“售后服务”的概念与更具体
的行动措施联系起来,我们调查了售后服务满意
度会受到哪些具体因素的影响。图 F 是对 100 名
来店顾客进行问卷调查的结果,其中包含了各要
素与售后服务满意度的相关系数。
图 F 售后服务满意度与各要素的关联从结果可以发现,在 3 个要素当中,接待顾
客时 ......
解决实际问题
[日]柏木吉基 著;赵媛 译
网址:
小编自己做了一个电子书下载网站, APP电子版制作与发行
本书由后浪出版咨询有限责任公司授权得到
ISBN:9787210104346
出版时间:2018年8月
出版社:江西人民出版社·后浪
作者:【日】柏木吉基
书名:如何用数据解决实际问题
COPYRIGHT
序章 我在日产学到了什么
让戈恩社长点头称赞的管理工具
给出“答案”的期限是 3~4 个月
如何在实际工作中使用数据
第 1 章 解决问题,你需要“流程”
第一个重点是“划定范围”
从锁定原因到研究对策
开始之前的准备工作
数据分析需要“假设”
用框架来查缺补漏
开端决定了结论的质量
开始以后很难再扩大视野
思考问题之“外”的问题
「解决问题的故事 1」
第 2 章 分解数据,找到“问题的关键”
“趋势”视点和“快照”视点
“WHAT 型假设”
表示大小的“平均值”
“好用”背后的陷阱
平均值不能代表总体
了解“中位数”
“油炸豆腐”和“天妇罗面渣”,哪个更好吃
平均值所掩盖的真相
乌冬面和荞麦面的教训
用“波动”的视点给平均值做补充
标准差为什么“用不上”
“变异系数”的魅力
视觉也是“感觉”
「解决问题的故事 2」
第 3 章 采用交叉视点,锁定“原因”
表示二者关系的“相关系数”
Excel 的小妙招
锁定原因也需要“假设”
相关系数的四大优势
找到相关分析的着眼点
奖金被用到哪里了
用 Excel 加载项进行批量分析
利用矩阵排列优先顺序
不要随便编故事
「解决问题的故事 3」
第 4 章 制定对策,要依据“方程式”
10 秒钟完成一元回归分析
关注相关系数的平方
注意事项及应用事例
看相关系数还是看斜率
「解决问题的故事 4」第 5 章 用数据讲故事
解决问题的故事
把解决问题的过程展现出来
在组织中使用数据的价值与难点
你能用数字推翻众人的理解吗
更上一层楼(高级技能简介)
后 记
出版后记 序章
我在日产学到了什么解决实际业务或者管理中的问题是商务人士
每天都要面对的必修功课。或者不妨说,商务人
士的工作就是要解决各种各样的问题。其中大概
有很多人依靠过去累积的知识或直觉解决眼前的
问题。但是,请考虑下面这两个问题:
以前的经验今后也会畅通无阻吗?
自己所见的范围和经验没有局限性吗?
关于第一个问题,不难想象,在瞬息万变、新事物层出不穷的当今社会,已经无法仅凭个人
或组织的既往经验来判断和解决所有的问题。至
于第二个问题,很明显,随着全球化的发展,业
务逐渐走向多元化,并不断扩大,从业务的整体
来看,个人所能掌握的知识是极其有限的。
我在日产汽车公司的全球总部工作了大约 11
年。最初的 6 年,我隶属于掌管海外市场的营销
和销售部门,主要工作是通过“数据”来把握所负
责国家的销售业绩、当地子公司的经营状况等无法亲自确认的情况,然后根据业绩数据来预测将
来,制定预算和计划。
在此期间,日产公司的总部进一步实现了全
球化发展,公司里可以看到来自各个国家的面
孔,外籍员工的人数与日俱增。在这种情形下,如果部门中资历较老的日本人仅凭自己的直觉或
经验发表意见,有时就会被视为过于“主观”,甚
至被外籍高管置之不理。
因为是中途转行加入日产公司,我不太会受
到过去的条条框框或陈规旧矩的束缚,并且一直
有意识地思考,作为半路入行者应该如何为公司
创造价值,自己有哪些不同于为公司效力二三十年
的老员工的新价值。
我的具体做法是,结合自己所擅长的数字和
逻辑,从外部的视角出发,深入挖掘公司及海外
市场的数据和信息,反复尝试,直至找出能让自
己信服的解释或故事。
让戈恩社长点头称赞的管理工具
当然,并非所有的尝试都能达到预期的效
果。不过,在这个过程中,我也发现了一些工作
十几年、二十几年的老员工都未曾察觉的问题或
事实。我用简单易懂的方式将这些问题展现出
来,既实现了自身的价值,赢得对方的信赖,同
时也自然而然地为自己找到了立足之地。高层管理者能否客观地把握全球的业务状
况,迅速采取适当的行动,这直接左右着公司的
经营。我通过当时的直属上司,将自己开发的管
理工具和机制提交给日产 CEO 卡洛斯?戈恩先
生。这个工具能够按照相同的指标,对除日、美、欧之外的 120 个国家或地区的销售及经营状
况进行客观的数据管理,从而帮助经营者在俯瞰
全局的基础上采取适当的措施。而在这之前,一
般都是由各地区的负责部门按照各自标准来评价
其经营状况,各自采取他们认为必要的措施。
这样不仅无法掌握各地区的判断和措施是否
适当,经营者也无法掌握涵盖所有市场的整体情
况。因此我决定要深入探究这个问题。
我的想法和思路能够以符合逻辑的数据形式
展现出来,因此得到采纳,成为后来的管理工具
之一。后来,我成为第一位运用该工具工作的管
理者,使它走上常规应用的轨道。通过这段经
历,我体会到运用数据来客观地把握和评价现状
的重要性及其对公司管理的影响,并认识到逻辑
和数字能够在向对方传递信息时发挥重要作用。
这为我解决各种问题奠定了基础。
后来,作为公司的内部咨询师,我在专门为
戈恩社长以及各部门高层管理者解决管理和实际
业务问题的团队度过了 4 年时光。不同于外聘咨
询师,我们肩负着参与公司内部政治、提出方案并推动执行、与相关部门构建人际关系等重要责
任,是非常值得挑战的岗位。
给出“答案”的期限是 3~4 个月
无论哪个部门的问题,一般都必须在 3~4
个月的短时间内给出答案。大多数情况下,我都
需要与相关部门的关键人物一起,推动团队得出
结论。
这些结论当然是要呈报给 CEO 和(以外国
人为主的)高层管理者的。对有些领域(例如商
品企划)的问题,我并没有直接从事相关业务的
实际经验,但仍然需要在期限内做出客观的数据
分析,并提出合理的建议。因为根本没有“过去
的经验”,所以为了获得高层管理者的认可,我
只能逐一确认客观事实,并用环环相扣的故事把
数据统一到一起。
在客观事实当中,只有数据(数字)对任何
国籍、职业经历或语言背景的人都能发挥威力。
不过当然不能只把业绩数据做成图表就直接提交
上去,必须用客观的、合乎逻辑的方式证明“为
什么会这样”“为什么说这样不好”,才能让对方接
受“那么需要怎么做”。
例如在海外设立新公司、大规模重组、彻底
改变业务流程等,这些左右公司命运的重大决
策,是怎样在最高层经营会议上提出来的呢?缺乏事实和逻辑根据的方案在提交给 CEO 之前,根本就无法获得相关部门高管的批准。任何项目
的方案都必须满足一个最基本的条件,那就是首
先要得到相关部门高管的认可,让他们觉得“这
个内容可以接受,而且也足够简单易懂,能向
CEO 解释清楚”。
如果缺少任何人都能看懂的“数据”,没有能
说得通的“故事”,方案就无法在有限的时间内获
得批准。如果仅凭一时灵感或者主观偏见,导致
内容与事实相悖,或者提示了错误的方向,则可
能造成严重的后果,包括相关的人际关系等都会
变得难以收拾。尤其是在很多项目中,各部门的
责任范围都非常明确,各领域之间存在着对立的
利害关系。因此我需要一些技巧,保证内容必须
符合事实,而且不能作为个人的意见来阐述,而
是要让数字或数据来“说话”。
我并没有可以适用于任何情形的方法。不过
得出结论的过程以及数据的着眼点、基本的分析
方法等并不局限于特定的部门或问题。这些最基
础的部分就像计算机的操作系统,能通用于很多
解决问题的项目。
复杂的管理问题不一定需要高难度的统计方
法。简单易懂的表达方式反而更为重要。虽然也
有很少一部分项目完全不涉及数字,但大部分问
题都与金额或指标等数值紧密相关。本书介绍的思路和方法,都是数据分析、统
计分析、数据科学等专业领域中最为基础的部
分。在挑战公司中的一般问题时,高难度的方法
未必能获得正确答案,有时反而会使我们离目标
越来越远,这样的事例并不少见。
除了规模宏大的管理问题之外,日常的实际
业务中也可以用到完全相同的思路、工具或流
程。这些方法可以根据更多的信息及更客观的事
实,更高效地解决各种问题。充分运用数据,可
以为此发挥重要作用。
如何在实际工作中使用数据
我们常说将数据应用于实际业务,但具体要
怎样做呢?根据不同的阶段和水平,我们所需的
能力可以分为以下 4 种。
(1)解读数据
掌握观察数据的“视点”(这是驾驭数据的基
础)
(2)基本的数据分析方法
掌握通用的整理和分析数据的基本方法
(3)综合技能
将各种方法或思维方式有机结合起来,形成
具有整体一贯性的解决问题的故事
(4)高级分析技能和 IT 系统掌握运用专业的高难度方法和高难度技术进
行分析的能力
有一些专门从事高难度数据分析的专家,被
称为数据科学家。并不是所有的商务人士都需要
这些高难度的分析技能。根据我的个人经验及我
与各行业客户接触的切身体会,对一般商务人士
来说,具备(1)~(3)的技能就足够了。
虽然作为数据分析的第一步,解读数据的能
力极其重要,但商务人士在运用数据来解决问题
时,最具有说服力和逻辑效果的是“综合技能”,即将各种数据分析结合起来,通过故事找到解决
方法的能力。
本书在介绍各种基本数据分析方法的同时,将构建故事作为重点。有些章节会分别介绍单独
的数据分析方法,但面对越是复杂的问题,组合
运用的效果就越好。希望读者能感受到,1+1 不
仅等于 2,有时 1+1 还会等于 4、等于 5。
此外,本书还会根据各章主题,结合简短的
事例来介绍一些单独的分析方法和思维方式。与
此同时,本书还会通过各章内容共同讲述一
个“解决问题的故事”。
如果有人问我在日产公司参与的各种项目当
中,有多少是可以运用本书介绍的内容来解决
的,我可以断言“几乎所有都可以”。我并不是力
求针对某些特定问题得出分析结果的数据科学家,也不是撰写学术论文或报告的统计学家。我
是“解决问题的专家”,我的目标就是在组织当
中,从更贴近实际业务和管理的立场,与相关人
员达成共识,以推动工作前进并取得成果。
要实现这个目标,本书介绍的内容已经足够
了。当然,在大量实践中积累经验,可以进一步
提高技能。希望各位读者能身临其境地面对每个
问题,与我一起思考。
那么,请大家在阅读本书时,假设自己正面
临着下一页的问题。本书各章的最后会依次介
绍“解决问题的故事”,提示解决这个问题的线
索。
要解决的问题
近一年来,你所负责地区的汽车销售额明显
下滑。你和周围的人都接受了社会上大多数人的
观点,即认为其原因在于年轻人对汽车的疏远和
少子高龄化的发展。
所有人的思路都停留在“这样下去可不行”“整
体经济形势不容乐观”的原地打转,重复从过去
一直沿袭至今的挽回措施:增加拜访客户的次
数,增加邮件推送广告的数量,希望能对现状有
所弥补。终于,销售本部长感到不能再这样持续下去
了,命令你提出新的改进措施。如果你的提案获
得批准,将会立即得到实施。提交期限是下周周
末,然而到目前为止,你还没有想好应该如何改
进。
这时,你得知总部的市场调查部收集了汽车
用户的市场调查数据,于是向他们要来了相关资
料。果然不出所料,这一年的销售额每月都在下
降。像以前一样仅靠恒心与毅力,恐怕难以应付
这种困难局面了。
那么,到底应该如何解决这个问题呢?让我
们现在就开始行动吧。 第 1 章
解决问题,你需要“流程”实际工作中的大部分数据分析都只是运用分
析工具来“摆弄”现有的数据。因此,虽然不知不
觉中做出很多图表,但耗费大量的精力和时间,最后也不过是总结出一份报告,只是描述了“本
月 XX 分店取得了优异的销售业绩”“经费的使用
额在整体上有所增加”等实际情况。当然,这样
很难找到有效的应对措施,或者找到造成这种现
象的原因。
为了避免这种情形,我们需要了解“流程”,这是数据分析的前提。掌握了流程,才能避免见
到数据就立即动手,却总是在原地打转的情况。
分析的各个详细流程还会在后面的章节介绍,我
们先来概观一下数据分析的整体流程(故事)。
第一个重点是“划定范围”
首先,我们要了解在实际工作中解决业务问
题的整体流程,以及这一过程中涉及“数据分
析”的范围。解决问题的流程从明确目的或问题
开始,然后再逐步运用数据来把握现状,或者从
所有数据中找到问题的关键(“A 店铺”“B 商品”“20~30 岁男性顾客”等)。
从开始运用数据把握现状到找到问题关键为
止的过程叫作“数据整理”。这一阶段仅限于整理
数据,还没到挖掘数据进行分析的阶段。这一阶
段的特点是直接运用“总销售额”等表示整体情况
的数据。
不过,所有业务都出现同样问题的情况比较
少见,大多数情况是只有其中的某些关键部分才
是主要问题。为此,需要逐渐划定数据的范围。
不划定对象数据,在所有数据上做文章的
话,由于多个要素掺杂在一起,会很难找到问题
的关键(着眼于何处、如何划定范围会在第 2 章
介绍)。只有确定了分解数据的角度,对分解之
后的要素进行比较,我们才能发现问题的关键。
这样就可以从包含所有要素在内的整体数据中,划出作为分析对象的数据范围。
从锁定原因到研究对策
假设我们已经锁定了问题的关键,例如“问
题是支店 A 的销售”或“问题是服务 B 的集客效
果”等。那么接下来,就应该考虑“什么原因导致
了这些问题”。为了找到原因所在,需要进一步
缩小对象范围。关注 2 种以上数据之间的关系,有助于锁定原因。这里才是数据分析的精髓。
从上一阶段“找到问题的关键”开始,“数据整理”的工作逐渐开始变为可以叫作“数据分析”的内
容。当然,只是找到原因不能算解决了问题,还
要针对原因决定必须采取的措施,而且提出方
案,不能只是停留在口头层面。
设定什么样的目标?数值是多少?实施需要
哪些资源?只有将这些内容落实为具体的数值,决策者才会批准。方案最终获得实施,才算到达
终点(实际上,之后还需要检验和反馈实施的结
果)。
如果各个分析过程的内容及结果互不相干,无法形成一个连贯的故事,就没有说服力,我们
需要通过整个流程,形成一个贯穿全体的故事
(经过)。为此,首先要明确最重要的目的和问
题,确保所有过程与操作在理论上最终都与这一
目的或问题相关,这样整体的逻辑和流程才不会
出现偏差。
此外,就像我在日产的所有工作一样,大多
数情况下我们都必须在有限的(多是极其有限
的)时间里取得某种形式的成果。如果分析漫无
目的,时间转瞬即逝,结果很可能会超过期限。
把握包括分析阶段在内的整个解决问题流
程,就能从全局来考虑时间的分配,了解“还有
多少时间可用”“目前在整个进度中处于哪个阶
段”等。
这样做的优点是可以平衡准确度与时间之间的关系,考虑为目前从事的分析分配多少时间、答案需要精确到何种程度的同时,有计划地开展
工作。这样,我们到达“得出答案”这一终点的概
率也会大大提高。
如果没有时间限制,我们或许可以不计成本
地进行高准确度的分析,但对不是专门从事分析
的普通人来说,这是不现实的。为了在有限的时
间里取得一定的成果,建议大家从一开始就对整
体计划和“地图”做到心中有数。
开始之前的准备工作
进入具体分析作业之前,必须先明确目的或
问题,接下来就详细介绍这一部分内容(图 1-
1)。
图 1-1 解决问题的流程从“明确目的”开始不常做数据分析的人,开始可能很难迈出第
一步,而是一直在原地打转。肯定很多人都有过
这样的经历吧?
接到上司“数据分析”的指示,很多人会先把
过去几年公司销售额的变化做成柱状图,然后再
用折线图来体现每年相对上一年的增长。接下
来,对不同种类的商品进行 ABC 分类。ABC 分
类是指按照从大到小的顺序将销售额排序,根据
不同商品在整体中所占比例的大小,将其分为“A
类”“B 类”“C 类”,这是一种排列优先顺序的分析
方法。
利用手边的数据,暂且先做了这些分析。可
是在这之后,人们就会陷入停滞不前的状
态,“接下来该怎么做呢……”
会出现这种情况,是因为分析者只关注了代表结果的数据,而没有具体考虑分析的目的或问
题。
在解决问题的过程中,数据分析的目的是针
对“原因是什么,需要采取哪些行动”等问题得出
结论。销售额、利润等数据体现了公司业绩的最
终结果,这类数据容易收集,也更容易得到人们
的关注。但是仅盯着结果数据进行分析,无法实
现“改进结果”“解决问题”等目的。
抱着“先从容易收集的数据开始统计”的想法
进行分析,这本身就是错的。正常情况下,首先
应该确定分析的目的。但是忙于日常业务的商务
人士在面对数据时,却往往会想要“先做成图表
看看”。他们明知没有意义,却还是不由自主地
这样做。
这样一来,无论怎样分析,大多数工作都是
徒劳,效率非常低。在我举办的数据分析培训
中,也有很多学员无法正确地迈出数据分析的第
一步,不断重复错误。不要从分析(方法)开
始,而要从明确目的或问题着手,这一点是最重
要的。
数据分析需要“假设”
确定目的或问题后,才能决定假设、方法、所需数据等具体内容。进行数据分析,“假设”可
以发挥重要作用。如图 1-2 所示,在解决问题的过程中,有两个环节需要假设。
图 1-2 分析流程中必不可少的“假设”
首先,在“锁定问题的关键”时,需要通
过“WHAT 型假设”对数据进行分解和比较。此外
在“锁定原因”时,还需要通过“WHY 型假设”来列
举出候补原因。
关于这两种不同类型的假设,第 2 章将会介
绍具体事例,在此仅用一个例子来说明如何通过
假设得知“分析什么,如何分析”。假设我们使用
WHY 型假设,来探讨店铺 A 的现烤面包销售额
在最近 3 个月急剧下降的原因。
为了整理思路,可以制作一个如图 1-3 所示的图表。按照逻辑关系,将目的或问题、假设、方法以及所需数据从上至下依次连接起来。
图 1-3 通过假设得出所需的方法及数据
假设听起来好像很难,也许会让人有些抵
触。其实我们也可以把假设替换成“着眼点”来考
虑。
在这个事例中,可以考虑以下三种假设(为了便于参考,在此做了简化)。
假设 1:卖场的服务水平变差了(服务的原
因)
假设 2:顾客对畅销商品的评价变差了(商
品的原因)
假设 3:促销活动减少了(促销的原因)
大家可以发现,这里并没有列举什么特别高
深的内容。重要的是,要将这几点用语言表达出
来,确保任何人都能看懂。括号内的原因为着眼
的关键词。
如果觉得最初的假设挖掘得还不够深入,也
可以进一步反复思考“为什么”,继续深入挖掘第
二层、第三层假设,从而找到更为具体的问题
(原因)。这里不再详细介绍深入挖掘的方法,但请注意:并非所有的情况都是只有一层假设就
够了。
接下来,要确定检验各假设的方法及所需数
据。如果检验假设 1 的方法是“调查不同销售人
员之间的差别”,那么所需数据就是“不同销售人
员的销售额数据”和“不同销售人员的工作履历数据”。对假设 2 也一样,如果将方法定为“调查不
同商品之间的差别”,则需要“不同商品的销售额
变化数据”和“其他店铺不同商品的销售额数据”。
按照这个步骤进行准备,就可以大大减少面对数
据不知所措的场面。
做完了这些工作,接下来总算到了分析数据
的环节。我们要根据数据来检验假设。要确定对
问题来说,哪种假设是正确的、哪种假设的影响
最大。做到这一步,就能够发现问题出在哪里、应该采取哪些对策,或者是否需要继续深入调查
或分析。也就是说,这样就可以采取下一步措
施。
研究假设的效果并不仅限于此。它还有助于
制作提交给公司内部或外部的演示资料。在开始
分析之前,将“问题”“假设”“分析结果”“结论”等
必须以符合逻辑的方式展示给其他人的主要内容
或流程确定下来,这样可以提高工作的效率。
接下来再介绍一下建立假设的方法。人们建
立假设时,很容易依赖工作中的常识、自身的经
验或直觉,可能会无意识地排除一些重要的假
设。因此很多人会担心自己的假设是否存在偏
差、是否视野过于狭窄。
我们既然采用了数据分析这种科学的研究方
法,也就应该尽量客观地提出假设。为此,可以
请别人对自己的假设进行确认,也有一些可以用来自己检查的方法。方法之一是运用“框架”作为
思考问题的线索。这里的框架是指商务人士都经
常会接触到的流程图、损益表及 4P 营销理论等
(图 1-4)。
图 1-4 可用于假设的“框架”这些方法可以帮助我们整理思路。针对“缩
短从接到订单到发货的时间”的目的,可以通过
流程图,整理出“接到订单” “确认库存”“联系顾
客”“指示发货”“发货”等各工序中可能存在哪些问
题。
比如,在接到订单的阶段,可以假设“接到
订单后信息是否未能立即传递给仓库负责人
员”;在确认库存阶段,可以假设“不同商品所需
的库存检索时间是否有差异”等。这样可以更容
易针对具体对象提出假设,也便于确定采用的方
法和所需的数据。
损益表也有助于建立假设。面对“防止利润
继续减少”的问题,可以针对“销售收入”“销售成
本”“销售费用及一般管理费用”等项目,分别提出
假设。例如,针对销售收入可以假设“单价或数
量是否减少了”,针对销售成本可以假设“人工
费、原料费是否提高了”等。
此外,我还建议运用 4P 营销理论的思维方
式,将问题按“产品”“渠道”“促销”“价格”进行分
类。如果问题是“防止销售业绩继续下滑”,则可
以从这 4 个角度来提出假设。这样就比较容易整
理出如“产品竞争力下降了吗”“因断货而错失销售
良机了吗”“促销的效果减小了吗”等问题。用框架来查缺补漏
前面介绍了框架的作用,但这并不说假设必
须完全符合框架。使用框架,是为了检查假设是
否有遗漏。此外,框架还有助于明确“可视的范
围”和“不可视范围”。它可以帮助我们认识
到,“自己目前正在哪个范围进行研究”。这一点
极为重要,因为它直接规定了数据分析的范围。
例如对产品非常熟悉的人,就有可能将注意
力只集中在产品上,而不太会考虑渠道或价格。
即使是十分了解业务流程的人,对于销售收入、销售成本等财务方面的假设,有时也会出现遗
漏。因此,利用框架提炼出需要考虑的关键词,再次确认自己的视野是否受到局限才是万全之
策。
此外,遗漏并不都出于无意识的疏忽。我经
历过的公司内部改革中,对一些需要伴随痛苦的
改革、改进或问题,相关人员有时不一定会爽快
地提供、明示所有的知识或信息。尤其是对自己
不利的信息,有人甚至会刻意隐瞒。
这种情况下,就必须依靠其他通用信息(框
架等),实现尽可能完善的分析。尤其是对方远
在国外的情形下,难度就会更大。因此我们需要
具备克服这些困难的能力和技巧。
接下来再介绍一下提出假设时的其他关键。从能影响各项假设的驱动视角来思考问题,更便
于找到下一步应该采取的措施。驱动是指“自己
能够控制的数据”。因为根据分析数据的结果,找到解决问题的措施,才是大多数问题的最终目
标。
根据应该采取的措施来提出假设的做法是本
末倒置,但如果提前意识到之后应该采取的措
施,则可以避免出现最糟糕的情形,即“分析后
却没有找到应该采取的具体措施”。能否做到这
一点是重要的分水岭,决定了我们的工作只是以
分析告终,还是能够解决问题。
看到这里,也许有的读者会觉得,“假设是
很好,但是在数据分析之前要做的工作太多
了。”这一点其实不用担心。因为我也并不是每
次进行数据分析之前,都要制作类似图 1-3、图
1-4 的图表。
在尚未习惯数据分析的阶段,制作图表是一
种行之有效的方法。但实际上很多时候,这个工
作只要在头脑中做就可以了。制作图表可以提高
数据分析的效率,更容易实现目标。但如果成为
负担,害得我们为此而顾不上关键的数据分析和
解决对策,图表就失去了意义。
此外,即使提出了思路清晰的假设,确定了
所需的数据,在实际工作中却很少会遇到所需数
据全都摆在眼前的情况。不过即便这样,我们也不应该根据“现有数据”来开始所有的工作。只
在“现有数据”的范围内进行分析或者解决问题,会妨碍我们发现问题的本质及有效的对策,很可
能导致我们的工作仅以“数据游戏”告终。
没有数据就要不计代价地花费时间或金钱去
收集数据,这种观点没有错,但在实际工作中却
是不现实的。因此商务人士需要设法借用相同或
相近的数据来代替理论上所需的数据。
例如,假设我们需要“工作繁忙程度”数据。
如果对所有员工就最近一个月的繁忙程度进行问
卷调查,应该能够获得包括主观评价在内的数
据。但是如果不具备进行问卷调查所需的时间或
人力,就应该寻找与“繁忙程度”近似的数据。这
样就可以拓宽思路,用“每月人均处理票据的数
量”“平均加班时间”“日平均工作时间”等常规的管
理数据进行分析。
我在日产负责中东及近东市场时,曾经需要
预测未来的市场需求。当时没有日产汽车的需求
预测数据,我必须自己收集可能与之相关的数
据,并用数字来证明自己的预测。原油价格、外
汇汇率、对象市场的 GDP(国民生产总值)等数
据可以反映出中东及近东市场的特征,并且在相
关机构的官方网站上都能够查到。于是我将这些
数据与日产过去的业绩进行对照,从中选出可以
用上的内容,尽量从自己能够获得的数据中挖掘出更多的信息,反复摸索试错。
这种努力已经不是分析方法的问题,而是依
靠个人创意和毅力获得成果的尝试。这次经历也
使我改变了“没有合适的数据就无法分析”的观
点。这件事坚定了我的信心,对任何看似有用的
数据,都要想方设法从中挖掘信息,分析出尽可
能正确的结论。
开端决定了结论的质量
下面针对最初的“设定问题”做一些详细介
绍。从顺序上来看,“设定问题”位于“假设”之
前,直接决定着分析的质量。对所有问题来说,最初的“问题定义”都决定了后面工作的成败。
针对实际业务的数据分析也是同样的道理。
例如,假设下属想按照下面的步骤进行分析,您
会在哪些地方指出他们的漏洞呢?
问题:过度降价导致洗发水 A 的年度利润下
降
↓
假设 1:某些店铺过度降价
假设 2:集中在特定时期过度降价
假设 3:与竞争对手展开价格战导致过度降价
↓
假设 1 所需数据:每个店铺的实际降价数据
假设 2 所需数据:每月实际降价数据
假设 3 所需数据:竞争对象产品的价格变化
数据
收集数据进行分析的结果显示,不同店铺之
间确实存在降价幅度的差异,不同月份也可以看
出某种程度的季节性变化,此外竞争对手也在挑
战降价极限。检验的结果,就是所有假设都不是
毫无根据的。
不过,大家是否看到这个看似顺理成章的结
果中潜藏的风险了呢?其最大的风险是设定问题
时,分析者将思考范围狭隘地限定在“自己设想
的范围内”。尤其是当分析者拥有具体的直觉和
经验,并对其深信不疑时,这种倾向就表现得更
为显著。很多时候,分析者并没有意识到,他们
进行分析仅仅是为了验证自己的想法。
如果分析的结果能够支持(或接近)自己的
想法,分析者就会大大满足,对风险就会变得极
为迟钝。他们往往会产生一种错觉,认为分析取
得了成功。这样一来,耗费时间与精力所做的分析就都成了徒劳。
如果最初就对自己的想法坚信不疑,即使只
能从分析结果中获得零散的支持,人们有时也会
用“自己的故事”去填补其欠缺之处。当我们遇到
看似完美的问题设定、完美的假设、完美的分析
结果时,就应该怀疑它是不是属于这种情况。这
种分析大多是一开始就有了结论,未必具有很大
价值。
那么,这个事例中具体存在哪些问题呢?答
案是,在问题设定中,就已经包括了“原因”(在
这个事例中为降价)。越是具有丰富经验及敏锐
直觉的人,越有可能在设定问题时就已经想好了
针对原因需要采取的“对策”。
这项实际业务技能本身很了不起,但客观分
析的一个重要步骤,就是要有意识地回避“思考
的近路”。因为在设定问题时,分析者的思考还
无法超出“降价”的范围。
从刚才的事例来看,所有的工作都变成了收
集与降价有关的数据,从而得到分析的结果。要
避免这种情况,在定义问题时,应该尽量具体地
思考“怎样才是最理想的状态”。
这样一来,就可以通过确认希望实现的理想
状态,来扩展自己的视角,能避免思路立即集中
到具体原因上。
我过去就曾遇到过一位“在这一行业潜心钻研 30 年”的部长级人物,由于他断言“这绝对是
因为 XX”,使我接下来费尽周章,才得以进一步
探究更接近本质的问题。在这种情况下,最重要
的是不要轻易放弃,要用客观数据解决问题。很
多时候,都能找到以前未被觉察的问题或原因。
在刚才的事例中,对“怎样才是最理想的状
态”来说,答案是“最理想的状态是洗发水 A 的年
度利润保持一定水平之上”。虽然也可以采用相
反的方式,从一开始就定义“问题在于 XX”,但
在定义“XX”时,人们往往容易加进自己设想的原
因或对策。
为了避免这种情形,建议首先从正面确认理
想的状态是什么。这样可以有意识地将“本质上
的问题”与“原因”暂且分开考虑。
例如,如果将问题定义为“成本过高”,那么
思路就会被限定在“降低成本”的范围之内。但如
果考虑“希望达到怎样的状态”,则较易形成“不要
挤压利润”的想法。这样才能确定“增加收入”的最
终目标,与只考虑成本相比,视角就会更加宽
阔。
在此基础上定义问题,即现状尚不满足这个
理想状态。在该事例中,问题是“洗发水 A 无法
保持一定水平以上的年度利润”。可见问题原本
就是指现状与理想状态之间的差距。因此不知道
理想的状态是什么,就无法确定问题。跳过这一步展开分析,会带来巨大的风险(徒劳无功)。
当然,我们使用数据解决定量问题,就尤其
需要考虑如何用数字来体现现状与理想状态之间
的差距。用数字定义问题,具有以下两个优点:
(1)可以明确用哪项指标来衡量;(2)可以定
量地与其他人一起确认问题的严重程度及最终目
标。
接下来,要思考为什么现在没有达到理想状
态。这是(WHY 型)假设之一。这样思考,就
不太会认为原因“只是降价”或“只是成本”了(图
1-5)。
图 1-5 根据理想的状态及其与现状之间的差距找
到问题作为示例,我们列举了除“降价”以外的其他
原因(假设)。由于问题是更高一层、更接近本
质的“利润”方面的内容,那么与利润相关的所有
要素,都可以成为假设。
顺便提一下,如果不是为了解决问题,而是
从最开始就有希望实现的明确目标的话,情况就
完全不同了。例如在“为了将产品投放到某个市
场,想用数据证明市场规模足够大”的情况下,就可以直接将其设定为目标,提出能够检验这个
结论的假设。开始以后很难再扩大视野
开始数据收集或分析之后,有时也会想“还
是再看看别的数据”。不过这种场合一般只是凭
着偶然的念头来扩大范围。开始分析之后,要想
重新扩大视野,改变分析范围,无论在时间上还
是在心理上,都具有很大难度。
因此,可以毫不夸张地说,能否在分析之初
从逻辑上设定合理的范围,直接决定了之后的分
析质量。研究假设的风险之一,是提出假设会缩
小思考及分析的范围,可能导致即使得出一些分
析结果,却都不是最佳的答案(有时还会导致无
法得到想要的结果)。从这个意义而言,决定胜
负的第一扇门在于假设。
邂逅预料之外的分析结果,才能帮助我们找
到更接近本质的答案。只在最初预想的范围内进
行分析,得出意料之中的结果,就无法充分发挥
数据分析的作用。大概很少有人意识到,在分析
流程的入口处还会有这样的陷阱吧(图 1-6)。
图 1-6 设定更宽的检验范围(思考范围)思考问题之“外”的问题
在日产工作时,对高层领导或上司布置的问
题,我从不就事论事地只看问题本身,而会留
意“问题之外的问题”,试着从高出自己一两个级
别的水平进行思考。很多时候我向提出者进行确
认后,又重新定义了问题。每次遇到这种情况,我都会感到自己的视野过于狭窄。不过这样的经
历多了,就逐渐培养出在接手项目时,从开始阶
段就扩展思路的能力。现实工作中,即使明白这个道理,仍有很多
人会觉得,与其自己刻意扩大问题范围,逐一梳
理原因,还不如只选取自己和周围人都能认同的
问题,用不疼不痒的结论敷衍了事,这样工作起
来才轻松。
尤其是在既要负责日常的本职工作,又需要
解决问题的情况下,“差不多就下个结论,尽快
处理完”的心理就会占上风。从零出发精确分析
的理想论与现实中的时间和精力相互较量,二者
之间需要达到平衡。当然,这个平衡点的位置会
因人而异。
我也曾经历过很多类似情况,不过后来我认
识到,从平时就养成高效处理日常业务的习惯,确保留出一定时间的技能和意识也是解决问题的
能力之一。大多数情况下,对比我们高出一两个
级别的人来说,分析者采用了怎样的研究方法,他们只要看看结果就会一清二楚。
此外,如果一个人总是在差不多时放弃努
力,那他将永远无法掌握具有更高价值的工作技
能。事实上,只是如何设定问题这一项,就完全
能够体现出分析者的工作态度。
看到这里,相信您已经发现了,高质量、高
效率的数据分析并不只取决于“数据分析”本身的
质量。也就是说,在实际动手处理数据之前,应
该先缜密地思考,这一阶段的内容和质量基本上决定了后面分析的质量及整体故事的有效性。
从接受提案的一方来看,他们认同的并不是
数据分析的内容和方法,而是以清晰明确的、能
够说服别人的问题或逻辑前提为基础提出的建
议。解决问题的目标是准确地锁定主要原因,让
相关人员接受自己的建议,在获得认同的基础
上“推动其采取措施”。否则,无论展示出多么高
超的分析方法,也无法实现这个目标。
「解决问题的故事 1」
问题:汽车销量下滑,怎么办?
第一步:明确计划与现实之间的差距
“汽车销量下滑”,这是公司内部公认的事
实。那么是不是就可以把这句话设定为问题,然
后直接进入数据收集和分析阶段呢?
如果这样立即开始工作的话,恐怕会由于没
有与相关人员确认“下滑”的准确含义、是否可以
直接作为问题、对公司事业具有多大影响等信
息,导致分析者依照自己的主观感觉来决定优先
顺序和判断标准。定量评价或判断数据分析结果时,尤其需要
客观的判断标准。如果标准含糊不清,我们花费
大量时间和精力得出的分析结果就有可能在最后
关头被全盘推翻。
这里首先需要在定量把握问题的同时,把握大
致的现状。因此我们必须对问题及其主要指标做
出如下定义,并与相关人员进行确认。
“汽车销售额自一年前开始逐渐减少,与上
一年度的月平均销售额相比,本年度最近一个月
降低了大约 15%。这意味着与本年度计划相比,全年预计将有约 10% 的目标无法实现。”
也就是说,首先需要确定,用“销售额”作为
衡量汽车销量减少程度的指标。
接下来,为了确认这就是“问题”,还需要明
确现状与计划之间的差距。即从最开始就要明确
没有达到计划的“现实”与“理想(计划)”之间的
差距。这样一来,接下来就可以讨论要如何做、做什么、需要改进多少的问题了。
做了这些工作之后,我们才算站到了起跑线
上,可以为解决问题而构建“故事”了。除此以
外,我们还明确了前进的方向。这样,接下来就
不会偏离目标,可以有效地进行分析了。 第 2 章
分解数据,找到“问题的关键”明确目的或问题、大致把握现状之后,就进
入提出假设、确定问题关键的阶段。那么,具体
应该如何找到“问题的关键”呢?
“问题的关键”是指从诸如“东京支店”“产品
B”“20~30 岁女性顾客”等切入点找到的引发问题
的关键部分。在这个过程中,把握数据和分解数
据的视点很重要。因为要锁定“问题的关键”,需
要准确把握数据所显示的信息,在此基础上对分
解的结果进行比较,从而锁定关键点。
例如,面对“最近销售业绩下滑”的问题,如
果不考虑“用哪些数据、看哪里、怎样看”就开始
分析,就可能花费了大量时间和精力,却仍然无
法获得理想的结果。
我们来看下面的例子。图 2-1 是根据手头的
上个月销售数据,假设“某个区域存在问题”,用
不同区域的日平均销售额做成的柱状图。如果有
人根据这张随处可见的图得出结论,认为“区域 B
存在问题”,他的上司一定会提出质疑。
图 2-1 不同区域的日平均销售额(某个月)“这只是上月的数据。其他月份是什么情
况?今后预计会变成怎样?”对此,可能很多人
都会(在心里)大喊:“早说啊”“那要怎么办”。
然后不得不再去查看过去几个月的销售额,重新
进行分析(图 2-2)。
图 2-2 不同区域的日平均销售额(过去 5 个月)从这个折线图反映的趋势来看,似乎可以认
为“区域 B 的业绩的确不好,不过区域 E 的减少
趋势也需要注意”。把这个图表拿给上司,结果
又被追问:“你比较的是日平均销售额,但这些
区域能直接比较吗?”如果每个区域的店铺数量
不同,单纯比较销售额就没有任何意义(图 2-
3)。
图 2-3 每个区域的店铺数量用每个区域的销售额除以店铺数量,重新把
各区域的单个店铺平均日销售业绩制成图 2-4 所
示的图表。从这个图可以发现,与其他区域相
比,区域 B 的销售业绩并不差。至此,已经重新
分析两次了。
图 2-4 每个区域的日平均销售业绩(单个店铺)其实这些工作都只是“数据整理”,并没有通
过“数据分析”来寻找导致销售额减少的原因及其
对策。也就是说,做到这里才算是通过分析数据
锁定了应该深入挖掘的对象(问题的关键),站
在了分析的起跑线上。
可能很多人都曾经有过类似的徒劳经历,为
什么会发生这种情况呢?其原因在于,分析者没
有确立把握数据特征的视点,就开始着手整理数
据。因此,每次只对被质疑的问题继续挖掘,然后又会被从其他视点追问,如此反复。
每当上司或者其他人指出一些问题,分析者
都会觉得“他们说的确实有道理”。然而事实上,如果最初就从全面的视点把握数据,这些无用功
和错误都可以避免。如果不在数据分析的“地
图”上规划好到达终点的路径,而是先走起来再
说,就可能会走弯路,甚至无法到达目的地。
“趋势”视点和“快照”视点
前文的例子中缺乏“把握数据(捕捉数据特
征)的视点”的问题,在很多情况下可以通过“趋
势”和“快照”两个视点来解决。缺少其中的任何一
个,论点都容易出现遗漏,导致例子中被上司质
疑的情形。因此,我在做分析时也一定会确认是
否涵盖了各种视点。如果判断分析中不需要某个
视点,我则会确认其原因。
“趋势” 视点可以捕捉一段时间内的变化,也
被称作时间序列。通过数据观察变化经过,可以
得知有哪些流程,以及形成目前状况的经过。关
注过去的变化,预测将来的动向,可以带来飞跃
性的效果提升。因为从时间的变化过程中,有可
能找到问题的关键或原因所在。重点挖掘这些内
容,找到所需信息的概率就会增加。
“快照” 视点是截取某个期间的情况。用指标
(平均值等)体现该期间的大小、比例和分布情况等,可以轻松地把握大致情况,或进行比较,从而确定该因素对问题的影响程度。例如,区域
A 的销售额的确出现了大幅度下降(趋势),不
过如果通过“快照”发现其年销售额规模不及整体
的 1%,我们就会毫不犹豫地将其从深入挖掘的
对象中剔除出去。
运用“趋势”和“快照”的视点把握了数据的整
体情况之后,还可以运用相同的视点找到问题的
关键。要做到这一点,可以根据相对定位进行评
价,例如“销售额高于其他区域”“不良品多于 B
产品”等,这是一条捷径,即通过比较发现数据
与其他因素之间的相对差异。
“WHAT 型假设”
不过,对较大范围(包括多个要素)的数
据,即使进行比较也很难找到差异。此时需要运
用“四则运算”来分解数据,使其变得更为详细和
具体。这就叫作“WHAT 型假设”(图 2-5)。
图 2-5 建立 WHAT 型假设在此基础上,接下来需要关于“维度”的思
路。分解数据之后,会得到某个指标或者变量
(例如:客户忠诚度)。我们需要考虑从何种维
度对该指标进行比较,才能找到问题的关键。在
依赖数据之前先进行推测,也可以说是 WHAT 型
假设的一部分。
这样一来,只要熟悉业务内容,人们就会想
到“区域”“产品”“顾客年龄”等许多维度。从中优
先挑选与问题联系最紧密,最能体现差异的维度
进行比较,便可以找到问题的关键。例如从产品维度对保持率进行比较,可以发现产品 X 明显高
于其他产品,这就是问题的关键。那么,想要找
到问题的关键,需要对哪些指标进行比较呢?
很多事例按大小或比例对销售额、揽客人数
等加以比较,此时必须注意原始数据的波动。因
为,尤其是用平均值代表整体数据的大小时,数
据波动的信息就会完全消失。
找到“问题的关键”所需的视点可以用图 2-6
的矩阵图来表示。这个矩阵图可以防止比较时遗
漏重点问题。我们并不一定要机械地查看矩阵图
内的所有项目。不过大家需要知道,不事先考虑
好“为什么要计算这个指标”“希望由此了解什
么”,而是漫无目的地“姑且”考察数据波动,就无
法让数据分析有的放矢。
图 2-6 利用矩阵图整理比较的重点
接下来,分别对“大小或比例”和“波动”做详
细介绍。表示大小的“平均值”
应用最广、最具代表性、最便于计算的统计
指标大概要算平均值吧。可能有人觉得“不就是
平均值吗”,不过可千万别小瞧了它。平均值虽
然用起来很方便,但却有一个陷阱,让很多人都
陷入其中。
为什么平均值可以广泛用于各种场合呢?我
们首先从积极的方面来考虑。单纯地罗列数据的
话,人们很难从中获得信息。数据越多,就越会
超出人们能够处理的极限。
此时,我们可以制成图表,或者取整体的平
均值。这是为了将整体归纳为图表或者平均值
等“一个对象”,便于人们理解和认知。尤其是平
均值能够作为体现数据“大小”的代表值或标准值
发挥作用。因此,平均值这个指标用途广泛、非
常便利。
例如,让同一个小组对产品 A 与产品 B 进行
评价。与其列出每个成员的评价结果,不如计算
出能够代表整体水平的平均值。例如得知产品 A
的平均分为 55 分,产品 B 是 87 分,人们就可以
把握每种产品的大致情况,将产品 A 与产品 B 进
行比较也会更为简单。此外,如果不想关注销售
额每天的细微变化,而是希望了解销售额每个月
的大致变化,使用平均值会更方便。因为对于想了解每月变化的人来说,每天的
数据或每小时的数据只不过是过剩信息。这种情
况下使用平均值,便能剔除那些过剩信息。
像这样,将大量数据归纳为一个平均值,能
为实际工作带来很多方便。而且无须额外说明,谁都理解其含义,平均值可以说是一个万能的工
具。
不过虽然谁都用过平均值,但面对“平均值
究竟是什么”的问题,却有很多人不知如何作
答。
“好用”背后的陷阱
大多数人可能会回答平均值是处于所有数据
正中间的数值,或者是代表值、标准值。但很少
有人会考虑“平均值真的能够‘代表’数据,或者真
是‘标准’的数值吗?”有人认为平均值代表了数据
整体的大小,那么他们的头脑中想象的一定是图
2-7 所示的情况。
图 2-7 是直方图,能够显示位于各个区间
(横轴)的数据分别有多少个(纵轴),体现了
数据的分布方式。在这个示例中,平均值处于所
有数据的正中,与平均值相等或接近的数据最
多。其他数据的个数随着对平均值的偏离而逐渐
减少。这种情况下,平均值确实可以被称作代表
值或标准值。图 2-7 直方图示例
但是,如果毫不怀疑地把类似图 2-7 的情况
作为前提来使用平均值,就有可能陷入意想不到
的陷阱。因为未必所有数据都会呈现出同样的分
布方式。
平均值不能代表总体
回忆学生时代,得知自己的考试成绩高于班级平均分时,大家是否会觉得“排在中等以上,还不错”?不过,如果您对这句话没有感到任何
疑问,就需要注意了。此外,如果听到某国的平
均寿命是多少岁,就认为这个国家的人都是在平
均寿命前后去世,这样的人也同样需要注意。
图 2-8 是一个 40 人班级的考试成绩分布情
况。其平均分为 51 分,但位于所有成绩正中间
(即第 20 名与第 21 名之间)的却是 57.5 分。也
就是说,得了 55 分的人虽然高于平均分,却并
未排进班级的“前一半”。请注意,图 2-7 以平均
值为中心,数据个数逐渐减少,而图 2-8 的数据
却呈现出截然不同的分布方式。
图 2-8 考试成绩的分布在图 2-7 的情况(往往是很多人所想象的情
形)下,可以说平均值就是代表值。但在图 2-8
中,平均值周围并没有集中很多数据。因此,按
照数值大小顺序,位于中间的数值(中位数)也
偏离了平均值。这种情况下,就不能把平均值看
作代表数据的值。
之所以产生这种现象,是因为平均值会受到
离群值的影响。而且,数据波动越大,离群值就
越多。其结果就是,“平均值未必是代表值”的可
能性更大。例如平均寿命也是一样,假设某个国家 5 岁以下的婴幼儿死亡率较高,那么除非有很
多高于平均寿命的长寿者,否则计算出的平均寿
命就会偏低。寿命集中分布在低年龄段和高年龄
段两个区域,平均寿命处于其中的某个位置。这
种情形下,在平均寿命前后去世的人数就相对较
少。
再看一个比较极端的例子。假设对 100 个人
进行问卷调查,其结果为有 50 人选择“1.极不赞
同”的,而其余 50 人则全部选择“5.极为赞同”(图
2-9)。
图 2-9 对问卷调查的回答
这种情况下的平均值是多少呢?平均值应该
是 3。然而却没有一个受访者选择了“3. 既不赞同
也不反对”。那么这里的平均值就没有任何意
义,反而还可能会掩盖人们的意见集中在 1 和 5
的事实。平均值的便利之处在于可以不用处理全
部数据,只关注由整体得出的一个数值即可,但
其缺点是牺牲了原始数据。这是一个很大的陷阱。
我在日产工作时养成了一个习惯,对只用到
平均值的提案抱有怀疑的态度。有些人只根据平
均值便断定“数值大,很好”“数值太小,不行”,这样的评价过于肤浅,其背后可能隐藏着更多信
息。假如没有认识到这一点,我一定会错过很多
重要的信息。
那么,有没有一种方法,可以大致判断能否
将平均值视为代表值呢?根据直方图的视觉效
果,可以确认到数据的分布方式和平均值的位
置。但在实际工作中,不可能每次都用这个方法
来确认。
了解“中位数”
这种情况下,还有一种简便方法,即“中位
数”。中位数是指把所有数据按从大到小(或从
小到大)的顺序进行排列时,排在最中间的数
据。顾名思义,中位数就是位于中间位置的数
据。有奇数个数据时,中位数是正中间的数据,有偶数个数据时,中位数则是中间两个数据的平
均值。
例如,如果有 4 个数据(0、3、6、9),那
么中位数就是 3 与 6 的平均值 4.5。中位数可以
用 Excel 函数直接得出来,记住这个函数和平均
值的函数会很方便。?平均值:=AVERAGE(在此处指定数据范
围)
中位数:=MEDIAN(在此处指定数据范
围)
如果以平均值为中心,所有数据都大致均等
地分布在其左右两侧,那么中位数的值必然会接
近平均值。相反,如果受离群值的影响,平均值
在所有数据中的位置较偏,那么中位数与平均值
之间就会出现较大差异(也有个别情况例外)。
我们也可以在这种情况下再用直方图等查看平均
值为什么会出现偏离。
图 2-10 为平均值和中位数的特征一览表。详
细了解平均值和中间值的各自特征,并根据需要
组合运用,可以避免落入滥用平均值的陷阱。
图 2-10 平均值与中位数的特征“油炸豆腐”和“天妇罗面渣”,哪个更好吃
根据平均值进行比较,不仅要注意原始数
据,还需要注意“数据构成”的差异。
例如,假设您是一家荞麦面馆的老板。为了
了解客人喜欢的配菜是“油炸豆腐”还是“天妇罗面
渣”,分别向 200 位客人做了问卷调查,请他们
打分(满分 100 分)。其结果如图 2-11 所示。
图 2-11 对油炸豆腐和天妇罗面渣的评价大概很多人会认为:油炸豆腐的(总平均
分)高出 6 分多,那就多进些油炸豆腐来卖吧。
不过在店里打工的学生说:“我们店里既有
乌冬面,也有荞麦面,所以我对哪一种更受欢迎
做了统计”,并拿来了结果。如图 2-12 所示,他
分别统计了乌冬面和荞麦面的平均分。
图 2-12 对乌冬面与荞麦面的评价
令人吃惊的是,无论乌冬面还是荞麦面,都
是天妇罗面渣的平均分更高。他的表格没有任何
计算错误或数据选取错误,只是正常计算了平均
值,但结果却与图 2-11 截然相反。如果没有这名
学生提出疑问,您可能会根据最初的结论,判断是油炸豆腐更受欢迎。
这种矛盾的现象被称为“辛普森悖论”,可能
很多人都不太了解。有些情况下,考察数据整体
和考察不同部分,会得到相反的结论。如果您是
店老板,对这种情况会做何判断呢?
平均值所掩盖的真相
上述过程中隐含着回答者构成的不同。此次
问卷调查的回答者人数分布如图 2-13 所示。
图 2-13 油炸豆腐与天妇罗面渣、乌冬面与荞麦面
的回答人数分布
也就是说,为油炸豆腐打分的大部分回答者
是吃乌冬面的人,而为天妇罗面渣打分的回答者
则多是吃的荞麦面。简单地说,是回答者在“乌
冬面”和“荞麦面”之间的不平衡分布影响了总平均
分的结果。从图 2-12 可知,乌冬面的分数高于荞麦面。
也就是说,与荞麦面相比,乌冬面会拉高分数。
选择“油炸豆腐”的人中,吃乌冬面的人数(180
人)远远多于吃荞麦面的人数(20 人),乌冬面
拉高了“油炸豆腐”的平均分。看到这里,可能很
多人脑子里会画上一个“?”,那么我们就再从直
观上确认一下(图 2-14)。
图 2-14 油炸豆腐与天妇罗面渣出现不同比较结果
的玄机?乌冬面的分数 > 荞麦面的分数
油炸豆腐:吃乌冬面的人数 > 吃荞麦面的
人数
天妇罗面渣:吃荞麦面的人数 > 吃乌冬面
的人数
这三个不等式同时成立,就产生了“油炸豆
腐的平均分高于天妇罗面渣”的结果。但分别看
乌冬面和荞麦面的评分结果,却都是“天妇罗面
渣的平均分高于油炸豆腐”。
乌冬面和荞麦面的教训
只看整体,我们可能注意不到“数据构成要
素的差异(这里是乌冬面与荞麦面的不同)”,忽略这种差异进行单纯比较,就有可能导致无法
察觉该差异所造成的影响。正如这个事例所显示
的,关注原始数据内部的要素,有时会看到不同
的风景。
在这个事例中,通过留意乌冬面与荞麦面的
要素,我也许会转为专注乌冬面与荞麦面的差
异。也就是说,问题并不是油炸豆腐和天妇罗面
渣的不同。
一般而言,将数据细分至何种程度才能做出适当判断,这个问题并没有标准答案。为了找出
正确答案,分析者需要了解自己的数据可以分为
哪些层次,目前分析处于何种状态,这一点很重
要。此外,进行比较时,了解样本的选取方法也
很重要。
作为平均值的特征,我们应该了解:平均值
掩盖了“乌冬面与荞麦面回答人数的不同”。
事先了解到平均值虽然方便,但也具有这样
的副作用,我们就可以在有意识的前提下面对平
均值。
我平时看到平均值,会更为关注“眼前这个
数值是哪些要素综合计算出来的”。
如果能注意到一笔笼统的账目中到底包含了
什么,或许就可以像这个事例一样,对乌冬面与
荞麦面的要素进行分解,从而找到其中隐藏的信
息。也就是说,平均值的背后可能还蕴含着很多
沉睡的宝藏。
用“波动”的视点给平均值做补充
尽管需要留意,但平均值仍然是无人不晓的
便利工具。如果有人问“工作中哪些场合会用到
平均值”,我会回答:“想大致了解对象大小的时
候”。当然,我还会补充一句,“同时也要关注平
均值背后的隐秘信息”。我们可以记住以下两个
重要事项。①平均值最适合表示整体的大小
平均值便于人们把握大体趋势,可以通过平
均单价等把握和比较整体情况。
②平均值的缺点是会掩盖原始数据的部分特
征
注意到这一点,可以避免遗漏更为精确的信
息。
只从大小的维度处理数据,会遗漏许多信
息,但实际工作中的绝大部分资料都只有平均
值,完全不提及数据的波动。
请看图 2-15 的例子。如果只按平均销售额
(粗框内)来看这家店铺的业绩,会得出什么结
论呢?因为从 6 月到 7 月期间平均销售额没有变
化,所以结论一定会是“没有什么变化”吧。也就
是说,结论是无须过多担心。
图 2-15 某店铺 6 月与 7 月的销售额比较但是,如果我们将关注点从日平均销售额转
到相关月份里每日销售额出现波动的程度,也许
就会发现,6 月到 7 月出现了每日销售额波动幅
度增大的情况。
在商业世界中,波动也可以说是“风险”。虽
然最初得出“没有变化”的结论,但它很可能是错
误的,正确的结论应该是“风险增大了”。只注意
平均值的人忽略了这一点,因此无法得到正确的
结论。
需要注意的是,“波动大”或“风险大”并不一
定就是坏事。风险也可以反过来看作机会。有时
我们也可以有意选择“高风险、高回报”的情况。
不过,对希望实现精确的库存管理、希望每
日销售额尽量保持稳定的人来说,体现波动(风
险)增大的指标对店铺管理具有重要意义,是极
其重要的信息。对于如此重要的信息,决不能只
是漫不经心地浏览一下数据,就主观地判断
是“大”还是“小”。更何况仅根据最近的数据变动
情况,也未必能够掌握准确的数据特征。
能够客观体现波动大小的指标叫作标准差。
标准差表示以平均值为中心,数据对平均值的偏
离程度。人们可以根据标准差的数值对类似每日
销售额的波动程度等进行相对评价。
之所以要做相对评价,是因为只看标准差的
大小,很难得出有价值的信息。只有在相同条件下(例如对同一家店铺的不同月份进行比较、对
销售额规模相同的不同商品进行比较等),比较
相对大小才能发挥作用。
如图 2-16 所示,对同一家店铺的不同月份进
行比较,虽然平均值都是 45 万日元,但由于标
准差从 10.1 万日元增至 20 万日元,所以可以定
量地体现出风险的增加。为了避免类似“感觉数
字的浮动幅度似乎有所增大”等含糊不清的意
见,或者由于数据太多,连这种直觉都无法发现
问题时,可以用标准差的指标客观地进行判断。
图 2-16 平均值相同,标准差可能不同这样一来,就可以进一步研究和讨论“为什么 7 月份销售额波动会增大”。找到原因,才能
根据需要采取措施。
不过在实际业务中,标准差会受到很多制
约,不像平均值那么易于使用。这也是个令人头
疼的问题。
例如,个体商店与百货商场的日销售额相距
甚远,比较二者的标准差不具有任何意义。因为
原始数据的大小不同。
日平均销售额 1 000 万日元的店铺波动幅度
(标准差)是 30 万日元,日平均销售额 100 万
日元的店铺也有 30 万日元波动,如果说二者“波
动幅度相同”,恐怕谁都会觉得不对头。
此外,很多书都从统计学的角度介绍标准
差,其代表性的说明如下:
“以平均值为中心,在向其左右各扩大 1 个
标准差的范围内,会包含约占整体三分之二的数
据(满足正态分布的条件下)”
第一次看到这句话的读者,恐怕很难立刻理
解其含意吧。这句话换成更易于理解的说法,就
是“在所有数据以平均值为中心呈左右对称分
布、数据个数随着数值对平均值的偏离而减少的
情况下,在平均值增加和减少 1 个标准差的范围内,会包含所有数据的三分之二(如果有 100 个
数据,就会有约 66 个数据分布在平均值增加和
减少 1 个标准差的范围内)”。即使这样说,大
概还是会有很多人不明白吧。
更麻烦的是,即便理解了这段话的含义,在
大多数情况下,“包含三分之二数据的范围”也很
难直接应用到实际业务中。
“以平均值为中心左右对称”“数据集中在平均
值附近,极端数据较少。如果不符合这些(正态
分布的)前提,标准差就没有太大意义。然而我
们很难断定所有数据都接近正态分布。不如说在
商业领域里,相反的情形更多。
标准差为什么“用不上”
因此,很多人因为“统计书上的内容”与“自己
运用”之间存在明显的距离(还有很多情况下,二者之间的距离甚至大得已经感觉不到距离),而放弃使用标准差。
这就是人们常会觉得“理论上好像明白,但
不会实际运用”标准差这个工具的原因。
标准差的计算公式如图 2-17 所示。为了去除
正负影响,先把各个数据的值与平均值的差平方
后相加,除以数据个数之后,再开方。简而言
之,就是用一个数值来表示各数据与平均值距离
的和。图 2-17 标准差的计算公式
用计算器计算标准差很麻烦,可以使用
Excel 函数立即得到结果(图 2-18)。此外,不
同版本的 Excel 中还有很多类似的函数。
图 2-18 Excel 中的标准差函数定义
当然,只要不是严谨的学术领域,我们在现
实工作中也可以不考虑其前提条件,而只是粗略
地比较数据的波动程度。但重要的是,如果我们
在自己完全不了解(或者是忽略了)原本的制约
条件下得出结果,那么在运用该结果时应该知道
它并不是严密的。
我在日产工作时曾经制作了一个系统,用来
管理遍布世界各地的 120 个国家或地区的销售代
理店业绩。在数十项评价指标当中,有一些无法只靠绝对值评价好坏,也有的指标需要在所有代
理店中进行相对评价。当时我采用的方法是,将
平均值增减 1 个标准差的范围定义为“标准”范
围,关注处于该范围之外的数据(代理店)。如
果随便设定一个标准,据此来评价好坏的话,人
们有可能会质疑评价本身是否合理,但如果能够
说明客观标准是如何设定的,就不太会出现类似
问题。
作为标准差的应用事例之一,再来介绍一下
学校里常会用到的偏差值。步入社会以后,除非
在教育领域工作,否则可能很少有人会用到偏差
值,但这里还是做一简单介绍,来加深大家对标
准差的理解(图 2-19)。
图 2-19 偏差值的计算公式
例如,如果有人在平均分为 50 分的考试中
得了 80 分,虽然知道这个分数“高于平均分”,但却无法得知这个人在整体中的位置。80 分与平
均值之间的 30 分差距是“大”还是“小”,取决于所有分数的分布情况。
如果得分超过 80 分,甚至更高的人数很多
(即标准差较大),就不能说 80 分是一个相对
优秀的结果。而如果大部分人的分数都在平均分
50 分前后(即标准差较小),则可以说 80 分
是“非常优秀”的成绩。偏差值就是用来表示“成绩
得分的相对位置”的指标。
那么,有没有什么办法可以将不太好用的标
准差运用到实际工作中呢?这里介绍两种能够轻
松掌握数据分布的方法。
一种方法是用柱状图来展现数据的分布情
况,可从视觉上直接确认。在前文提及的直方图
中,纵轴表示数据的个数(频数、频率),横轴
表示数据大小的间隔(区间)。经常有人会问间
隔的“最佳幅度”是多少,这个问题并没有标准答
案。在实际业务中,一般由分析者根据目的或者
是否便于理解来自行决定。
比较两个直方图,可以看出哪一边的数据波
动更大(或更小)。使用直方图将全部数据直观
体现出来,可以帮助人们把握数据分布的形状、特定范围内的数据个数等只看标准差所无法获得
的信息。
与在 Excel 中直接查看数据相比,做成直方
图可以更轻松地把握实际情况。直方图只是从直
观上把握数据,所以不必在意计算标准差的前提以及评价标准差的方法等比较难懂的细节问题。
因此,向其他人展示或者进行说明时,直方图的
魅力之一就是可以作为更便于理解的信息发挥作
用。
直方图也是我在日产工作时经常用到的方法
之一。如果不了解对方的专业水平或关注点所
在,或者要向来自不同国籍或部门的高管进行展
示时,这是一种更为“保险”的方法。虽然做直方
图需要使用大量数据,但其优势是任何人都能很
快理解。当然,这种方法在数据的特征和结果较
为明显时效果会更好。而对于很难从直观上判断
的情况,使用直方图反而会招致混乱。
“变异系数”的魅力
还有一种方法是变异系数。使用标准差对波
动程度进行相对比较时,必须满足被比较的两个
数据大小相当或相同(例如同一家店铺不同月份
之间的比较、相同销售额规模的两家店铺之间的
比较等)的前提条件。因为一般情况下,如果原
始数据值较大,其波动(标准差)也会相对比较
大。不消除“数据大小”的差异,就无法进行适当
的比较。
说到数据的大小,请各位回忆一下平均值的相
关内容。如果能用标准差除以全部数据的平均
值,消除数据大小的差异,就可以不必在意原始数据的大小,从数值上用标准差来比较两者的波
动程度。标准差除以平均值得到的值叫作变异系
数。
顺便提一下,我们无法单独评价变异系数,这个指标只能用来比较不同数据的波动程度。例
如,图 2-20 为大规模店铺与小规模店铺的日销售
额。只看标准差的话,大规模店铺的波动更大,为 50。
然而考虑到二者之间原本存在销售额的差
异,不能这样做单纯比较。计算变异系数,则可
以消除销售额规模的差异,从而得知小规模店铺
的数据波动更大。也就是说,小规模店的经营风
险相对更大。
图 2-20 大规模店铺与小规模店铺的比较
变异系数的魅力在于计算简单,而且与其他
统计指标一样,可以只用这一个指标进行客观比
较。有些情况下,它还可以弥补直方图的如下缺陷。
例如,记录 A、B、C 三个区域的快递送达
天数,制成直方图(图 2-21)。
图 2-21 三个区域送达天数的不同如果根据这些直方图来讨论哪个区域送达天
数的波动更大(注意讨论的不是送达天数),人
们的意见可能会出现分歧。事实上,由于区域 C
的数据向左右扩展的范围看似更大,所以很多人
会认为该区域的波动较大。我在培训中展示这个
直方图时,大家会根据表面现象做出不同的主观
判断。这样就无法对讨论的前提形成一致。
视觉也是“感觉”
所谓视觉,也是一种“感觉”,具有容易让人
根据主观进行判断的一面。可以说最能在这种场
合发挥威力的,正是根据数据做出的客观判断。
图 2-21 中还标出了每个区域的平均送达天数
和标准差。在这个事例中,可能是因为只有区域
C 的覆盖范围较广,所以其平均送达天数较长,为 5.9 天。
如果仅比较平均送达天数,就会得出“区域 C
波动幅度大”的结论,毫无疑问这是错误的。不
过前面已经说过,这种情况也不适合只用标准差
进行比较。
计算各区域的变异系数,区域 A 最大,为
0.5,所以结论是区域 A 波动幅度相对最大。像
这样,用数值进行比较的结果一目了然,不会因为人们对“表面现象”的主观判断差异而产生分
歧。这是在组织中进行决策的一个极其重要的研
究方法。不过正如前文所述,我们需要先考
虑“由此能够获知什么”“它在这项问题中具有何种
作用”,然后再计算变异系数。如果只是在形式
上计算出变异系数,对其含义却并不理解的话,就是本末倒置了。
从易于理解和便于接受这一点来看,直方图
非常好用,但其问题是在 Excel 中无法用一个操
作直接制作(市面上销售的一些统计软件具有这
个功能)。因此需要我们根据实际数据,设定适
当的区间间隔,计算各范围内的数据个数,在此
基础上才能做成图表,所以略为费事。
图 2-22 原始数据与数据区间(分组)在此简单介绍一下用 Excel 制作直方图的方
法。对于平时不常使用 Excel 的人来说,首先需
要启动 Excel“加载项”菜单中的“数据分析”。
假设 A 列为原始数据(图 2-22)。在另外一
列(此处为 B 列)输入数据间隔。这里按照
10、20、30……100,以 10 为间隔来输入。它表
示直方图中区间幅度的最大值。为了便于理解,也为了以后用作直方图的横轴,在 C 列手动输入
每个区间的具体范围。
然后在加载项中启动“数据分析”,选择“直方
图”。在“输入区域”指定数据范围,在“接受区
域”指定自己设置并输入数据间距的范围。然后
选择便于自己查看的区域输出结果。按下“确
定”键之后,就会如图 2-23 所示,在 E 列和 F 列
显示出各数据区间及其对应的数据个数(频率分
布表)。
图 2-23 每个数据区间的数据数量(频率)接下来,将上述“频率”做成柱状图。直方图
中的柱体一般相互连在一起,没有柱状图中的间
隔,需要自己调整。对任意一个柱体点击右键,打开“设置数据系列格式”,将“分类间距”改
为“0”。这样,就完成了一幅如图 2-24 所示的直
方图(Excel2013“加载项”的“直方图”中包含制作
图表功能)。
图 2-24 完成后的直方图「解决问题的故事 2」
第二步:“分解”数据,锁定问题的关键
对问题做出恰当的定义,并大致把握现状之
后,接下来需要找到“问题的关键”。通过找出问
题的关键,可以实现确定分析范围的目的。如果
数据中包含所有信息,就会像一笔糊涂账,一直钻研也无法取得任何进展。因此,分解数据就显
得极为重要。
图 A 分解新车销售总额
如图 A 所示,“新车销售总额”可以通过四则
运算,用“WHAT 型假设”进行分解。左端的“新
车销售总额”是代表最根本问题的指标,可以分
解为“新车销售数量”与“平均单价”的乘法。分解“销售总额”的构成要素,可以使分析者
看到更为具体的内容。从新车销售数量和平均单
价两个方面,可以比只看销售额挖掘得更为深
入。当然,在这种假设的基础上进行分析,也还
是有可能无法找到任何值得参考的信息。通过数
据分析可以对此加以判别。
很多情况下,如果进展不够顺利,就得反复
试错,回到假设阶段寻找其他突破口。我们需要
放弃尝试一次便获得成功的完美主义。
仅根据新车销售数量的变化,还远远无法找
出“问题的关键”。因此,还需要将新车销售数量
分解为“本品牌首次购买数量”与“本品牌内再次购
买数量”的加法。也就是说,将首次购买本品牌
汽车的用户与再次购买本品牌汽车的用户加以区
分。
此时可以假设这两种用户之间存在不同的购
买动机。很多情况下,人们根据常识就可以建立
类似假设,了解相关业务的人,做出错误假设的
可能性也不会太大。
如果认为进一步分解能体现出数据特征的差
异,可以继续分解(虽然比较麻烦),从而提高
分析的准确度。在这个例子中,我们尝试进行了
更深入的挖掘。
图 B 根据图 A 进行数据整理的结果我们将“本品牌首次购买数量”,即首次购买
本品牌产品的顾客分为“从其品牌流入”的用户和
首次购车(非再次购买)的用户。
接下来,我们将“曾经买过本品牌产品、现
在需要再次购买的用户”分解为再次购买时仍然
选择了本品牌产品的用户和转为购买其他品牌产
品的用户。我们将重新购买新车的本品牌用户
中,再次选择了本品牌产品的人(回头客)的比
例作为“客户忠诚度”。
图 B 对这些内容做了数据整理。利用 WHAT
型假设进行数据分解,在结构上具有一个优点,即能够明确分解后的数据(例如“客户忠诚度”“从
其他品牌流入的数量”等)与上一级变量(“新车
销售数量”)以及最上层问题(“新车销售总额”)
之间的关系。
掌握了分解之后的各个项目的大致情况(倾
向),我们便可以找到更值得关注的关键。
从图 C 可以发现,新车销售总额在这 2 年期
间减少了大约 15%。这是所有问题的根源。根据
图 D 可知,平均单价在 2 年期间比较稳定,基本
在平均值(200 万日元)上下 5%(190 万~210
万日元)的范围内。至少在过去的一年里,没有
出现过价格明显下降的情况。另一方面,从图 E
可以看出,“新车销售数量”与销售总额一样,也减少了近 15%。由此可知,我们应该优先关注新
车销售数量的数据。接下来,我们可以进一步观
察图 F 所示的销售数量的明细。
图 C 新车销售总额的变化
图 D 平均单价的变化虽然两者在数量上没有太大差异,但本品牌
首次购买数量基本维持稳定,而再次购买数量却
在过去一年出现了减少。因此,从 WHAT 型假设
的构成也可以确定,“本品牌内再次购买数量”应
该是“新车销售总额”减少的主要
图 E 新车销售数量的变化图 F 新车销售数量明细的变化原因之一。不分析到这一步,即使发现“新
车销售额(数量)减少”,也仍旧无法回答“是否
存在其他问题”“如何断定这就是主要问题”等质疑
或追问。这样的话就难以保证分析的可靠性。
要注意的是,不能根据“本品牌内再次购买
数量”本身来判断“数量增加就好”或者“数量减少
所以不好”。我们应该意识到,根据单纯的数
量“增加或者减少”“多或者少”只能看到表面的结果,而很难对现状做出恰当的评价。
因为只有将“本品牌内再次购买数量”与当月
再次购买车辆的总人数(辆数)进行比较,才有
可能对现状做出评价。为此,需要进一步分解,掌握在所有需要再次购买的数量当中,有百分之
几的人实际再次购买了本品牌产品。
在看到某个数字时,我们要关注的是,“这
个数字能否真正评价我们想知道的问题”“这个数
字是在哪个范围产生的”“在与其他数据进行比较
时,是否需要统一标准(这个例子中的标准是每
月再次购买车辆的人数)”等问题。
将“再次购买数量”分为“本公司品牌”和“其他
公司品牌”,并不只是因为可以从理论上这样
做。之所以这样分解,是因为如果能确定这其中
存在问题,就可以采取具体的措施。了解再次购
买汽车时转为购买其他公司产品的人与再次购买
本公司产品的人的不同,才能采取对策。衡量这
一情况的不是具体数量,而是客户忠诚度
(%)。
只有将业务经验、常识及其他人的意见都动
员起来,才能获得创意和思路。因为数据自己是
不会讲话的。
反之,如果一个数据分析没有经历过类似的
思考过程,就可以说它没有目的和终点。实际
上,到处都可以看到这种“机械性”的数据分析。观察客户忠诚度的变化(趋势),可以发现
导致“本品牌内再次购买数量”减少的,不是整体
再次购买数量的减少,而是客户忠诚度的下降。
也就是说,分流至其他品牌的人数的比例增加了
(图 G)。
图 G 客户忠诚度的变化
对于“本品牌首次购买数量”,本来也需要用
相同的方法把握整体情况。但因为无法通过一本
书覆盖所有的内容,所以本书仅针对现状中已经
发现的“客户忠诚度”的问题,即如何让用户再次
购买车辆时仍然选择本品牌产品这一问题做进一步的深入挖掘。
比较的维度
虽然发现了客户忠诚度的问题,也还无法就
此锁定问题的关键。同样是客户忠诚度,在按照
某个维度比较时,还有可能会包含与问题有关的
要素和无关的要素。用户群体(年龄、职业、性
别等)、年数、车型(产品)等,从哪个维度来
比较客户忠诚度,才能锁定问题的关键呢?决定
维度之前的所有工作,都是建立 WHAT 型假设的
一部分。作为这个例子的可靠假设,可以展开以
下讨论。
按照不同的客户群体,例如不同年龄层的客
户来分析客户忠诚度,会发现对不同的车型来
说,人们的评价或喜爱
图 H 突出体现假设的要素(带灰色背景的项目成
为问题的关键)程度并不一定与年龄有关。也就是说,不同
的车型更能体现出人们对其评价或喜爱程度的不
同(图 H)。
根据这一假设,可以从“产品(车型)”的维
度来比较不同产品的客户忠诚度。首先,我们来
整理一下应该怎样比较(图 I)。
图 I 从产品维度进行比较(1)对新车销售数量和客户忠诚度在一定
时期内的平均值进行比较
对销售总额这个最根本的问题来说,是否存
在对其影响较大的车型和并无太大影响的车型
呢?虽然深入挖掘是好事,但如果挖掘的对象对
问题整体的影响微不足道,这个工作就不会产生
任何意义。根据对问题影响的大小来决定优先顺
序和关注程度,也决定了根据分析结果采取的措
施能够对解决问题产生多大贡献。
对销售数量的构成比例进行比较,可以发现
只有车型 A 的比例明显小于其他车型(图 J)。
那么如果将问题锁定为车型 A,即使采取了有效
的对策,对解决整体问题的影响仍然是有限的。
因此可以暂且降低车型 A 的优先顺序。
此外,按照不同车型,对客户忠诚度在 2 年
期间的平均值进行比较,只有车型 A 的客户忠诚
度显著偏低,其他车型之间没有太大差别(图
K)。也就是说,从“快照”的视点无法发现车型B 到车型 D 之间的差异。读者们肯定也会感
到“怎么会这样?”
图 J 不同车型在新车销售数量中的比例
图 K 不同车型的平均客户忠诚度
(2)对客户忠诚度的变化进行比较接下来,利用折线图对过去 2 年期间不同车
型的客户忠诚度进行比较。根据前面确认的结
果,暂且将车型 A 从比较对象中剔除,对其余 3
个车型进行比较(图 L)。
图 L 不同车型的客户忠诚度的变化
这时可以发现,车型 B 和车型 C 的客户忠诚度均自一年前开始逐渐降低。也就是说,转为购
买其他公司产品的比例提高了。具体数字是 2 年
期间从约 80%~90% 减至 50%~60%,降低了
30~40 个百分点。可见,拥有本品牌产品但需要
再次购买车辆的人中,这 2 年期间有近 30% 被其
他公司夺走。
(3)对一定时期内客户忠诚度的波动进行
比较
接下来对 2 年期间客户忠诚度的变异系数进
行比较(图 M)。
图 M 不同车型客户忠诚度在 2 年期间的变异系数
虽然车型 A 的变异系数明显高于其他车型,但该车型数量较少,对整体的影响很小,因此在
此就不涉及。从其他车型来看,正如前面的客户
忠诚度的变化(图 L)所示,车型 D 的波动较
大。从平均来看,车型 D 的客户忠诚度与车型
B、车型 C 几乎没有差别,在 2 年期间也并未出
现恶化,所以很难将其认定为直接影响问题的关
键。但从波动程度来看,车型 D 极有可能含有其他问题或风险,需要引起注意。
当数据的数量更多或者期间更长时,从趋势
的视点来观察波动的变化也会发挥一定作用,但
因为这里只有 2 年期间的数据,所以对这一点就
忍痛割爱,不做详细论述了。前文的这些结果可
以归纳为如下内容(图 N)。
图 N 对问题的关键的汇总
接下来,作为问题的关键进一步深入挖掘的
对象,可以锁定为车型 B 与车型 C。一个重要的
事实是,车型 B 与车型 C 的结果并不是通过偶然
的调查碰巧得出的。我们从逻辑上探索最根本原
因的同时,通过全方位的检验,将这 2 个车型锁
定为问题的关键。面对“为什么最后锁定这 2 个
车型”的质疑,能够提供确凿的“根据(论据)”,这一点可以确保整个问题解决过程具有可靠性和逻辑性。
分析到这一步,接下来要针对“为什么车型 B
和车型 C 的客户忠诚度会出现下降”,进行原因
分析。 第 3 章
采用交叉视点,锁定“原因”前面介绍了如何用平均值和标准差等指标
来“计算每月平均销售额”“比较每家店铺来店人数
的波动”等。此外还介绍了如何在此基础上从某
个维度对大小、比例或波动等进行比较,划定对
象数据的范围,锁定问题的关键。
那么,从这些指标可以获得哪些信息呢?不
过是现有数据范围内的结果或者现状。进一步分
解销售额的构成要素,对每种商品、每个店铺、不同月份等进行深入研究(分解),能够更进一
步锁定具体的问题的关键。不过其结果仍然不过
是“更为细致的现状”。
在实际工作中,我遇到的很多情况是:虽然
通过数据分析细致入微地了解了现状,但到锁定
原因的阶段,却又用突兀的主观见解来代替客观
事实。“这一步也能展现出客观根据就完美了”,像这种令人深感惋惜的例子屡见不鲜。
通过在日产工作的经历,我切身感受到,接
下来的这一步能否用数据说话,会导致后面的工
作方法截然不同。因为人们对其认可程度完全不
同。尤其是如果在某个关键点突然变成定性的主观逻辑,原本连贯的“故事”就会戛然而止,整个
分析也会变得苍白无力。
在解决实际问题的过程中,正确了解现状作
为第一步确实非常重要,但绝大多数情况下,这
一步的最终目的应该是锁定导致该结果的原因,为解决问题而采取必要的措施(行动)。然而很
多运用数据的过程,其实都没有超出了解现状这
一步。那么为什么无法从了解现状的阶段继续走
下去呢?
这是因为人们的思维被限制在销售额、来店
人数等单个维度的范围之内。不摆脱限制,就无
法跨出了解现状的范围。假设使用平均值、标准
差来把握“XX 商品的销售可能存在问题”的现
状,或者将其锁定为问题的关键,那么接下来就
应该考虑“为什么 XX 商品的销售额会下降”。
再接下来,除了销售额以外,还必须关注有
可能影响销售额的种种原因(驱动因素)。例如
可能包括产品、客户服务、宣传促销、价格政策
等。知道了这些因素中有哪些影响销售额、哪些
并无影响,说不定就能够锁定原因。
表示二者关系的“相关系数”
像这样,关注 2 种以上数据之间的关联程
度,就可能获得仅从一种数据中绝对无法得到的
信息。换句话说,就是将视野从一维的数据,扩大为关注 2 个维度,有意识地转换思路和视点。
为了把握 2 种数据之间的关联,首先需要确
认它们是否密切相关。
“相关系数”可以表示相关程度,计算相关系
数的方法叫作“相关分析”。相关系数的值介于-1
和+1 之间(图 3-1)。
图 3-1 相关系数
相关系数越接近 1,正相关的程度越高。也
就是说,一方数据增加,另一方数据也会随之增
加。二者完全成比例(如果一方增至 2 倍,另一
方也随之变为 2 倍)时的相关系数最大,是 1。
相关系数为 0,表示两个数据没有任何关联,互
相独立。实际业务中使用的第一手数据,一般都
不是 0 或者 1 所表示的完全不相关或者完全成比
例相关,而是介于二者之间。Excel 的小妙招
那么,相关系数是什么数值时,可以判断
为“相关”呢?判断相关系数的大小并无一定之
规,一般 0.7 以上可以视为“高度(正)相关”。
0.7 并不是一个严格的标准,现实中根据不同的
分析目的和所需准确度,有时 0.5 以上即可视为
相关。
同样,当相关系数为负数时,两种数据则
为“负相关”。负相关只是数据的变化方向不同,原理与正相关一样。也就是说,如果一方数据增
加,另一方数据则会随之减少。
以下为相关分析的具体事例。例如,在根据
预计来店人数来决定营销费用的情况下,来店人
数与营销费用之间正相关的程度越高,营销费用
的效果越好。投入的营销费用越多,来店人数就
增加越多。但如果二者之间没有足够的正相关关
系,营销费用就很有可能白白浪费。图 3-2 为运
用 Excel 函数计算相关系数的例子。
使用 CORREL 函数可以计算相关系数。
在“=CORREL”后面的括号中指定两种数据的范
围,并用逗号隔开,即可立即得出相关系数。在
图 3-2 的例子中,相关系数为 0.84,可知二者高
度相关。图 3-2 来店人数与营销费用的变化作为参考,我们再看运用这些数据制成的散
点图(图 3-3)。纵轴为来店人数,横轴为营销
费用。由于具有 0.84 的高度相关,纵轴会横轴的
增加而增加,从直观上也可以确认到向右上方上
升的趋势。
图 3-3 营销费用与来店人数相关如果两个数据不相关,散点图就会呈现出不
规则分布。因此除了相关系数之外,用散点图从
直观上展现两种数据之间的关系,有时也可以发
挥重要的作用。尤其对下面 3 种情形来说,散点
图会很有用。
①能够发现明显的离群值(出于某种原因,明显偏离其他数据的数据)。离群值可能会产生
影响,导致整体的相关系数变低。如果能够合理
去除离群值,那么其他数据的相关系数可能会有
不同。
②相关系数能够体现两种数据之间的比例关
系(线性关系),但并非所有数据之间都是比例
关系,也可能是其他类型(曲线等)关系。这些
其他类型的关系可以不依赖相关系数,从散点图
中看到。
③借助散点图,对相关分析、相关系数一无
所知的人也可以理解分析的结果。
并非所有情况都需要制作散点图。可以先通
过 CORREL 函数计算出相关系数,然后再针对重
要内容用散点图加以确认。锁定原因也需要“假设”
第 1 章中曾经提过,着手处理数据之前,应
该首先确认目的或问题,在此基础上提出假设,这一点非常重要。在分析问题原因时,假设也同
样有效。与原因有关的假设叫作 WHY 型假设。
例如,在刚才的例子中,目的或者问题
是“增加来店人数”。为此首先需要找出影响来店
人数这个被解释变量的原因。一般来说,在自己
所从事的行业或业务中,找出可能影响最终结果
的原因并非难事。
但需要提防一些陷阱,防止受前例束缚的主
观臆断,或者将视野限定在平时常见的数据范围
之内。
克服常识的限制,不因为“这是平时一直关
注的数据”“前辈、上司都这么说”而放弃思考,而
是客观地进行探索,这也是从事数据分析的条件
之一。此外,还有 2 点需要注意。
(1)寻找接近结果的原因
例如,针对提高销售额的目的,将“营销费
用”作为原因的话,销售额和营销费用需要通
过“来店人数”才能具有关联。三者之间是“销售额
—来店人数—营销费用”的链条结构。
但实际上不只有来店人数会影响到销售额,而营销费用与销售额的直接关联就更为薄弱。所以这两个数据之间的相关关系就不太容易把握准
确。因此,最好先分析类似来店人数与营销费用
等关系更为紧密的数据之间的关联,在关联更密
切的数据之间考察相关关系。
(2)选择能够采取对策的原因
即使可以从理论上找到很多原因,并断定其
与要实现的指标具有高度相关,但如果都是自己
无法控制的外界原因,那么这个分析结果就派不
上用场。如果分析的目的就是研究倒也无妨,但
如果是为了在实际工作中实现目标或者解决问题
而做数据分析,这样就会毫无意义。建立假设时
就要设想“假设得到验证,就能采取哪些对策”,这也是考验数据分析者能力的一个方面。
相关系数的四大优势
如果你过去只会从平均值或图表中探索数据
含义,那么今后在锁定问题原因时可以使用相关
分析这个得力工具。这是帮助数据分析在实际业
务中向前迈出一大步的最佳方法之一。因为相关
分析具有以下四大优势。
(1)能够立即得出答案
正如前文介绍的,运用 Excel 的 CORREL 函
数,立刻就能得出相关系数。对每天忙于日常业
务,需要在短时间内找到答案的一线工作人员来
说,相关系数可以节约时间的特点极其重要。在短时间内得到答案,就意味着可以在有限时间内
多次尝试。
我们不一定从一开始就能得到预想的结果。
所以进行数据分析时,能够在短时间内检验多个
假设,这个优势不容忽视。
(2)简单易懂,更容易得到对方理解
相关分析的结果(相关系数)介于-1 至+1
之间,对任何人来说都很易于理解。而且无须向
对方详细解释“相关”的含义(其他分析方法的名
称大多令人费解)及分析结果的意义。实际工作
中,数据分析的结果需要得到理解和认可,因此
是否便于沟通也很重要。在这一点上,相关分析
可以说是完全合格的。
(3)能够分析单位不同的数据
在工作中,输入的信息与输出的信息不一定
都能用同样的单位表示。代表性例子是,发送网
页宣传单的次数与来店人数之间的关系。输入信
息是发送网页宣传单的次数,单位是“次”,而输
出信息是来店人数,单位是“人”。两种数据单位
不同,无法进行四则运算,或者单纯用数值进行
比较,但做相关分析就完全没有问题。也就是
说,相关分析的方法通用性很高,不受单位限
制,可广泛用于现实业务。
(4)为回归分析等进一步分析做铺垫
将数据的相关关系写成公式,就可以通过“回归分析”(第 4 章)做出更为具体的预测或
制定计划方案等。也就是说,相关分析还可以为
下一个分析阶段提供线索。
相关分析可以单独运用于实际业务,也可以
为其他深入分析做准备。这样可以避免只用单独
的一种方法结束分析,而是用其他方法做补充,或者组合使用,从而通过多个分析形成脉络,描
绘出解决问题的完整故事。正如我多次强调的,贯穿始终的故事可以增强分析的论据,显著提高
对方的理解和接受程度。
我在日产工作时,曾在很多项目中运用过相
关分析。对那些全面掌握商业管理领域各项技能
的高管,不用解释“什么是相关”,相关分析可以
被所有高层管理者积极地接纳。即使有人不了解
相关分析,也可以使用散点图直观展现两个数据
之间的关系,获得相同的效果。散点图的直观效
果与相关系数的定量分析相辅相成,在很多场合
都曾发挥出卓越效果。
除了需要高层管理者进行决策的场合,在销
售部门的日常业务中,相关分析也能够发挥威
力。一般来说,汽车行业拥有丰富的销售数据。
我刚入职时,也会收到各种途径汇报上来的销售
业绩,但这些数据只不过是从各种角度展示的业
绩而已。半路入行的我最感兴趣的是,这些数据
与结果之间具有怎样的联系、会受到怎样的影响等问题。因此我使用各种数据,逐一考察它们与
结果类数据之间的相关关系。
这么做的结果,是一些之前“只是结果”的汇
报可以发挥更大的作用,使我洞悉影响结果的原
因。我所属的部门负责区域销售,过去没有将数
据组合在一起看过,而这种做法作为一个新突破
口或新视点,成为有效利用数据的第一步。
找到相关分析的着眼点
那么,应该如何将相关分析用于眼前的问题
呢?有一个降低难度的方法,就是记住常见的应
用模式。图 3-4 列举了在解决问题的实际工作中
应用相关分析的两种模式。
图 3-4 在实际业务中运用相关分析的着眼点第 1 种模式通过相关分析,找出对最终目标
具有密切影响的原因。例如,针对“销售额”这个
最终目标,(通过假设)找出“顾客满意度”“降
价”“产品魅力”等可能影响该目标的因素,观察这
些因素与其相关程度的高低,可以得知按动哪个
按钮(原因),会对销售额产生剧烈影响。这样
就可以将资源转移到与目标关系更为直接的活动中。反之,对那些本以为有助于增加销售额而一
直进行的活动,如果未能发现它们与目标的相关
关系,结论可能就是需要重新考虑是否继续这些
活动。
日产公司的全球总部也会面向各地区开展各
项策划或活动。但寄予厚望而策划的活动,有时
却未能如愿,或者最初虽然有效,但几年后就变
得收效甚微。负责与当地沟通的部门,常能听到
来自一线的类似反馈。
实际上,对正在开展的活动,很难对其成果
展开讨论,或者在讨论之后终止活动。有时开展
活动这件事本身更容易被视作成果,无法客观证
明“已经没有效果”,是很难决定终止活动的。
这种情况下,新的项目接二连三地分派到当
地,却无法确定哪些项目可以不必再继续下去,当地可能就会陷入项目不断增加的困境。为了解
决这个问题,我们曾经多次尝试用相关分析来检
验效果。这样一来,不是由某个个人做决定,而
是通过“数据”“客观地”展现效果的有无,从而反
映出真实情况。用数据区分有效的项目和无效的
项目,可以对有限的资源实现最优化配置。
第 2 种模式是在某个业务流程中找到瓶颈。
业务流程中包含金钱、信息等的流动,理想的状
态是所有要素都畅通无阻地抵达最终阶段(输
出)。但如果某个环节出现了停滞,预想的输出就无法实现。让我们来看一个具体事例。
假设某计算机批发商向各零售店支付奖金,以便它们在各自店铺进行减价促销。零售店将奖
金用来减价,从而增加销售。其具体流程如图 3-
5 所示。
图 3-5 在销售过程中应用相关分析
面对“计算机销售未取得预想业绩”的问题,需要在实现“销售台数”这一最终输出的流程中,找出问题(瓶颈)所在。找不到问题,就无法采
取适当的措施。按照设想,本来应该是以下情
形:
“每台计算机的奖金金额”越高,零售店“每
台计算机的减价促销金额”越高?“每台计算机的减价促销金额”越高,购买计
算机的顾客越多
其中任何一项存在问题,在“每台计算机的
奖金金额”与“每台计算机的减价促销金额”之间,或者“每台计算机的减价促销金额”与“销售台
数”之间就会看不到相关关系。
奖金被用到哪里了
进行相关分析之后,各数据之间可以得出如
图 3-6 所示的相关系数。
计算机 A 的情况是,奖金被用于减价促销
(相关系数:0.81),但减价并未体现为销售台
数的增加(相关系数:0.29)。看来计算机 A 并
不能依靠减价的方法来增加销量。这样,就找到
了店铺减价流程中的一个瓶颈。计算机 A 需要立
即改为采取减价以外的其他措施。
计算机 B 的情况是,似乎只要减价就可以期
待销售台数增加(相关系数:0.94),但零售店
并未将奖金用于减价促销(相关系数:0.34)。
这样,就发现了零售店在减价流程中造成的瓶
颈,也许是零售店对一线员工管理不利造成的,也许是零售店故意将奖金揣进了自己的口袋。此时需要采取的措施是对零售店加强指导,或者将
销售渠道改为其他零售店。
图 3-6 相关分析的结果
像这样,关注流程之间传递的数据,分析它
们之间的相关关系,有时可以发现需要解决的问题。在实际工作中应用相关分析,一开始可能比
较难,但如果我们随时意识到图 3-4 所示的 2 种
模式,将其套用到各种情形,就能通过反复尝试
逐渐培养出这种视点和直觉。
相关分析探索的是两种数据之间的相关系
数,但实际业务中,需要考察的对象可能不只两
种。例如下面的情形,假设这是过去 15 周内各
种商品销售数量的数据(图 3-7)。
图 3-7 过去 15 周内各种商品销售数量用 Excel 加载项进行批量分析
图 3-7 的样本量在实际工作中其实还不够充
分(一般认为最少需要 30 个样本),不过我们
就暂且用它来粗略地考察一下各商品销售数量是
否相关。然后可以根据其结果提出假设,在卖场找到有利于顾客依次购买的摆放方式。从冷冻食
品到面包,5 种商品两两组合,可以得出 10 种模
式。对这种规模的数据,可以用 Excel 的
CORREL 函数逐一计算出相关系数。
但如果商品种类变为 10 种,就会产生 45 种
组合模式。这时再用 Excel 的 CORREL 函数计算
相关系数会非常吃力。这种情况下,可以使用
Excel 标准配置的“加载项”功能。这里以 Excel
2013 为例进行说明。其他版本可能略有不同。
首先在“文件”菜单中单击“选项”。在接下来
出现的页面点击“加载项”,并从右侧列表中选
择“分析工具库”(图 3-8)。
图 3-8 选择加载项点击页面下部的“转到”按键,在接下来的画
面中勾选“分析工具”,点击“确定”。这样就在
Excel 中加载了分析工具。加载成功以后,同一
台计算机以后无须再次加载,非常方便。图 3-9 勾选分析工具
加载完成后,“数据”标签右侧会显示“数据分
析”。点击“数据分析”,在图 3-10 所示页面选
择“相关系数”。点击“确定”后,将数据所在范围
指定为“输入区域”,在“标志位于第一行”前划
,点击“确定”完成操作。于是前文的例子就可
以得到图 3-11 所示结果。这里将小数位数设定为两位。
图 3-10 选择“相关系数”
图 3-11 5 种食品的相关系数矩阵(分析结果)图 3-11 显示了 5 种数据之间所有组合的相关
系数。从中可以发现,有 3 种组合,即冷冻食品
与酒、酒与副食、点心与面包的相关系数超过
0.5。可能是最近独自一人吃晚餐的顾客比以前增
加了,酒与冷冻食品或副食的销售情况比较相
似。点心与面包的组合可能是面向儿童顾客的。
进一步调查星期几、哪些商品或者哪些时间段的
销售情况更好等信息,也许可以得到更深入的结
果。
这样一来,很容易就可以找到下一步分析的
线索。数据种类较多的相关分析中,Excel 加载
项是一个强大的工具。对数据分析感兴趣的读
者,不妨立刻启动加载项尝试一下。
利用矩阵排列优先顺序
相关系数不仅能单独使用,还可与其他指标
组合起来进一步应用。例如,图 3-12 的例子是温
泉旅馆的顾客问卷调查结果。除了综合满意度之
外,该问卷调查还包括顾客对其中 5 个因素的评
分。
图 3-12 温泉旅馆顾客满意度问卷调查结果“综合满意度”决定了顾客是否会再次光临,因此需要判断在哪个方面加大力度才能提高综合
满意度。旅馆的资源(经费、时间、人员等)有
限,需要对 5 个因素进行比较,决定其优先顺
序。为此,我们考察了各因素与综合满意度的相
关系数(图 3-13)。图 3-13 各因素与综合满意度的相关系数
同时还计算了各个因素的平均得分。仅凭这
些仍然难以做出判断,所以又以相关系数为纵
轴,以平均值为横轴,做成图 3-14 所示的矩阵。
为了明确评价标准,我们将综合满意度的平
均值(61.6 分)和相关系数 0.5 做了突出显示。
与综合满意度具有相关关系(以 0.5 为标准)
的,包括“料理”“洗浴”和“服务态度”。“料理”与
综合满意度的相关程度最高,不过“料理”的得分
已经达到了较高水平,远远高于平均值,因此与
其他方面相比,可改进的余地比较小。当然,如
果“料理”得分降低也会产生严重的后果,所以必
须要维持现状。
图 3-14 顾客满意度矩阵另一方面,“洗浴”与综合满意度有相关关
系,但平均得分较低。因此“洗浴”方面还有较大
的改进余地,而且改进越多就越能提高综合满意
度。同理,继“洗浴”之后需要强化的是“服务态
度”。
需要注意的是,这里将与“综合满意度”的关系的密切程度作为一个维度,将“得分”数值作为
另一个维度,这样可以把性质迥异的 2 个维度结
合起来,互相补充对方所欠缺的信息。
也就是说,只靠相关系数体现的关系密切程
度,无法看出“现在的得分是高还是低”。另一方
面,仅凭“得分的高低”,也无法了解它对综合满
意度有多大贡献(恐怕很多人都有过仅凭得分高
低做判断的经历吧)。将 2 个维度组合起来,可
以补充缺失的信息,能够更深入、更清晰地体现
出整体情况。
像这样,需要客观地决定优先顺序时,可以
通过 2 个维度展现其相对定位。这样不仅可以使
分析更具深度,也更便于与其他人共享直观化的
信息,在组织内形成共识。请想象一下对每个维
度单独展开讨论的情形,与只用平均值单纯比较
相比,运用相关系数得出的结果更易于展开讨
论。
来自不同部门或具有不同国籍等多样化背景
参与者之间,很难实现相互理解并达成共识。不
过有一些方法确实可以让所有人都更容易接
受。“2 个维度”的直观方法就是其中之一。它最
大的优势就是,既可以让人从主观上理解,同时
又能够提供客观依据。
我曾经多次使用过这个武器。例如有时需要
在短短 5 分钟的有限时间内,同时展示结论和根据,征得所有高层管理者的一致同意,那么这个
方法就可以发挥绝佳效果。
不要随便编故事
相关分析既有效又简单,稍做尝试即可得出
结论,非常适合实际应用。但另一方面,如果理
解或使用方法不当,相关分析也有可能得出错误
的结论。如果能在分析过程中发现这些错误倒也
无妨,但这一点往往很难做到。实际上,有很多
情况必须依靠分析者本人的细心、知识或经验才
能发现。没有一种方法可以保证“这样做绝对没
问题”。
因此,我们在学习分析方法的同时,还需要
了解它的注意事项。随时有意识地进行检查,可
以大大提高数据分析的质量。那么,都有哪些陷
阱呢?以下介绍 4 种常见的情况。
陷井 1 因果关系
得知“具有密切关系”之后,人们常会下意识
地把某些故事套在上面。其中最容易接受的故事
就是因果关系。将信息碎片随意拼接起来,编造
出若有其事的故事(因果关系),然后再用它来“说服”自己,这种情况在日常生活中十分常
见。进行客观分析时,尤其需要注意这一点。
例如,“媒体曝光度”与“咨询件数”之间似乎
具有高度相关。那么是否就可以得出结论,认
为“进一步增加媒体曝光,就能增加销售额”呢?
答案是“也许是,也许不是”(图 3-15)。
也许是由于“咨询件数”的增加,引起同行业
的关注,才导致了“媒体曝光度”增加这一结果。
图 3-15 媒体曝光度与咨询件数之间是否具有直接
关联?
相关关系并不一定就是因果关系,这一点非
常重要。是否给相关关系套上因果关系的故事,是分析者个人判断决定的。所以要清楚,这并不
是分析结果所展现的内容。根据同样的分析结
果,却有可能得出与原本的因果关系截然相反的解释。
例如,二氧化碳浓度与气温变化之间确实存
在相关关系。人们一般认为,“因为二氧化碳增
加,导致地球变暖”,但其实也有论文提出截然
相反的观点,认为是因为气温升高,使海水中的
二氧化碳被排到大气中,导致二氧化碳浓度上
升。在这个例子中,对于哪个是原因,哪个是结
果,人们做出了不同的解释。仅靠相关分析,无
法明确其因果关系。
作为检验因果关系的方法之一,可以考察 2
种数据发生变化的时期(顺序)。因果关系应该
是原因变化在先,结果随后发生变化。
陷井 2 疑似相关
任何情形都可以通过计算得出相关分析的结
果(相关系数),但这个结果未必都是由“直
接”相关关系导致的。尤其是在复杂的商务世界
中,只用一对一的直接关系就能解释的情况其实
很少。如果仅凭计算结果创造故事,很可能会得
出有悖常识的结论。
例如,假设“顾客满意度”与“销售额”高度相
关。那么是否就能直接得出“改善服务,提高顾
客满意度,就能进一步提高销售额”的结论呢?对此,答案依然是“也许是,也许不是”。仅凭相
关分析的结果无法得出真正答案。如图 3-16 所
示,这种情况要求分析者考虑是否存在“第 3 个
要素”。
图 3-16 顾客满意度与销售额之间可能存在“第 3
个要素”在这个例子中,如果还存在分析中没有体现
出来的“减价”,就不能否定减价导致销售额和顾
客满意度同时提高的可能性。顾客满意度与销售
额同时增加,数字上得到的结果显示两者高度相
关,但我们却不能就此认定二者有直接关系(例
如因果关系)。在这种情况下不能把思考停留在
眼前的数据上,还要随时提出多种假设,分别考
察它们之间的相关关系,才能从某种程度上降低
风险。
如何解释分析结果,需要分析者亲自判断。
扩大解释的选项范围,可以避免结论受到狭隘思
路的限制。
陷井 3 数据的范围
所有的数据分析都有一个共同点,就是分析
所用的数据范围不同,会对结果带来很大差异。
图 3-17 显示了某保险产品销售专柜员工“接受培
训的次数”与“服务态度在顾客问卷调查中的得分
(服务态度得分)”的关系。如果一股脑地计算
所有数据的相关系数,可以得到 0.40 这样一个并
不算高的数值。
不过我们并不能据此得出“接受培训次数的
多少对顾客满意度没有贡献,因此没有意义”的结论。因为如果假设“只有达到一定次数之后,培训效果才会显现”,那么就有可能在散点图上
发现前后出现变化的点。图 3-17 的例子很明显,以接受培训 20 次左右为界,服务态度的得分趋
势开始发生变化。也就是说,需要对分界点的前
后加以区分,重新进行相关分析。
图 3-17 培训的效果检验单独计算接受 20 次培训以后的相关系数,可
以得到接近 1 的高度相关的数值。这个“选择分
析范围”的工作也要由分析者来做。分析者能否
针对数据范围提出适当的假设,有可能会导致截
然相反的结论。
除了最初就知道应该着眼于何处的情况,一
般情况下,可以用散点图将数据的相关关系直观
地展现出来,然后再逐一探索应该从何处着眼,这也是一个关键。
陷井 4 离群值
还有一个与其他分析方法共通的注意事项,即对“离群值”的处理。离群值指由于某种原因,与其他数据差距比较大的数据。分析对象中是否
包含离群值,会使相关系数产生很大差异。图 3-
18 是从 25 家经销商收集的汽车分期付款销售数
量。从整体上可以看出,随着贷款利率(横轴)
的升高,分期付款销售数量(纵轴)呈下降趋
势。
图 3-18 分期付款销售业绩在右上方,有一家店铺并不符合这个倾向。
它就是离群值。连同这个离群值一起计算,得到
的相关系数为-0.44,并不太高。但如果剔除离群
值,相关系数就会猛增为-0.74。
那么是否应该把离群值全都剔除在外呢?答案是“原则上,没有明确理由是不可以的”。
如果可以随意删除数据,就有可能出现分析
者操纵分析结果,导致分析丧失客观性和可信度
的情况。所以,发现离群值时,首先要调查这个
数据为什么会出现偏离。在此基础上,如果能找
到合适的理由,则可以将其从对象中剔除,再进
行分析。这个事例中,由于只有右上方的经销商
实施了极为优惠的首付政策,所以分期付款销售
数量的增长与贷款利率无关。
收集此类无法从数据中获知的信息,并进行
判断,也是分析者的重要工作之一。像图 3-18 一
样,用散点图加以直观展现,会更容易发现离群
值。
综上所述,与其他方法相比,相关分析有很
多需要分析者多加留意、开动脑筋的地方,这与
它能够用于各种问题和情况的较高通用性互为表
里。虽然分析者的技术和直觉可能永远也达不到
满分的水平,但随着分析经验的增加,其能力自
然也会不断提高。
「解决问题的故事 3」
第三步:建立 WHY 型假设,关注影响客户忠诚度的要素
锁定问题关键并进行检验之后,确定车型 B
与车型 C 的客户忠诚度自一年前开始下降,导致
很多顾客再次购买时转为选择其他公司产品,影
响了销售数量和销售额。
那么为什么会出现这种情况呢?可以通过关
注客户忠诚度与其他数据之间的相关关系来锁定
原因。
虽然也可以对客户忠诚度和可能相关的现有
数据逐一进行相关分析并建立假设,但为了保证
思路不受数据或随机因素的影响,我们首先从理
论上进行思考。
要寻找原因,可以构建“WHY 型假设”。
WHY 型假设是将问题放在最顶层,然后列出能
够回答“为什么”的所有可能答案。接下来,再针
对这些答案,同样重复“为什么”的提问,进一步
深入挖掘。
图 A 从“用户再次购买时为什么选择其他公
司产品”的疑问开始,最终将问题归纳为“售后服
务”“产品”和“价格”3 个关键词。总结关键词,可
以便于检查是否有遗漏或缺失。一句话不太容易
在大脑中留下印象,而只列出关键词,则比较容
易发现遗漏或者重复。图 A 车型 B 的客户忠诚度为什么会下降(WHY
型假设)
至于需要深入挖掘到何种程度,我认为只要
最终能够锁定原因,并设想出具体措施即可。这
个事例中,有一个原因选项是“因为其他公司推
出了具有竞争力的产品”。对这个原因,无论如
何深入挖掘,解决方法也只能是“开发更有竞争
力的产品”等中长期措施,不能成为尽快增加销
售的方法。因此,可以暂且将其优先顺序推后。
也有可能这才是根本原因,所以我们不是无计可施就忽视它的存在,而是因为目前需要优先
调查能在短期内采取对策的原因。与那些需要严
密调查理论上的所有原因,写成报告的情况不
同,商务人士需要根据目的、制约条件和实际情
况,采取灵活的措施。
那么,先来看综合满意度(月份平均)与客
户忠诚度是否相关。因为没有区分不同车型的满
意度数据,只有包括所有车型的综合满意度,所
以需要计算它与各车型客户忠诚度之间的相关系
数。
如图 B 所示,整体客户忠诚度与综合满意度
之间的相关系数为 0.64,由此可知一般来说(不
区分车型),两者之间存在相关关系。再看不同
车型客户忠诚度与综合满意度的相关,车型 B 和
车型 C 与综合满意度的相关系数分别为 0.75、0.69,数值较高,可以确认为相关。
此外,没有被列为问题关键的车型 A 和车型
D 与综合满意度不相关,决定顾客再次购买时如
何选择的,可能是竞争对手产品等其他原因。
只看综合满意度,并不能决定“应该采取哪
些措施”。这样的话仍然无法对实际业务产生意
义,所以接下来还要再次应用相关分析来探
讨“售后服务”“产品”“价格”与综合满意度之间的
相关程度。每一种车型都有数据,所以就按照不
同车型分别来看(图 C、图 D)。图 B 不同车型客户忠诚度与综合满意度的相关系
数图 C (车型 B)各项要素与综合满意度的相关图 D (车型 C)各项要素与综合满意度的相关通过图 C 可以发现,对车型 B 来说,与同类
产品的价格比(相对而言是贵还是便宜)对综合
满意度的影响较大。二者的相关系数为-0.72,表
示价格越高,顾客满意度就会越低。需要注意其
变化趋势是相反的,也就是说,车型 B 的用户对
价格比较敏感。
对车型 C 也进行同样的调查,结果为图 D。
可知对车型 C 来说,售后服务满意度与综合满意
度高度相关(0.59)。
同样是综合满意度,车型 B 的用户与车型 C
的用户所重视的关键点完全不同。当然,我们也
可以越过综合满意度,直接考察每个车型的客户
忠诚度与“售后服务”“产品”“价格”等数据的相关
系数。
不过在提出假设时,直接连接到具体项目,就有产生“逻辑跳越”的风险,可能会有人质
疑:“客户忠诚度为什么会与售后服务直接联系
在一起”。为了保证自己的故事能够令人信服地
说明整个经过,需要细心地构建假设,依据假设
依次分析,这会左右整个分析的可信度。
将前面所有分析组织起来,其结构如图 E 所
示。它体现了对问题进行深入挖掘的整个过程。
要注意,必须确保沿着挖掘出的原因逆流而
上,一定会达到“销售总额减少”这个最根本的问题。
此外,图 E 还体现出,分析者并不是只分析
了偶然想到的某些项目,而是通过这个构造避免
了遗漏或重复,并对那些最终确定并非问题或原
因的项目也进行了检验。另外,对话框里的内容
解释了停止深入挖掘的原因。这样一来,听众就
可以明白,分析者说到解决问题、进行分析或企
划的目标时,“该工作的最终目的”这一重要视点
始终没有动摇。锁定原因之后,接下来就是制定
改进(解决)措施了。
图 E 分析得出的解决问题的故事的构造 第 4 章
制定对策,要依据“方程式”前面介绍了如何确认 2 个数据之间的相关程
度并锁定原因。相关分析具有简单实用的优点,即使数据单位不同[例如“人”和“钱(日
元)”等],也可以进行分析。但在实际工作
中,要想充分发挥数据分析的作用,获得对方的
认可,还需更进一步的工作。
例如,相关分析的结果表明,“在网上公布
视频的频率”与“购买数量”高度相关(图 4-1)。
根据数据得出这一发现虽然有意义,但设想一
下,如果把“高度相关”作为结论汇报给上司,他
会做出怎样的反应呢?
上司一定会问:“我知道它们高度相关了。
那么,公布视频的频率对购买数量到底有多大影
响呢?”了解相关程度的大小,对锁定原因非常
有效,但只靠相关分析却无法得知这个原因会对
目标产生多大影响。
虽然找到了高度相关的原因,却仍然不知道
要改善到什么程度才能对目标带来变化。而对掌
管业务整体运营的人来说,这是一个非常重要的问题。
图 4-1 公布视频的频率与购买数量的关系
此外,上司可能还会问及措施或计划:“那
么具体要采取哪些措施,做到何种程度呢?”也
就是说,相关分析归根结底还只是锁定原因,而
无法规划下一步的措施。
现实工作中,人们需要根据数值采取行
动。“为什么要进行分析”“计划根据分析结果做什么”,这些视点和思维方式,对实际业务中的数
据分析工作具有极为重要的意义。
因此,继相关分析之后,还需要“一元回归
分析”登场。一元回归分析可以将 2 个数据之间
的相关关系表现为具体公式。前文的例子就可以
通过一元回归分析计算出“在网络公布视频的频
率”为多少时,“购买数量”会达到多少。
10 秒钟完成一元回归分析
例如,如图 4-2 所示,假设有 30 个星期内每
周公布视频的频率和购买数量的数据。首先使用
CORREL 函数确认二者之间的关联,得出相关系
数为 0.80,属于高度相关。接下来,可以按照以
下步骤,得出“公布视频的频率”与“购买数量”的
数值关系。
图 4-2 30 个星期内每周公布视频的频率和购买数
量的数据(1)用散点图展现 2 个数据间的关系
绘制散点图时,一般需要注意确认将哪个数
据设为纵轴(图 4-3)。除了清晰明了、简单易
懂之外,散点图还必须保证在之后的数值化过程
中,用纵轴表示“输出(结果或目的)”,用横轴
表示“输入(能够控制的变量)”。散点图的原则
是通过控制横轴的变量,引起纵轴变化。在Excel 中将纵轴的数据放在右侧,横轴的数据放
在左侧,就可以得到想要的散点图。
图 4-3 公布视频的频率与购买数量的散点图
(2)用散点图求回归方程选择散点图上任意一个点,点击鼠标右键,在菜单中选择“添加趋势线”。然后在图 4-4 所示
的页面中勾选最下面的“显示公式”和“显示R平方
值”。如图 4-5 所示,散点图上就会出现一条大致
从数据中心通过的直线,以及体现纵轴与横轴数
值关系的公式。
图 4-4 勾选在图表中显示公式和R平方值依据具有相关关系的数据,上述操作可以在
10 秒钟之内完成。这个方法与相关分析一样,能
在实际工作中发挥巨大优势。在实际工作中,我
们收集到的数据,并不一定都能预测出结果,或
者说可能大多数都无法预测结果,所以需要在较
短时间里多次试错。能在 10 秒钟之内完成一次
分析,也就意味着可以在有限的时间里进行多次
检验。
图 4-5 散点图上的回归方程和R 平方值(R2)那么,应该如何解释这个结果呢?散点图上
的公式为:
y=3.330 3x+84.911
在这个例子中,该公式可以理解为:购买数量(个周)=3.33×公布视频的频率
(次周)+84.9
可能很多人都发现了,我们曾经在中学数学
课上学过这个公式,表示直线y=ax+b (a是斜
率,b是常数)。这条直线就是图 4-5 中的直线。
一元回归分析公式用y=ax+b的形式来表现这条直
线,这就是回归方程(由此画出的直线叫作回归
直线)。
回归直线作为零散分布的原始数据的代表,是距离各点(数据)之和最小的直线。不过除非
所有数据都排列在同一条直线上,否则回归方程
与各点之间就一定会有偏差。就这一点而言,回
归方程无法完美地体现原始数据。
这样一来,就还需要另一个指标,来衡量回
归方程(作为原始数据的代表)的可信度。这个
指标就是散点图里写在回归方程下面的R2。
让我们再来看看相关分析。如果原始数据完
全相关(相关系数=1),那么所有的点都会排列
在一条直线上;但如果不是完全相关,相关系数
就会随着数据对完全相关(直线)的偏离,从 1
开始逐渐减小。其实,越偏离直线,指标越小于
1 的现象也适用于一元回归。数据偏离越远,回
归直线就越不能准确地代表原始数据,R2表示数
据的偏离程度。关注相关系数的平方
接下来,我们来看R2。在图 4-2 的例子当
中,相关系数是 0.80。其平方为 0.64,与从散点
图求出的R2 =0.640 2 的数值一致。R2就是相关系
数的平方。因此我们对R2也可以采取与相关系数
相同的评价标准。
多数情况下,我们将相关系数大于 0.7,或
者稍微放宽一些,将相关系数大于 0.5 的情况视
为“相关”。0.7 和 0.5 的平方分别为 0.49 和
0.25。大多数情况下,我将 0.7 作为相关系数的
标准,将 0.49 作为R2的标准,大于这个数值则判
断数据相关,可以放心地使用回归方程。对同一
数据来说,根据相关系数判断,还是根据R2判
断,其结果是相同的。
顺便说一下,x叫作“自变量”或“解释变
量”,y叫作“因变量”或“被解释变量”。不知道这
些专用名词也不会影响分析,不过与了解回归分
析的人交流时,自然会用到这些词,做些了解也
没有坏处。
如果用百分数(%)表示R2,它可以理解
为“被解释变量”在多大程度上可以由“解释变
量”来说明。就前文这个事例来说,就是在“购买
数量”这个变量当中,有 64.02%(=0.640 2)可以通过“公布视频的频率”得到解释。这样可能更便
于我们理解R2的含义。
那么,刚才得出的回归方程,应该如何解释
呢?斜率(3.33)表示,“公布视频的频率”每周
增加 1 次,“购买数量”将会增加 3.33 个。比较公
布视频的频率增加 1 次的成本和购买数量增加
3.33 个所带来的收益,就可以检验目前公布视频
的成本能否带来足够的销售增长。如果公布视频
1 次需要 1 000 日元的成本,而销售增加 3.33 个
带来的利润增长为 900 日元的话,我们就不会再
进一步增加公布视频的频率。
只靠相关分析的结果无法得到类似的数值关
系。通过这种关系可以得知,增加 1 次公布视频
的频率,会对目标即购买数量产生多大的影响。
如果其他要素与购买数量的相关程度较低,但能
给购买数量带来更大影响的话,也可以优先采取
那个方面的措施。
另一方面,假设本周销售目标为 400 个,也
可以将它代入y,反向推算公布视频的频率
(400=3.33×公布视频的频率+84.9)。计算可
知,需要公布视频的频率为 95 次周。将这种情
况反映在散点图上就是图 4-6。
像这样,知道达到目标(例如销售数量 400
个)所需要的输入(例如公布视频的频率)为多
少,就可以计算出需要多少资源,或者据此设定行动指标(KPI:重要业绩评价指标),从而制
定出更为客观并符合逻辑的计划。
图 4-6 用散点图逆向推算公布视频的频率
后文还会专门介绍具体应用事例,希望这种方法能帮助大家告别只靠“毅力和热情”来制定计
划的做法。当然,也可以先设定公布视频的频
率,再根据回归方程计算能带来多少购买数量。
注意事项及应用事例
运用一元回归分析要注意以下两个问题。
一个是“数据之间必须具有单纯的比例关
系”。与相关分析一样,一元回归分析的大前提
是 2 个数据之间存在直线比例关系。情况或关系
越复杂,就越不符合严密的线性关系。这种情况
就不适合套用y=ax+b。
Excel 也有计算曲线回归方程的功能。从理
论上讲,我们可以对两种方式取得的R2值进行比
较,选择R2值较高的方式。但考虑到在实际业务
中的运用,即使R2值略低,但只要高于一定标准
(例如 0.25 或 0.49),还是建议使用一元回归分
析。
因为一元回归分析除了计算简单之外,在说
明分析过程时,也更容易得到非专业人士的理
解。如果对方无法理解分析过程或所使用的理
论,一般也就无法接受由此得出的结论,最终就
无法达成共识。实际工作中的难点其实就在这
里。
还有一个需注意的问题,即“离群值以及不同的数据选择范围,会导致分析结果产生很大不
同”。这一点也与相关分析的注意事项一样。是
否采纳明显偏离其他数据的“离群值”,如何设定
数据的范围(例如是过去半年期间的数据,还是
一年期间的数据),分析者的不同判断会导致分
析结果出现很大差异。也就是说,分析者每一个
小小的决定都能操纵分析的结果。
当然,分析者必须要对离群值及数据范围等
的处理方法加以说明。把手边所有的数据都用
上,边做边看能得到什么结果的做法,无论准确
度还是可靠性都无法令人信服。
一元回归分析是一种极其卓越的方法,只用
10 秒钟的时间就可以使用 Excel 计算出数据间的
关系(回归方程或回归直线)。但工作中进行数
据分析的最终目标并不是用数字来表示数据关
系。只有数据关系得到了充分的运用,分析才具
有价值。
那么,该如何运用呢?几乎所有的数据分析
教科书都没有涉及。这也是很多人在实际工作中
最大的烦恼。不同的业务、行业或者商业形态,具有无数种运用数据关系的模式。希望下面介绍
的 3 个事例能为大家带来启发,成为大家在工作
中应用数据分析时的参考。
事例 1 对比成本和收益“把有限的资源(时间、成本)投入到哪
里、投入多少才能发挥最大效率”“现行的成本使
用方式是否真能带来预期的收益”……尽管我们
常有这些疑问,一般却不会去检验,而是任由资
源浪费。那么接下来,我们就尽量具体地考虑一
下,考察哪些关系,才能用数字体现成本与收益
的关系。
计算“成本”和“收益”的数值关系,需要根据
问题内容,确定具体是哪些指标(数据)代表成
本与收益,否则就不知道应该使用哪些数据。首
先看成本,我们需要定义它具体指哪些内容。例
如是只有广告宣传费,还是也包括相关的人工费
在内等。
对于收益,同样也需要明确此处所说的收益
是用哪些数据衡量的。例如,除了常用的“销售
额”“销售额增长率”之外,还可以考虑“来店人
数”“咨询件数”等指标。
哪项指标最适合用来分析,取决于它能否充
分体现出分析的目的,而且除了要考虑这种数据
是否能收集到,还有一个前提是它与成本之间必
须存在相关关系。图 4-7 以“广告宣传费”作为成
本,以“来店人数”作为收益,对 A 店和 B 店的成
本和收益进行了比较。
如果不用数值表示,而是直接站在店里观察
来店的人数,会怎样呢?假设在使用了 60 万日元广告宣传费的那一周,A 店观测到的来店人数
约为 500 人,B 店约为 750 人。B 店的绝对数值
更大,似乎可以得出“B 店收益更高”的结论。只
看来店人数多少的话确实如此,但是因为广告宣
传而来店的人数和并非因为广告宣传而来店的人
数是混在一起的,仅靠这一点并不能得知广告宣
传(费)带来的真正收益。
A 店的回归方程如下:
来店人数(1 周的人数)=3.73×广告宣传费
(万日元)+273.6
图 4-7 广告宣传费与来店人数的关系请大家注意,该方程的斜率为 3.73,这意味
着广告宣传费每增加 1 万日元,来店人数可以增
加 3.73 人。这个数值代表 1 万日元能够带来多大
的收益。同样可知,B 店每增加 1 万日元的广告
宣传费,来店人数会增加 2.86 人。同样是 1 万日
元,用在哪一家店铺的效果更好(即成本带来的
收益更高)呢?比较斜率,3.73 大于 2.86,因此
A 店的收益更高。
这个思维方式在前文“购买数量与公布视频
的频率”的事例中曾经介绍过,它在锁定问题原
因时也可以发挥作用。针对某个问题,如果存在
多个具有相关关系的原因,就需要讨论这些原因
之间的优先顺序。其中一个做法是从“关联更为
密切”的角度,比较哪个原因与问题的相关程度
更高。
另一方面,根据回归分析的结果,可以得知
某个原因能够对问题造成“多大程度”的影响。回
归方程的斜率体现了改善解释变量的成本,与问
题由此得到改进的关系。因此可以根据斜率,从“成本和收益”的角度决定优先顺序。
看相关系数还是看斜率
经常有人问我,“应该按照相关系数判断,还是按照成本和收益的比较结果判断?”我一般
会像下面这样回答。
“相关系数常作为筛选标准,与 0.7、0.5 等
界限值进行比较,只要高于界限值就可以判断是
相关。由于其中会包含误差等,所以并不按照其
具体大小进行判断。对已经确定具有相关关系的
数据,则可以运用回归分析来定量地比较或评价
其影响。也就是说,可以从 2 个视角来看,用相
关分析判断关联的紧密程度,用回归分析判断其
影响大小。”
下面,为了进一步理解回归分析的结果,我
们再来思考,同样使用了 60 万日元的广告宣传
费,为什么收益低的 B 店的来店人数会更多。其
原因在于,来店人数中包含了并非因为广告宣传
而来店的顾客。我们可以从“理论上”计算出不使
用广告宣传费(即 0 日元)也会来店的人数。在
回归方程中,把 0 代入广告宣传费,其结果就是
无论是否进行广告宣传都会来店的人数。
A 店:来店人数(人)
=3.73×0+273.6=273.6(人)
B 店:来店人数(人)
=2.86×0+569.3=569.3(人)也就是说,即使没有广告,B 店仍然会有约
570 人来店,远远多于 A 店的约 270 人。这可能
是店铺选址或商圈等方面的差异造成的。从使用
60 万日元广告宣传费时的来店人数(A 店约 500
人、B 店约 750 人)中,减去并非因为广告宣传
而来店的人数:
A 店:500 -约 270 =约 230(人)
B 店:750 -约 570 =约 180(人)
可知,使用 60 万日元广告宣传费,A 店能
够吸引来的人数比 B 店多约 50 人。在现实工作
中,上述内容不进行零广告宣传费的试验,就无
法得知。而运用回归分析,就可以轻松地计算出
理论上的数值结果。这正是回归分析的魅力之
一。
那么将 B 店的广告宣传支出削减为零,把所
有费用都集中到 A 店会更好吗?当然没有这么简
单。无限增加广告宣传费,来店人数就会成比例
地无限增长,这种想法是不现实的。回归分析归
根结底只是在所使用的数据范围内有效。而且不
要忘了,正如前文介绍的,一元回归分析只是将
现实世界嵌套在极其单纯“比例关系”模式中。它
非常易懂易用,但也因为过于简化而存在缺陷。分析者应该了解这一点。
事例 2 合理分配资源
让我们再次来看 A 店的例子。假设 A 店根据
来店人数的目标,计算出所需广告宣传费,并希
望将该金额反映在年度预算计划中。例如,配合
某月新商品上市,为了吸引更多的顾客来店,将
目标设定为 3 200 人。单纯按照每月 4 个星期计
算,则相当于每周 800 人。为了实现 800 人的目
标,需要的广告宣传费如下:
800(人)= 3.73 ×广告宣传费(万日元)+
273.6
根据这个方程式计算,得知每周所需的广告
宣传费约为 141 万日元,所以这个月(4 周)需
要的预算约为 560 万日元。与缺乏可靠根据的预
估金额相比,这种方法能够明确地体现出为达到
什么样的数值目标,需要多少预算。这样不仅能
够提高预算金额的准确度,提交高层管理者或上
司审批时也更具说服力。事例 3 设定合理的 KPI
很多公司或者组织只是为了完成眼前的任务
而努力,对“工作的最终目标是什么”“如何评价工
作的结果”等根本性问题都没有明确的定义。如
果把“看上去是否努力”作为判断产出的晴雨表,除了会导致加班费无限增加之外,还会让员工看
不到目标而盲目前进。这样的状态下,公司是无
法取得可靠业绩的。
因此,KPI 受到了人们的广泛关注。不过很
多组织虽然已经意识到 KPI 的重要性,并将其导
入工作中,但实际上,很多 KPI 是随意决定的,或者只是对上一年度业绩稍做调整。
在下面的事例中,某设施为了增加使用人数
(提高使用率),针对相关分析得出的原因,设
定了理论上的 KPI。假设使用人数与使用满意度
之间存在相关关系。
如图 4-8 上方的散点图所示,假设下一年度
使用人数的目标为 2 000 人(该目标可以根据维
持设施所需的最少人数等计算,也可以根据经营
计划、中期计划等目标来设定)。
根据过去数据进行回归分析,可以倒推出使
用人数达到 2 000 人所需达到的“使用满意度”。
该事例可以得出以下回归方程式:2 000(人)= 23.68×使用满意度(分)+
174.7
计算可知,需要达到的使用满意度约为 77
分。从散点图上也可以确认到这个结果。那么,怎样才能让使用满意度达到 77 分呢?只提出“提
高使用满意度”的口号,员工还是无法采取具体
行动。于是接下来关注与试用满意度高度相关
的“使用方便程度”,它是提高使用满意度的更进
一步原因。然后像图 4-8 下面的散点图一样,对“使用满意度”与“使用方便程度”进行回归分
析。与之前一样,可以用回归方程式反向计算
出,使用满意度要达到 77 分,使用方便程度的
分数需要达到约 66 分。可见,要实现 2 000 人的
使用人数目标,使用满意度需要达到 77 分,为
此需要将使用方便程度提高到至少 66 分。采用
这个方法,便可以将
图 4-8 通过 KPI 实现使用人数目标KPI 分别设定为 77 分和 66 分。接下来便可
以每月进行问卷调查,参考目标值,检测目前所
处的“位置”,从而采取适当的改进措施。
当然,提高使用满意度的方法不仅限于提升
使用方便程度(正因为如此,R2值也不是 1)。
而且事实上,设定 KPI 的这个方法说到底不过是
根据过去数据得出的理论数值。
不过,希望读者能把这个方法与完全没有任
何指导方针、不设定目标终点、只是拼命努力的
情况,或者毫无根据地把目标数值强加给一线工
作人员的情况做一个比较。两者在进度管理的有
效性、一线员工的接受程度等方面,应该都有很
大差别。
我在日产工作时,曾经很多次绘制回归直
线,比较斜率,从而考察某个行动(散点图上的
横轴)对某个目标(散点图上的纵轴)来说是否
有效,或者检验回归直线是否至少是向右上方倾
斜的(即越采取行动越能产生效果)。对各种背
景的人来说,这种方法都能够一目了然地展现出
某个行动是否有效。
不过在现实中,也有很多情况无法顺利求出
R2值或相关系数,此时就比较容易出现意见分
歧。虽然不一定 100% 有效,不过可以将分析对象划分为不同的地区或国家,或者划分成多个期
间分别尝试,有时便能在某个范围内找到更为详
细(不同情况下)的答案。由此出发,着眼于该
范围(不同地区等)特有的问题,就能够对问题
进行深入挖掘。
「解决问题的故事 4」
第四步:通过一元回归分析,发现车型
B 和车型 C 的不同问题
前面通过相关分析,已经得知车型 B 和车型
C 的问题原因分别为“相对价格”和“售后服务”。
接下来考虑如何解决车型 B 的问题。
车型 B 的客户忠诚度在过去 6 个月里跌至约
60%。虽然 1 年多以前的客户忠诚度接近 90%,但马上恢复到当时的水平是不现实的,因此公司
决策层提出的要求是,在 6 个月以内提高 25%,即将客户忠诚度恢复到 75%(60×1.25)。
如何使用数字将客户忠诚度 75% 的目标与一
线作为行动目标的 KPI 联系在一起,这关系到后
面的工作能否取得效果。
由于车型 B 的客户忠诚度与综合满意度之间的相关系数为 0.75,属于高度相关,因此可以运
用一元回归分析考察二者之间的数值关系(图
A)。根据一元回归分析得出的回归方程式,可
以计算出达 75% 的客户忠诚度所需的综合满意度
分数。
图 A 客户忠诚度与车型 B 的满意度数据客户忠诚度(75%)= 0.005×综合满意度+
0.375 3
用这个方程计算综合满意度,约为
75(分)。
根据图 B 的回归直线,也可确认要实现“客
户忠诚度 75%”,综合满意度需要达到 75 分。但
是只有“使综合满意度达到 75 分”的目标,仍然
无法得知“具体要将哪一方面改进到何种程度”。
为此,还需要进一步落实到具体内容上。
图 B 综合满意度与客户忠诚度的关系(车型 B)通过分析原因,我们已经得知车型 B 的综合
满意度与“同类产品价格比”高度相关。也就是
说,车型 B 的用户对该产品与其他公司产品的价
格差较为敏感,会影响满意度。
因此,对“综合满意度”与“同类产品价格
比”进行一元回归分析,结果如图 C 所示。根据
这个回归方程,可以计算出达到 75 分的综合满
意度,需要将同类产品价格比维持在何种程度
(与之前的思路相同)。综合满意度(75 分)= -103.35×同类产品价
格比+180.55
计算得出的同类产品价格比为 1.02,即车型
B 与同类产品相比,价格高出 2% 之内属于容许
范围,如果超过这个范围,从理论上看,综合满
意度就很难达到 75 分。
图 C 综合满意度与同类产品价格比的关系这样就可以采取措施,要求卖场的营业人
员、销售公司随时监控同类产品的价格动向,为
产品 B 设定同类产品价格+2% 的价格界限值。然
后,销售一线就可以针对价格、综合满意度等指
标设定目标,为实现该目标而努力。
通过前文的分析,已经明确此项措施在逻辑
上会直接关系到销售数量和销售总额等上级目标
的提高。这样一来就可以通过故事(逻辑)将一
线的措施与上级目标联系起来。
当然,还可以对上级目标进行一元回归分
析,计算出客户忠诚度提高到何种程度,销售数
量会如何变化,最终能达到多少的销售总额。
在实际工作中,很少有单纯凭借一个原因就
能完全解决上级问题的情况。无论多么缜密的公
式,应用到工作中时都难以保证完全跟预想的一
样。一般都需要一线的监控和调整,才能使操作
实现最优化。不过最开始有无理论上的目标和数
值指标,会对其效果或效率带来差异。而且在需
要提出对策或计划,获得上级批准时,这一点也
会影响其说服力的大小。
车型 C 与车型 B 原因不同
接下来再看车型 C。车型 C 也与车型 B 一样,客户忠诚度与综合满意度高度相关,不过其
综合满意度与“售后服务满意度”的相关程度较高
(图 D)。
首先,根据对客户忠诚度与售后服务满意度
进行一元回归分析的结果可知,要达到 75% 的客
户忠诚度所需的售后服务满意度如图 E 所示。本
来也应该像车型 B 一样,用“综合满意度”为媒
介,先分析“客户忠诚度”与“综合满意度”,然后
再分析“综合满意度”与“售后服务满意度”,一步
步推进,这样更为细致和合乎逻辑。
不过这个步骤在车型 B 的部分已经讲过,所
以对车型 C 就越过“综合满意度”,直接对“客户
忠诚度”与“售后服务满意度”进行回归分析。由此
可以计算出售后服务满意度约为 74 分(从图 E
中也可以确认)。
客户忠诚度(75%)=0.0048×售后服务满意
度(分)+0.3933
图 D 车型 C 的综合满意度与各方面的相关关系图 E 客户忠诚度与售后服务满意度的关系
接下来,为了将“售后服务”的概念与更具体
的行动措施联系起来,我们调查了售后服务满意
度会受到哪些具体因素的影响。图 F 是对 100 名
来店顾客进行问卷调查的结果,其中包含了各要
素与售后服务满意度的相关系数。
图 F 售后服务满意度与各要素的关联从结果可以发现,在 3 个要素当中,接待顾
客时 ......
您现在查看是摘要介绍页, 详见PDF附件(5977KB,245页)。




