当前位置: 首页 > 新闻 > 信息荟萃
编号:4015
企业经营数据分析.pdf
http://www.100md.com 2020年3月25日
第1页
第8页
第17页
第26页
第43页
第69页

    参见附件(4899KB,336页)。

     企业经营数据分析,这是一本适合企业管理和数据分析人员看的一本书籍,书中内容是由作者多年从业经验的总结,都是一些干货内容,帮助你学习好经营数据。

    企业经营数据分析介绍

    本书为从事企业经营数据分析工作的人员以及企业中的高层管理者提供数据分析的思路和方法。《企业经营数据分析——思路、方法、应用与工具》的内容来自笔者长期从业经验的总结,所有的内容都是从企业的实际应用出发,涵盖了多个行业,其中包括生产制造业、零售服务业、电商行业等,读者可以将其中的思路和方法轻松地应用到实践工作中。

    主要内容包括企业中的大数据介绍、数据分析的目的、数据分析的思路、对比与对标、分类、聚类、逻辑关系、预测、结构、各职能部门的具体数据分析、常用的数据分析工具介绍。

    作者信息

    赵兴峰

    北京大学、新加坡国立大学MBA双硕士,西安交通大学工学学士,北京信宜明悦咨询有限公司创始人。

    具有20年跨国公司经营数据分析实战经验,曾就职于宝洁、惠氏、摩立特、LG电子等国际知名企业,从事市场研究、商业智能、战略研究等。

    目前专注于大数据时代下政府和企业的数据治理、数据统筹、数据分析和数据挖掘应用推广,致力于推动企业和政府利用数据实现战略转型与升级,构建智慧企业、智慧政府、智慧城市和智慧生态。

    主目录预览

    第1篇 概述篇

    1企业中的大数据

    2数据分析的目的

    3数据分析的思路

    第2篇 方法篇

    4对比与对标——识别事物的基本方法

    5分类——认知事物的基本方法

    6聚类—寻找规律的第一步

    7逻辑关系—寻找事物之间的因果规律

    8预测—数据分析的终极目标

    9结构——事物组成的“配方”

    第3篇 具体应用篇

    10各职能部门的具体数据分析

    第4篇 工具篇

    11常用的数据分析工具介绍

    企业经营数据的分析

    不是数据的罗列,而是管理问题的挖掘

    不是泛泛的总结,而是一针见血的洞见

    既需要总结历史规律,更需要预测未来走势

    既需要规避经营暗礁,更需要筑建竞争壁垒

    企业经营数据分析截图

    大数据丛书企业经营数据分析

    思路、方法、应用与工具

    赵兴峰 著

    電子工業出版社?

    Publishing House of Electronics Industry

    北京?BEIJING内容简介

    本书为从事企业经营数据分析工作的人员以及企业中的高层管理者

    提供数据分析的思路和方法。本书的内容来自笔者长期从业经验的总

    结,所有的内容都是从企业的实际应用出发,涵盖了多个行业,其中包

    括生产制造业、零售服务业、电商行业等,读者可以将其中的思路和方

    法轻松地应用到实践工作中。

    本书主要内容包括企业中的大数据介绍、数据分析的目的、数据分

    析的思路、对比与对标、分类、聚类、逻辑关系、预测、结构、各职能

    部门的具体数据分析、常用的数据分析工具介绍。

    本书适合企业的管理者与数据分析人员,以及对大数据感兴趣的读

    者。另外,本书还可以作为企业内部的数据分析培训教材。未经许可,不得以任何方式复制或抄袭本书之部分或全部内容。

    版权所有,侵权必究。

    图书在版编目(CIP)数据

    企业经营数据分析:思路、方法、应用与工具赵兴峰著.—北京:电

    子工业出版社,2016.9

    (大数据丛书)

    ISBN 978-7-121-29333-7

    Ⅰ.①企… Ⅱ.①赵… Ⅲ.①企业经营管理-数据处理 Ⅳ.

    ①F270

    中国版本图书馆CIP数据核字(2016)第155365号

    策划编辑:王 静

    责任编辑:王 静

    印 刷:三河市双峰印刷装订有限公司

    装 订:三河市双峰印刷装订有限公司出版发行:电子工业出版社

    北京市海淀区万寿路173信箱 邮编:100036

    开 本:787×980 116

    印 张:16.75

    字 数:263千字

    版 次:2016年9月第1版

    印 次:2016年9月第1次印刷

    定 价:59.00元

    凡所购买电子工业出版社图书有缺损问题,请向购买书店调换。若书店

    售缺,请与本社发行部联系,联系及邮购电话:(010)88254888,88258888。

    质量投诉请发邮件至zlts@phei.com.cn,盗版侵权举报请发邮件至

    dbqq@phei.com.cn。

    本书咨询联系方式:010-51260888-819 faq@phei.com.cn。前言

    随着大数据技术逐步在企业端应用,越来越多的企业在利用数据技

    术提升管理效率和决策的科学性。企业对数据分析人才的需求也越来越

    旺盛,对管理者的数据分析能力也提出了新的要求。但是目前关于各种

    企业经营数据分析的培训不多,图书也比较少,社会上的职业教育机构

    与大专院校虽然开始培养该方向的人才,但远远未能满足企业的需求。

    笔者撰写本书的目的是为从事企业经营数据分析工作的人员以及企

    业中的高层管理者提供数据分析的思路和方法。这些思路和方法是笔者

    在长期工作中以及在为企业提供数据化管理咨询服务项目中总结和提炼

    出来的,并结合企业实际应用场景进行介绍,具有实用性和适用性。

    本书具有以下3个特点。

    ●启发性

    本书重点强调的是思路和方法,“授人以渔”的理念贯穿始终。举一

    个例子,波士顿(BCG)矩阵或者麦肯锡-GE矩阵是用来评价产品和业

    务以及规划业务线或者产品线的,它是一个工具,其背后就是矩阵的思

    维方法,即从两个维度对一类事物进行评价。通过这个分析方法,我们

    可以对产品、客户、区域市场、业务团队进行评价;在维度选择上,我

    们可以选择不同的衡量指标,例如规模指标、速度指标、效率指标、效

    益指标、竞争力综合指标等。本书介绍了大量类似的分析数据思路,这

    也是本书最大的特色之一。●实用性

    本书内容来自笔者长期从业经验的总结,所有内容都是从企业的实

    际应用出发,并且涵盖了多个行业,其中包括生产制造业、零售服务

    业、电商行业等,读者可以将其中的思路和方法轻松地应用到实践工作

    中。

    ●延展性

    本书不是简单地演示一个案例的具体操作,也不是描述一个方法的

    细节,而是通过思路和方法的理论性总结,让读者学会数据分析的思路

    和方法,从而能够将一个场景下的分析方法延伸到更多的场景下。例

    如,基于人事矩阵的策略不仅能用在企业与客户纠纷处理中,还可以用

    在社会关系处理、家庭关系处理等场景下,这种延展性大大增加了本书

    的适用范围。

    通过阅读本书,企业的管理者可以提升数据分析的能力,数据分析

    师可以开拓思路,提高解读数据的能力。另外,本书还可以作为企业内

    部的数据分析培训教材。

    作 者目 录

    前言

    第1篇 概述篇

    第1章 企业中的大数据

    1.1 什么是数据?什么是数据技术

    1.2 数据分类

    1.3 数据类型

    1.4 数据结构和数据结构化

    1.5 数据质量及其八个指标

    1.6 数据处理与数据清洗

    第2章 数据分析的目的

    2.1 数据是数字化的证据——没有记录下来的事情就没有发

    生过

    2.2 追溯——追责、求根源、求真相

    2.3 监控——监督、检查、评估、监控、检测

    2.4 洞察——探寻规律,掌握发展的钥匙

    2.5 商机——挖掘未被满足的需求

    2.6 预测——指导未来实践的规律

    第3章 数据分析的思路

    3.1 先总后分,逐层拆解

    3.2 抽丝剥茧,寻踪问迹

    3.3 内涵外延,概念清晰

    3.4 可视化作图——按照认知规律作图展示

    3.5 识图的九个基本方法

    3.6 管理常识是数据分析的基础第2篇 方法篇

    第4章 对比与对标——识别事物的基本方法

    4.1 对比是识别事物的基本方法

    4.2 对比——横向、纵向及多维度对比

    4.3 比值比率背后的逻辑

    4.4 指标的逻辑与管理指标

    4.5 对标的层次和维度

    4.6 标杆管理与榜样的力量

    第5章 分类——认知事物的基本方法

    5.1 什么是分类?为什么要分类?分类的方法是什么

    5.2 解构事物的三要素——要素、属性和行为

    5.3 维度分类法

    5.4 属性分类法

    5.5 流程分类法

    5.6 层级分类法

    5.7 分类中的权重设定问题

    第6章 聚类——寻找规律的第一步

    6.1 聚类的基本逻辑

    6.2 聚类的因子和主成分

    6.3 聚类的步骤

    6.4 有序聚类与时间序列聚类

    第7章 逻辑关系——寻找事物之间的因果规律

    7.1 相关性与相关系数分析

    7.2 事物之间的逻辑关系与科学规律

    7.3 果因关系与因果关系,看不见的事物发展逻辑

    7.4 事物发展规律的复杂性与科学抽象

    7.5 因果关系与回归分析7.6 逻辑回归

    7.7 关联与共生——现象与规律的探寻

    第8章 预测——数据分析的终极目标

    8.1 预测是数据分析的终极目的

    8.2 预测的必要性和误差的必然性

    8.3 经验预测法

    8.4 类比预测法

    8.5 惯性法与时间序列分析

    8.6 逻辑关系预测法

    第9章 结构——事物组成的“配方”

    9.1 解构与结构

    9.2 结构关系影响着事物的根本属性

    9.3 结构的基准——激励中的预期管理比实际激励更加有效

    9.4 关键要素与非关键要素

    9.5 最佳组合——人、财、物等企业资源的最佳搭配

    9.6 结构化效率分析

    第3篇 具体应用篇

    第10章 各职能部门的具体数据分析

    10.1 专业分工下的职能价值体现

    10.2 人力资源管理中的数据分析

    10.3 财务管理中的数据分析

    10.4 营销和销售管理中的数据分析

    10.5 生产管理中的数据分析

    10.6 物流和供应管理中的数据分析

    第4篇 工具篇

    第11章 常用的数据分析工具介绍

    11.1 Excel——Excel 2016数据分析功能11.2 SQL与数据库软件Access、SQL Server、MySQL等

    11.3 SPSS统计分析工具与数据分析工具家族

    11.4 R语言与编程实现数据分析

    11.5 SAS的历史地位与最新发展

    11.6 其他软件系统以及在线资源第1篇

    概述篇1

    企业中的大数据

    什么是数据?什么是数据技术

    数据分类

    数据类型

    数据结构和数据结构化

    数据质量及其八个指标

    数据处理与数据清洗1.1 什么是数据?什么是数据技术

    现在人人都在谈大数据,也在谈数据化管理,很多人把这两个概念

    混淆在一起,每个人对“大数据”和“数据化管理”的理解都不同。本书所

    说的企业中的大数据与现在大家都在谈的外部的“大数据”还是有区别

    的。外部的大数据包括互联网企业、电信企业以及各种富数据行业所公

    布的数据等,这些构成了企业外部环境的大数据;而本书所说的企业中

    的大数据则是企业经营和管理所需要的资源以及记录资源活动的数据。

    为了区分这两者,本书把企业记录经营管理活动所形成的数据称作“企

    业大数据”,以此来区别于人们常说的外部的“大数据”。

    1.1.1 什么是数据

    什么是数据?每个人对数据的定义都是不同的。笔者曾经在一个公

    开课上提过一个问题:什么是数据?你是如何理解数据的?笔者发现

    300个人中至少有30种不同的理解。有人说数据就是数字;有人说数据

    就是信息;有人说数据就是财务数据;有人说数据就是报表;有人说数

    据就是类似GDP和CPI那样的数字指标;有人说数据就是互联网上大家

    购物所形成的交易数据;有人说数据就是社交信息;有人说数据就是微

    博中大家的看法和观点……他们说的都对,因为这些都是数据,但这样

    的定义都不是完整的。为了统一,在开始讲解数据分析方法之前,我们

    需要对数据做出一个明确的定义,以便让大家在阅读本书时有一个共同

    的认知基础。从字面意义上理解,“数据”由“数”和“据”组成。“数”指的是数值、数字、数字化的信息,或者以数值的形式存储的信息;而“据”则指的

    是“证据”或者“依据”。简单地从字面意义上来理解“数据”的定义就是:

    数字化的证据和依据,是事物存在和发展状态或者过程的数字化记

    录,是事物发生和发展留存下来的证据。如果说我们拿到了一份数

    据,这就意味着我们不仅仅拿到数值,还要理解这个数据。如果无法解

    读所获得数据的含义,那么只能称之为“数”,而不是“数据”。

    例如,175cm是数值,而不是数据(见下图)。而如果说“小明的身

    高是175cm”,那么175cm就是数据。但是这个说法还是有所欠缺的,因

    为人的身高是不断变化的,为了精确时间,我们需要将以上例子表述

    为:“小明在某年某月某日某时的身高是175cm”,或者说“小明在其18岁

    生日时测量的身高是175cm”。因为既然是证据,那么就要有事物状态

    的“时间戳”,没有时间戳,这个数据就会变得没有“证据”性。

    从严格的定义角度讲,“数据是我们对客观事物及其发生、发展的

    数字化的记录”。通过这个记录,我们可以还原事物在该数据记录时的

    状态和发生的活动,因此我们能够通过数据去追溯当时的情景。

    数据所能够记录的信息越全面,我们对过去发生的状况就会越清

    楚。文字的记录有其局限性,图片和声音的记录让事物在某时的状态所

    留存的信息量更多,能够为我们研究事物发生和发展规律提供更多

    的“证据”。因此,人们力图用更复杂的方法或者方式去记录数据,以留

    存更多的信息。就像我们发明了录音机、照相机和录像机,从而能够记录更多的信息。

    如今,我们能够记录的信息越来越多,不仅仅是数值、文字、声

    音、图片和影像,未来记录信息的方式还会有更多的创新以及更多的变

    化(见下图)。当然,在这个过程中形成全球标准是需要时间的。例

    如,对于声音,我们有MP3等各种编码方式;对于图片,我们有BMP、JPG、GIF等各种编码方式;对于视频,我们有AVI、MP4、FLV等多种

    标准化的编码方式。在Web 1.0时代,我们常说“无图无真相”,而现在

    我们更加相信当时的“录像”,如今照相和摄像功能成了智能手机的标

    配,更多的视频网站发展起来,我们的活动被各种方式记录下来了。

    随着科学技术的发展,数据概念的内涵也会不断发展,并继续演

    变。例如,当全息影像发展起来之后,人们的每个数据都会像“纪录

    片”一样被记录下来,数据的概念会进一步得到延展。本书中所使用的

    数据这个词的含义,就目前来讲,是一个相对比较广泛的含义,包括了

    数值、文字、声音、图像、视频等,只要是用数据化的方式记录下来的

    事物的发生和发展状态我们都叫作数据,不管其载体为何。

    1.1.2 数据的依据性质比证据性质更重要

    在远古时代没有文字记载,我们只能靠代代相传的故事和诗歌来推测历史;或者通过化石来研究过去到底存在什么和发生了什么。当有了

    文字记载之后,就有了更多的证据去推测和研究历史,从而对历史就了

    解得更加清楚了。

    当有了历史数据后,科学家、历史学家就可以利用这些数据来研究

    历史,总结事物发生和发展的规律,用来指导我们的社会实践,这是人

    类科学进步的基本动力源泉。企业留存数据也是一样的道理,企业要把

    历史数据积累沉淀,然后不断分析和总结企业的发展轨迹和路径,研究

    过去的得失,不再重复同样的错误,固化最优秀的做法;通过对发展规

    律的探索,可以指导企业的经营和管理决策,让企业的经营决策更加符

    合市场的需求。

    企业留存和积累的数据越多就越有价值。这些数据一方面可以当作

    证据,另一方面也可以用来研究规律,成为企业预测未来市场、形成商

    业洞察的依据。这里的证据和依据的含义差不多,证据强调的是过去,依据强调的是未来。很多企业在经营和管理过程中记录了大量的数据,而这些数据仅仅被企业用来当作一种证据,包括同客户签署的合同、财

    务记录的交易流水单、员工的上下班打卡记录等。证据只有在产生纠纷

    和产生疑问的时候才有价值。而依据则不同,如果企业能够充分利用数

    据、分析数据、挖掘数据背后的规律,找寻事物之间发生和发展的逻辑

    关系并能够指导企业未来的经营和管理活动,那么这些数据就成了依

    据。数据的“依据”价值远远大于“证据”的价值。

    1.1.3 四大类技术推动数据技术(DT)时代发

    展

    四大类技术的相互作用带我们进入了大数据时代。这四种技术包括:数据采集技术、数据存储技术、数据传输技术以及数据处理和数据

    挖掘技术。

    (1)数据采集技术

    数据采集是指采集在事物发生和发展的过程中留存的数据。在过去

    20年中,数据采集技术获得了快速的发展,而更加重要的是,智能化、自动化的数据采集设备逐步普及。现在的数据采集终端越来越智能化和

    平民化,普及率也越来越高,一部普通的智能手机里就有将近20个智能

    数据采集元件。

    (2)数据存储技术

    20年前,我们最常使用的数据存储设备是磁带机、软盘等,一台计

    算机能够存储几十MB的内容就算是非常先进的了。而现在,一个普通

    的容量为1TB的计算机硬盘,价格还不足500元人民币;一部普通的有

    着十多个智能采集终端的低端智能手机,在20年前看来都是具有“海量

    数据”的存储能力。按照数据存储界的“新摩尔定律”,每隔18个月,人

    类存储的信息量就会翻一番,而数据存储设备的价格会降低50%。

    (3)数据传输技术

    互联网[1]

    诞生还不足50年,却彻底改变了人类的生活方式以及企业

    的运作模式,并促生了很多超级企业。互联网和移动互联网的快速发展

    让带宽不断增加、成本不断下降、网络不断发达。

    (4)数据处理和数据挖掘技术

    随着数据量的不断增长,数据处理技术和数据分析与挖掘技术也在

    不断提升。在这些技术中可圈可点的包括分布式存储技术,如Hadoop;在微博兴起之后的非结构化数据处理技术;随着传输能力的提高得到快

    速应用的云存储技术等。

    在12306网站刚刚上线时,因为购票人数太多,造成大量的访问请

    求无法及时处理,给服务器带来巨大的压力,网站一度瘫痪。后来经过

    同阿里巴巴合作,12306网站通过分布式算法,提高了响应请求的速

    度,虽然消费者需要不断刷新以获取新票源,但其有效地解决了高并发

    请求和响应的问题,这也是数据处理技术升级的一个案例。在“双十

    一”期间,淘宝能够在1秒内应付上亿次的数据查询和订单处理;亚马逊

    的AWS系统同时连接着200万台以上的服务器,这些技术的发展,为我

    们挖掘和使用巨量的数据提供了基础条件。

    当然,现在的数据分析和数据挖掘技术相比数据量级的快速升级还

    相对滞后,虽然我们现在在数字数据和文本数据处理上有了较大的进

    步,但我们在声音的识别与查询,图片的识别与处理,视频资料的自动

    查询、处理和分析上还有很大的空白区域,仍然需要深度的技术开发或

    者探索。对于图片、视频、音频的搜索,仍然需要通过文字标签的形式

    来处理;而从图片中自动识别内容的相关技术,如车牌识别技术、人像

    识别技术等,才刚刚起步,离我们可以深度利用还有很长的一段路要

    走。

    以上四大类技术在快速发展着,也在快速普及着,并且技术成本还

    在不断下降。数据自动采集已不再是大企业的专利,就连一个普通居民

    小区门口的停车管理系统都能自动识别车牌号并自动计费,而其安装成

    本不足万元;一家大型的商场耗资不足10万元就能够安装整套的Wi-Fi

    监控设备,从而可以随时随地地观测商场里持有智能手机的顾客的行动

    轨迹和行为模式,为商场优化布局、精细化管理,为商户选址和制定促

    销策略提供依据。在企业管理中,特别是在生产制造型企业中,对物料的追溯越来越便捷,有更多的智能终端技术可以采用,包括条形码、二

    维码、图像识别、监控录像、智能芯片等。

    技术在革新,时代在变迁,在智能信息时代,人们的生活逐渐

    在“数据化”,而企业的运营管理活动也在被“数据化”。分析和挖掘数据

    是企业的管理者必须要掌握的基本技能,要充分利用数据掌控各种内部

    或外部信息,提高个人的影响力和控制力,从而为企业创造更大的价

    值。“信息即权力”,掌握信息越多的人,就会拥有更多的话语权。而信

    息来自对数据的加工,如果不能从数据中提取信息用于管理决策,那么

    采集的数据只会成为企业的成本;如果能够充分发挥数据的力量,在数

    据中挖掘价值,那么数据就会成为企业的资产。1.2 数据分类

    1.2.1 分类是认知事物的基本方法,也是数据

    分析的基本方法

    分类是人类认知事物的基本方法,人们通过对事物进行分类,能够

    根据每个类的特征,快速识别每个具体事物。我们通过对事物进行分

    类,可以辨别哪些是有益的,哪些是有害的;哪些可以加以利用;哪些

    需要规避。分类之后,根据类别进行深度研究是科学研究的基础。分类

    也是数据分析的基本方法之一。

    1.2.2 分类需要有标准

    为了更好地认识数据、掌控数据、利用数据,我们需要对数据进行

    分类研究。在分类之前首先要有分类标准。分类标准其实是我们认识事

    物的角度,看待问题的视角。如果把人分为男人和女人,则我们的分类

    标准是性别;如果把人分为成年人和未成年人,则我们的分类标准是年

    龄。

    下面我们会从数据的存储方式、数据的来源、数据描述的主体、数

    据所描述事物的属性特征等角度对数据进行分类。

    1.2.3 越是高级的存储方式,越方便、安全和

    高效从存储方式的角度对数据进行分类,可分为手工统计在白纸表格上

    的数据、存储在计算机里电子表格中的数据、存储在管理信息系统或者

    ERP系统服务器上的数据,还有存储在云端数据库的数据。如今电子化

    的数据存储方式越来越普及,成本也越来越低,并且越高级的存储格

    式,越方便、越安全、越高效。各种存储格式的级别如下图所示。

    1.2.4 越高级的存储格式保存的信息越丰富

    从数据的存储格式角度看,数据可分为数值型(含日期型)、文本

    型(包括字符型、短文本、长文本等)、视频型(包括图片型、音频

    型、视频型等格式)等。越高级的存储格式保存的信息越丰富,未来可

    能会有更多的数据存储格式以全景地记录各种信息和数据。

    随着数据存储设备和采集技术的发展,有越来越多的数据采用多媒

    体存储格式,而目前的数据处理技术还处在发展阶段,能够直接计算的

    数据往往是数值型、日期型(具有特殊意义的数值型)和字符型。文本型数据中的文本挖掘技术在近几年发展比较迅速,但受限于计算机对自

    然语言的解读能力,文本挖掘需要结合数据字典,即便如此,文本型数

    据处理技术还不足以达到数值型数据处理技术的精准度。

    图像识别技术在近几年发展得非常快,普及也很迅速,但仍然局限

    于某些领域中,如头像识别技术、生物识别技术、车牌识别技术等。而

    大数据的图片信息挖掘技术已经起步,音频识别、视频识别技术也在发

    展之中,但是与数值型数据处理能力相比,这些技术还是比较初级的。

    随着数据计算能力和数据处理技术的发展,各种存储格式的数据都

    得到了更好的利用,而从现在开始存储相关的数据,为以后的数据处理

    技术成熟后做准备,是值得投入的工作——如果企业有足够的经济实

    力。

    1.2.5 静态数据表示结果,动态信息表示行为

    另外一种对数据进行分类的方法是按照数据所描述的对象来分类。

    对对象本身进行描述的数据被称作静态数据,而对对象的活动进行描述

    的数据被称作动态数据。静态数据又叫截面数据,是指事物在某个时间

    节点上的状态。动态数据又叫时间序列数据,是对事物在不同时间节点

    的状态的记录,反映事物的动态变化性,或者在不同时间节点上的差异

    性。

    把数据分成静态数据和动态数据,有利于梳理数据的源头。静态数

    据是对企业资源的描述性数据,相对比较静态,不会经常变化,一次采

    集之后,不断更新即可;动态数据用来描述企业的经营和管理活动,随

    着企业经营管理活动的推进,会形成不断叠加的记录,新的记录不能覆盖旧的记录,从而形成一个时间序列的数据集。

    员工基本信息表就是一个静态数据集。静态是一个相对的概念,静

    态数据也并不是一成不变的。随着新员工的加入,员工基本信息表会不

    断增加数据,员工在企业内部工作时,除部分数据需要更新外,基本信

    息不会有太大的变化,例如姓名、员工编号、学历、籍贯、民族等。而

    员工的年龄和司龄就会有变化,但年龄是由一个人的生日决定的,而他

    的生日是不会变的,可以通过生日来计算一个人的年龄,让年龄自动更

    新;司龄也会变,但员工的入职日期一般是不会变的,可以根据员工的

    入职日期来计算司龄,这样员工的司龄数据就可以自动更新,不需要人

    为地每年更新一次。

    企业的动态数据是一个时间序列上的数据集,记录着公司的经营管

    理活动,只要公司的经营管理活动每天都在发生,数据就会不断地记录

    着。例如销售订单表,这个数据集随着企业每销售出一个产品都会添加

    一条数据。

    企业经营需要产生价值,价值往往是用静态数据之间的差异来衡量

    的,而动态数据记录着企业的资源转换行为。所有的结果都是由行为产

    生的,我们把数据分成静态数据和动态数据的主要目的就是方便研究行

    为和结果之间的关系,这是数据分析和挖掘最重要的目的。如果能够找

    到行为和结果之间的关系,那么我们就能够根据这个关系来指导企业的

    生产实践,从而有效地控制产出的结果。

    1.2.6 加工数据是在原始数据解读基础上的提

    炼,强调追溯机制从产生的源头对数据进行分类,可以分为原始数据和加工数据。我

    们从媒体上看到的数据往往是经过加工的数据,是对原始数据进行统计

    汇总后形成的数据指标。

    原始数据的定义也有广义和狭义之分。广义的原始数据就是一手数

    据,即从数据责任主体处直接获取的数据。例如从企业中直接收集的数

    据、部门内部统计之后汇报的数据。这种广义的原始数据,有可能也是

    在数据源头采集之后经过加工处理、汇总统计得到的。

    狭义的原始数据是指直接采集的数据,即直接通过手工记录、观

    察、设备自动采集、电子手段直接识别等形成的最原始的数据,在这个

    基础上经过统计、汇总之后的数据都是加工数据。例如,员工上下班打

    卡数据和指纹打卡机直接记录的数据都是原始数据。而人力资源考勤员

    把指纹打卡机中存储的数据导出之后,统计每个人在本月内正常上下班

    天数、迟到天数、早退天数,这些统计汇总后的数据从狭义定义上来说

    就是加工数据;而在广义的原始数据中,考勤员统计后的数据则叫原始

    数据。一般说的原始数据是指原始数据责任主体直接提供的数据,考勤

    员对考勤数据直接负责,所以其提供的数据就可以看作原始数据。

    从数据分析的角度讲,纠结原始数据和加工数据到底哪种定义更准

    确是没有什么太大意义的。之所以要定义原始数据和加工数据,最根本

    的价值在于对数据质量的控制和对数据形成和传输过程的追溯。数据质

    量决定了数据分析结论的准确性,在数据分析的过程中,如果发现数据

    存在问题,或者对数据本身有疑问,则可以通过追溯数据产生的机制,追溯数据源头、数据传输的过程、数据处理过程和数据处理的方法,甚

    至追溯到数据采集的方式、数据采集人或者采集设备,从而找到问题的

    源头,解决数据的质量问题,以及保证后续数据的准确性。1.3 数据类型

    数值型数据是我们经常处理的数据,也是数据处理技术相对比较成

    熟的领域。从数据所表述内容的角度对数值型数据进行分类,可以分成

    定类数据、定序数据、定距数据和定比数据,下面分别具体介绍。

    1.3.1 定类数据

    定类数据也称定性数据,用于标识数据所描述的主体对象的类别或

    者属性、名称,例如人的名字、事物的名称。定类数据只能用来标识事

    物,不能进行任何运算,包括比较运算。因为你无法比较一个苹果和一

    个李子哪个好,除非你能够提供额外的数据来证明谁好谁坏,例如提供

    了额外的体积数据或者重量数据,按照体积或者重量来比较是可以的,但是苹果和李子这两个数据本身是没有任何比较或者运算意义的。

    又例如,将人口按性别划分为男性和女性两类,数量化后可分别用

    0和l表示;将企业按行业类别分为农林牧渔业、采矿业、教育类、制造

    业、建筑业、金融业等,可分别用1、2、3、4、5、6等表示。这些数字

    只是代号而无顺序和大小之分,不能区分大小或进行任何数学运算。

    定类数据有各种类型,它们的排序是无关紧要的,即哪一类在前,哪一类在后对所研究的问题并无实质性的影响。而且,定类数据能够进

    行的唯一运算就是计数,即计算每一种数据类型的频数或频率(即比

    重)。1.3.2 定序数据

    定序数据也称序列数据,用于对事物所具有的属性顺序进行描述。

    定序数据虽然可以用数字或者序号来排列,但是并不代表量化的数据的

    大小,它只代表数据之间的比较关系。例如第一名、第二名、第三名

    等,这些只代表顺序,按照大小正序排列第一名肯定比第二名大,具体

    大多少是无法比较的。第一名和第二名相加也不会等于第三名。定序数

    据只可以用来比较,不能用来做加减乘除等运算,因为这些运算是没有

    任何意义的。

    定序数据不仅具有定类数据的特点,可以将所有的数据按照互斥和

    穷尽的原则(MECE原则[2])加以分类,而且还使各类型之间具有某种

    意义的等级差异,从而形成一种确定的排序。这种序列测定在社会经济

    管理工作中应用很广泛,例如,将企业按经营管理的水平和取得的效益

    划分为一级企业、二级企业等;将员工按所受正规教育划分为大学毕

    业、中学毕业、小学毕业等。这种排序是确定的,对所研究的问题有特

    定的意义。但是,它并不能具体测定各等级之间的间距大小,例如不能

    计算一级企业和二级企业有实质意义的量的差距,也不能计算服务质量

    与预想的之间的差距。

    1.3.3 定距数据

    定距数据也称间距数据,它比定序数据的描述功能更好一些。定距

    数据是指没有绝对零点的数据,例如温度,其零点是人为指定的。而且

    并不能说20摄氏度是10摄氏度的两倍,因为缺少绝对的零点温度,零度

    并不代表没有温度。定距数据因为有了标准的距离差异度量,它不仅能将事物区分为不

    同类型并进行排序以及可以测定其间距大小,标明强弱程度,还可以做

    加法或者减法运算。我们可以说20摄氏度比10摄氏度高10摄氏度;30摄

    氏度比20摄氏度高10摄氏度,而这个温度差是一样的,也可以比较。

    定序数据之间的差异缺少标准的度量尺度,因而无法比较,但定距

    数据是可以的,定距数据的差异值本身会成为定比数据,从而可以进行

    加减乘除运算。时间点是定距数据,没有绝对的零点,或者零点并不代

    表没有时间,但是时间差就是定比数据,可以进行加减乘除运算。如果

    时间差是零,则可以认为是没有时间差异。

    1.3.4 定比数据

    定比数据也称比率数据,用于描述事物的大小、多少、长短等,可

    以进行加减乘除运算。定比数据与定距数据的显著区别是:定比数据有

    一个自然确定的非任意的零点,即在数值序列中,零值是有实质意义

    的。

    以上四类数据具有层级关系,高级的数据可以转换为低级的数据,反之则不成立。其转换关系如下图所示。从数据所描述的现象上看,定类数据和定序数据是对事物属性的测

    量,而定距数据和定比数据是对事物定量的测量。1.4 数据结构和数据结构化

    1.4.1 什么是数据结构

    数据结构是我们存储、组织数据的方式,是数据内部的构成方法。

    数据结构是指数据元素之间存在着一种或多种关系,这种关系会因为数

    据主体、数据源头、数据处理方式、数据存储方式、数据组成要素之间

    的关系而形成数据之间的关系。数据结构包括三类,即数据的逻辑结

    构、数据的存储结构和数据的运算结构。

    下面用一个实际案例来介绍什么是数据结构。一家公司的人力资源

    经理要收集员工的基本信息,于是他设计了一个员工信息登记表,如下

    表所示。

    员工信息登记表为了便于存储和查找,人力资源经理设计了一个Excel数据表格来

    存放这些员工的基本信息。在分析这个数据表存在的问题之前,下面先

    介绍三个概念。

    数据主体——就是被记录数据的事物,包括动态的事和静态的物。

    员工基本信息数据的主体是员工;工资表的数据主体是“发工资”这个行

    为或者动作,属于“事”的范畴。数据表——记录一系列数据的集合。例如员工信息表记录着公司所

    有员工或部分员工的个人信息数据。

    一条数据——就是该数据集中某个员工的所有信息,一个员工对应

    一条数据,多个员工对应多条数据。

    字段——每条数据中对数据主体的属性描述,例如员工基本信息数

    据中的“姓名”是一个字段,“性别”是另外一个字段。

    该公司的人力资源经理在制作Excel表格时发现这个数据表涉及的

    数据存在以下三个问题。

    问题1:学历,有些人的学历不止一项,从小学、初中、高中、大

    学、硕士到博士有一系列不同的记录,而这里却无法有效地填写;于是

    他把学历部分做了扩充,设计了以下的表格形式。

    学历表格

    人力资源经理认为留出7条记录的空间应该足够覆盖员工从小学到

    博士后的所有学历状况,即学历1(小学)、学历2(初中)、学历

    3(高中)、学历4(大学)、学历5(硕士)、学历6(博士)、学历

    7(博士后)。然而在实际记录数据时,他又发现了两个问题。第一个问题是他碰

    到了一个“学霸”级的人物,本科修了两个专业,硕士修了两个专业,还

    读了一个在职MBA,此时数据表的记录空间不够用,如果单独为他加

    上一列,则对数据存储空间的影响还是很大的,而且数据表太宽也不利

    于阅读。

    第二个问题是在记录数据时,有的人是从最高学历开始记录的,即

    大学记录在学历1中;有的人是从最低学历开始记录的,即小学记录在

    学历1中;有的人因为先上了专科,又读了本科,导致大学学历的记录

    位置不能统一。

    问题2:学历的问题还好说,最多留出10条记录空间就能勉强解决

    这些难题,但工作经历就不同了。有的人换工作比较频繁,而有的人第

    一份工作就是现在的工作,没有其他的工作经历。而且岗位调动信息也

    有类似的问题,无法确定要留几条记录空间给岗位调动信息。

    问题3:填写完员工的年龄后,到第二年每个人都需要加一岁,但

    是当年新记录的员工不能加1,这如何实现?司龄也有同样的问题。

    最终人力资源经理制成的Excel数据表格非常不规范,这个表格存

    在的设计问题就是数据结构的问题,优化数据结构能够提高数据管理的

    效率,如果数据结构不合理,则未来会需要大量的时间进行数据处理、数据清洗,甚至对公司的信息系统资源也会造成浪费。优秀的数据结构

    设计人员(也叫数据库架构师)能够对公司的所有数据系统进行统筹架

    构,从而形成优化的数据库体系。

    1.4.2 如何设计好的数据结构数据结构是数据的组织形式,在组织数据之前,需要对数据进行分

    类。在对“员工”这个资源主体进行信息记录时,首先需要把数据分成静

    态数据和动态数据,因为静态数据是相对固定不变的,或者说变化不太

    频繁,而且变化之后,往往采用覆盖的方式;而动态数据则是持续增加

    的,并且增加时往往采用叠加的方式,并不覆盖原来的数据。我们可以

    把员工信息表中的数据分为静态数据和动态数据,如下表所示。

    静态数据 动态数据

    姓名

    入职信息(包括日期和岗位

    等信息,虽然在大多数情况下是

    一次性的,可以当作静态数据保

    留,但也可能存在多次入职、离

    职后再入职的情况)

    出生日期 学历信息(学历、学校、日

    期等)

    性别 工作经历信息(单位、职

    位、日期等)

    籍贯 岗位调整信息(日期、新岗

    位名称等)

    民族 子女信息(二孩全面开放

    后,可能存在多次生育的情况)血型 婚姻信息(多次婚姻变得越

    来越普遍)

    婚姻状态 职级调整信息

    身份证号 职序调整信息……(限于篇幅,不一一列举) ……(限于篇幅,不一一列

    举)

    原则上,一个好的数据结构,要么是描述静态信息的,要么是记录

    动态信息的,然后通过数据表之间的关联形成一个完整的相互关联的数

    据库。所以,我们可以将上例中的员工信息表进行拆分,将静态数据放

    在一张表中,形成员工的静态信息表;而对于员工的动态信息,可以将

    每个动态信息都设计成一个单独的表,然后用员工编号关联起来,如下

    图所示。其中最高学历信息可以从员工学历记录表中查询得到,员工所属子

    公司和部门信息可以通过员工岗位异动表查询得到。这种数据结构关系

    被称作运算结构关系。员工的年龄和生日,员工的司龄和入职日期都是

    运算关系。

    在上例中,员工所属子公司、所属部门、所在岗位这三者存在包含

    的关系,公司的组织架构决定了三者之间的逻辑关系,即层级树形结构

    关系。逻辑结构关系还有很多,例如两个数据之间可能存在集合关系、线性关系、树形结构关系、层级结构关系、图形结构关系等。

    物理结构关系比较容易理解,即因为数据的采集、存储、传输和处

    理所产生的关系。数据结构是非常重要的概念,因为数据结构是数据的组织方式,而

    数据组织方式不同,存储和处理数据的效率也会不同。

    1.4.3 结构化数据和非结构化数据

    1.结构化数据

    结构化数据主要指在数据存储和数据处理过程中结构设计比较合

    理的数据。

    例如MySQL开源数据库、Oracle数据库、DB2、Sybase、Access、SQL Server等都是结构化的数据库。结构化数据库要求数据的结构都是

    由行和列组成的,每一列都表述了数据所描述对象的要素、属性和行

    动,而每一行都代表一个数据库所描述的对象。例如员工基本信息数据

    库。为了简化说明,我们选取5个信息点(字段)来讲解结构化数据。

    一个员工可以用姓名、员工编号、性别、出生日期、血型这5个信息点

    (字段)来描述,如下表所示。

    每一列表示对象的一个属性或者变量,用来区分对象之间的差异;

    每一行表示一个对象,不同行表示不同的对象。在上表中有一类对象:

    员工;对每个员工的描述有5个字段:姓名、员工编号、性别、出生日

    期和血型;表中共有两个对象:张三和李四,他们在不同的属性上有不

    同的值。该表即为结构化数据,随着员工人数的增多,表的结构不会改变,但数据可以不断累加。员工只要入职填写了个人信息表,这些信息就会

    被登记到公司的员工基本信息数据库中。结构化数据库基本上就是由行

    和列组成的数据集,分别表示同类的不同对象的属性差异。

    目前大多数数据库都是结构化数据,自从SQL(Structured Query

    Language)被发明以来,表状的结构化数据已经成为信息技术记录数据

    的标准,从而衍生了大量的数据处理软件,最常用的就是开源软件

    MySQL,当然还有商业化比较重的DB2、Oracle SQL、SQL Server等。

    2.非结构化数据

    由固定的行和列组成的数据表一般被称为二维(行+列)结构数据

    表,它是结构化数据。如果行和列的数量不固定,即不能由固定的行

    和列组成二维结构数据表来表示和存储的数据,则被统称为非结构化

    数据。常见的非结构化数据包括所有格式的办公文档,文本,图片,标

    准通用标记语言下的子集XML、HTML,各类报表,图像和音频视频

    信息等。

    用HTML格式的文本来介绍非结构化数据会更加直观。

    HTML(Hyper Text Mark Language),超级文本标记语言,它是浏览器

    解读网页内容,对网页内容进行显示的一种标记方法。每个标记语言都

    有的标记范式,例如超链接用来标记,链接地址用href=“”来标

    记,段落用

来标记……通用的标准化标示语言,可以让所有的

    浏览器都用同样的方式来展示网页的内容。一个HTML文档中可以有数

    量不等的各种标记,并且其所在的位置序列也会不同,没有固定的“字

    段”之说,当然,我们可以把一个
看作一个字段,但这个字段可

    以重复,并且还可以出现在不同的地方。部分非结构化的数据可以通过多表关联的方法进行结构化改造。例

    如微博数据可以通过一定的形式进行结构化处理,从而能够使用结构化

    查询语言即SQL来进行处理。

    1.4.4 如何将非结构化数据结构化处理

    如果数据是非结构化的,或者用结构化方法难以处理,就需要通过

    多表关联的方式进行结构化处理。

    在处理非结构化数据的过程中,最核心的方法就是对数据进行分

    类,即按照数据的行为(或者属性主体)将数据分为静态数据和动态数

    据,然后分别进行结构化处理。对于静态数据,要采用单独的表格来记

    录事物的属性和要素。然后将动态数据也建立成单独的表格并与静态数

    据进行关联,从而构成了动静结合的数据表集。

    在前面介绍的员工基本信息表中,就是把静态数据和动态数据分别

    制成表,然后通过表之间的关联形成数据表集,从而将非结构化的数据

    进行结构化的处理。

    将非结构化数据结构化处理的方法就是:通过多表关联,让静态数

    据也单独成表,让动态数据单独成表并能够动态更新数据条目,简

    称“静动分离,动静结合”。

    客户的动态数据对企业更有价值,因为静态数据记录了客户的基本

    信息,而针对该客户的动态数据才能让我们对客户有更加深刻的理解。

    当我们通过各种方式收集了客户的静态数据后,如果没有动态数据,例

    如交易数据,就不能形成完整的客户画像。“静动分离,动静结合”的数据处理方式在对非结构化数据进行结构

    化处理方面发挥着巨大的作用,它让数据处理更加有效。而将数据结构

    化处理后,计算机进行增加、删除、修改、查询等各种运算时效率都会

    得到大幅度提升。

    1.4.5 什么是单维数据表

    单维数据表是结构化数据表的一种形式,而且是最简单的形式。其

    要求相同属性的字段统一且固定,所有的字段都在描述相同的数据主

    体。换句话说:单维数据表是结构化数据表,但结构化数据表不见得一

    定是单维数据表。

    下面这张表格由行和列组成,每列都是独立的。这个数据可以构成

    结构化数据,但不是单维数据表。

    通过“静动分离,动静结合”方式组成的数据集基本都是结构化数

    据。而单维数据表强调的是每个数据条目描述的都是一个主体,要么是

    资源的描述数据,即静态数据,要么是资源的动作和行为,即动态数

    据,在同一个数据表中不存在两个不同的主体。例如员工基本信息表与

    工资表,如果独立看这两个数据表,那么它们就是单维数据表,一个表

    以员工作为主体进行数据采集,而另外一个表以“发工资”这个活动作为

    主体。将两个数据表合并在一起,仍然构成了结构化数据表,但是数据

    的描述主体不同,导致数据不够集约,形成了冗余,例如一个员工要发

    12次工资,在合并表中,员工的个人信息就会重复12次。单维数据表首先必须得是结构化数据表,同时强调数据描述主体的

    一致性。通过这两个标准来衡量一个数据表是否是单维数据表就比较容

    易了。下面举例说明。

    下表中的数据是结构化数据,可以导入SQL数据库并可以进行查

    询,但它不是单维数据表,这个表虽然由行和列组成,但是其每个字段

    都在描述不同的数据主体。这个表是单维数据表的汇总计算表。

    员工奖金汇总表

    将上表转换为单维数据表后其形式如下表所示。

    单维数据表

    月 份 姓 名 奖 金

    1月 张三 3000

    1月 李四 3875

    1月 王五 3600

    1月 赵六 1900

    2月 张三 3400

    2月 李四 43252月 王五 1200

    2月 赵六 4300

    3月 张三 2800

    3月 李四 1205

    3月 王五 4500

    3月 赵六 2300… … …… … …… … …… … …

    12月 张三 4000

    12月 李四 5000

    12月 王五 6000

    12月 赵六 3200

    将结构化数据表转化为单维数据表的技巧在于如何审视数据主体,主体越明确,数据越精准。

    单维数据表结构对以后的数据统计汇总工作来说非常重要。

    1.4.6 为什么要求动态数据都要按照单维数据表的形式组织

    单维数据表的组织形式便于数据分析、数据表之间进行关联以及未

    来的数据建模,能够大幅度节省数据清洗的时间,以及数据存储的空

    间,也避免了数据更新时导致的数据不一致。

    例如人力资源部门有3个数据表,第一个是员工基本信息表,为静

    态数据表;第二个是员工工资表,为动态数据表;第三个是员工岗位异

    动表,为动态数据表。其结构如下表所示。

    员工基本信息表 员工工资表 员工岗位异动表

    姓名

    员工编号

    ID(PK)

    性别

    出生日期

    最高学历

    最高学历毕业院校

    最高学历专业

    入职日期

    婚姻状况

    身体状况

    血型

    身高

    体重……

    员工姓名

    工资条编码ID(PK)

    员工编号

    发薪月份

    入职日期(用于计算

    司龄)

    岗位(用于计算岗位

    工资)

    出生日期(用于计算

    年龄)

    基本工资

    岗位工资

    绩效工资

    最高学历(用于计算

    学历补贴)

    学历补贴

    应发工资

    五险一金(个人部分

    +公司部分共12项)

    出勤天数

    扣款

    员工姓名

    员工编号

    岗位异动记录编码

    ID(PK)

    岗位调动日期

    新岗位名称

    新岗位ID实发工资……

    在动态数据表中除用于索引和追溯的编码类静态数据外,还包含其

    他的静态数据,如果要对静态数据表进行调整,则动态数据表中的静态

    数据也要相应地进行调整,如果不能实现自动调整,则必然会产生数据

    不一致的现象。

    例如,一个员工通过自学提高了自己的学历,人力资源部门对其个

    人的基本信息表进行了更新,最高学历发生了变化,而在员工工资表中

    也需要进行相应的调整,如果调整不及时,那么这两个表就产生了数据

    不一致的现象。动态数据表中的静态数据越多,需要更新的数据就会越

    多。

    采用单维数据表结构的好处在于,除编码数据用于索引外,不包含

    其他额外的信息,当我们知道了员工编号,可以通过其他的单维数据表

    去查询相关的信息,通过自动关联形成当期数据,保证了数据的一致

    性。

    单维数据表的一个基本原则是通过多表关联的方式分别记录不同的

    信息,将静态数据和动态数据分别存储,相互之间通过唯一的编码进行

    关联。上面的3个数据表之间通过各个ID编码进行关联。其中标记“”号

    的数据都是重复的数据。

    通过以上单维数据表结构的建表原则,我们可以引申出另外一条基

    本的原则:一条需要录入的数据信息只能出现在一张表上(除编码索引

    外)。例如,在上面的3个表中,有了员工编号ID自然可以通过员工的

    基本信息表索引到员工的姓名、性别、年龄、出生日期、入职日期等信

    息;如果每张表上都有员工姓名这个字段,而当员工改了名字后,就需要在很多表上进行手工修改,如果采用索引的方式,则只需要在员工基

    本信息表中进行修改,而其他表中的数据就会自动更新了。1.5 数据质量及其八个指标

    数据的质量直接影响着数据的价值,并且还影响着数据分析的结果

    以及我们依此做出的决策的质量。质量不高的数据会影响企业的经营管

    理决策;如果数据是错误的,那么还不如没有数据,因为没有数据时,我们会基于经验和常识做出不见得是错误的决策,而错误的数据会引导

    我们做出错误的决策。因此,数据质量是治理企业经营管理数据的关键

    所在。

    数据的质量可以通过八个指标进行衡量,每一个指标都从一个侧面

    反映了数据的品相。这八个指标分别是:准确性、及时性、即时性、真

    实性、精确性、完整性、全面性和关联性。

    我们在比较两个数据集的品相时往往采用如下图所示的这种图形表

    示。例如常规来讲,内部数据集的准确性、真实性、完整性高,而全面

    性、及时性、即时性、精确性和关联性方面取决于企业内部对数据的重

    视程度以及采集数据的技术手段;而外部数据集(如微博数据、互联网

    媒体数据等)的全面性、及时性和即时性都可以通过技术手段如网络爬

    虫等得到提高,但在准确性、真实性、精确性上难以保证,也难以控

    制,而关联性取决于数据采集和挖掘的相关技术。我们也可以用这个模型来衡量公司内部各个职能部门数据的品相。

    如下图所示,通过评价数据质量的八个指标,可以有针对性地采取相应

    的措施提高企业的数据质量。

    1.5.1 数据的准确性

    数据的准确性(Accuracy)是指数据的采集值或者观测值与真实值之间的接近程度,也叫误差值,误差值越大,数据的准确度越低。数据

    的准确性由数据的采集方法决定的。

    1.5.2 数据的精确性

    数据的精确性(Precision)是指对同一对象在重复测量时所得到的

    不同观测数据之间的接近程度。精确性,也叫精准性,它与数据采集的

    精度有关系。精度越高,要求数据采集的粒度越细,误差的容忍程度也

    越低。

    例如在测量人的身高时,可以精确到厘米,多次测量结果之间的误

    差只会在厘米级别;在测量北京到上海的距离时,可以精确到千米,多

    次测量结果之间的误差会在千米级别;用游标卡尺测量一个零件的厚度

    时,可以精确到150毫米,多次测量结果之间的误差也只会在150毫米

    级别。因此,可以说采用的测量方法和手段直接影响着数据的精确性。

    1.5.3 数据的真实性

    数据的真实性,也叫数据的正确性(Rightness)。数据的正确性取

    决于数据采集过程的可控程度。数据采集过程可控程度高,可追溯情况

    好,数据的真实性就容易得到保证,而可控程度低或者无法追溯,则数

    据的真实性就难以得到保证。

    为了提高数据的真实性,采用无人进行过程干涉的智能终端直接采

    集数据,能够更好地保证所采集的数据的真实性,减少人为干预,减少

    数据造假,从而让数据更加准确地反映客观事物。1.5.4 数据的及时性

    数据的及时性(In-time)是指能否在需要的时候获到数据。例如企

    业在月初会对上个月的经营和管理数据进行统计和汇总,此时的数据及

    时性是指这些数据能否及时处理完成,财务能否在月度关账后及时核

    算。数据的及时性是数据分析和挖掘及时性的保障。如果企业的财务核

    算流程复杂,核算速度缓慢,上个月的数据在本月月中才能统计汇总完

    成,那么等需要调整财务策略的时候,已经到月底了,一个月已经快过

    完了。特别是当企业做大了之后,业务覆盖多个市场、多个国家,如果

    数据不能及时汇总,则会影响到高层决策的及时性。

    数据的及时性与企业的数据处理速度及效率有直接的关系,为了提

    高数据的及时性,越来越多的企业采用管理信息系统,并在管理信息系

    统中附加各种自动数据处理功能,在数据上传到系统中之后自动完成绝

    大部分报表,从而提高了数据处理的效率。使用计算机自动处理中间层

    数据是提高企业数据处理效率的有效手段。

    企业除要保证数据采集的及时性和数据处理的效率外,还需要从制

    度和流程上保证数据传输的及时性。数据报表制作完成后,要及时或者

    在要求的时间范围内发送到指定的部门,或者上传到指定的存储空间

    中。

    1.5.5 数据的即时性

    数据的即时性包括数据采集的时间节点和数据传输的时间节点,在

    数据源头采集数据后立即存储并立即加工呈现,就是即时数据,而经过

    一段时间之后再传输到信息系统中,则数据的即时性就稍差。例如一个生产设备的仪表即时地反映了设备的温度、电压、电流、气压等数据,这些数据生成数据流,随时监控设备的运行状况,这个数

    据可以看作即时数据。而当将设备的即时运行数据存储下来,用来分析

    设备的运行状况与设备寿命的关系时,这些数据就成了历史数据。

    1.5.6 数据的完整性

    数据的完整性是指数据采集的程度,即应采集的数据和实际采集到

    的数据之间的比例。例如在采集员工信息数据时,要求员工填写姓名、出生日期、性别、民族、籍贯、身高、血型、婚姻状况、最高学历、最

    高学历专业、最高学历毕业院校、最高学历毕业时间共12项信息,而某

    个员工仅仅填写了部分信息,例如只填写了其中的6项,则该员工所填

    写数据的完整性只有一半。

    一家企业中的数据的完整性体现着这家企业对数据的重视程度。要

    求采集的数据在实际中并未完整采集,这就是不完整的数据,这往往是

    企业对数据采集质量要求不到位导致的。

    另外,对于动态数据,可以从时间轴去衡量数据的完整性。比如,企业要求每小时采集一次数据,每天应该形成24个数据点,记录为24条

    数据,但是如果只记录了20条数据,那么这个数据也是不完整的。

    1.5.7 数据的全面性

    数据的全面性和完整性不同,完整性衡量的是应采集的数据和实际

    采集到的数据之间的比例。而数据全面性指的是数据采集点的遗漏情况。例如,我们要采集员工行为数据,而实际中只采集了员工上班打卡

    和下班打卡的数据,上班时间员工的行为数据并未采集,或者没有找到

    合适的方法来采集,那么这个数据集就是不全面的。

    再例如,我们记录一个客户的交易数据,如果只采集了订单中的产

    品、订单中产品的价格和数量,而没有采集客户的收货地址、采购时

    间,则这个数据采集就是不全面的。

    腾讯QQ和微信的用户数据记录了客户的交流沟通数据;阿里巴巴

    和京东的用户数据记录了用户的交易数据;百度地图记录了用户的出行

    数据;大众点评和美团记录了客户的餐饮娱乐数据。对全面描述一个人

    的生活来说,这些公司的数据都是不全面的,而如果把他们的数据整合

    起来,则会形成更加全面的数据。所以说,数据的全面性是一个相对的

    概念。过度追求数据的全面性是不现实的。

    1.5.8 数据的关联性

    数据的关联性是指各个数据集之间的关联关系。例如员工的工资数

    据和绩效考核数据是通过员工关联在一起来的,而且绩效数据直接关系

    到工资数据。采购订单数据与生产订单数据之间通过物料的追溯机制进

    行关联,而生产订单又是由员工完成的,即通过员工作业数据与员工信

    息数据关联起来的。

    本书探讨的企业经营数据,每个数据集都是相互关联的,有的是直

    接关联的,如员工工资数据和员工绩效数据;有的是间接关联的,如物

    料采购订单数据与员工工资数据。这些数据是由公司的资源,包括人、财、物和信息等关联起来的。如果有任何的数据集不能关联到其他的数据集,就会存在数据割裂或者数据孤岛。数据割裂和数据孤岛是企业经

    营数据关联性不足导致的。而数据的关联性直接影响到企业经营数据集

    的价值。1.6 数据处理与数据清洗

    1.6.1 数据处理

    数据处理有广义和狭义两种定义。广义的数据处理包括所有的数据

    采集、存储、加工、分析、挖掘和展示等工作;而狭义的数据处理仅仅

    包括从存储的数据中提取、筛选出有用的数据,对有用的数据进行加工

    的过程是为数据分析和挖掘的模型所做的准备工作。

    一般我们讲的数据处理是狭义的定义,即对数据进行增加、删除、修改、查询等操作。在目前的大数据背景下,数据处理工作往往是通过

    技术手段来实现的,例如利用数据库的处理能力对数据进行增加、删

    除、修改、查询等处理。

    在数据处理过程中最大的工作是对数据进行清洗,即将不清洁的数

    据进行清洁化,让数据更加规范,让数据的结构更加合理,让数据的含

    义更加明确,并且让数据处在数学模型的可用状态。

    1.6.2 数据之“脏”

    我们把数据记录不规范、格式错误、含义不明确等叫作数据

    的“脏”,其包括几种典型的形式。

    (1)数据不规范数据不规范的情况非常常见。

    例如同样是张三,有的地方记录为“张三”,有的地方记录为“张

    三”(为了让两个字的姓名和三个字的姓名具有相同的长度,中间添加

    了空格)。这种情况同样会发生在地址字段里,例如“北京”、“北京

    市”、“北 京”,虽然它们都是指北京,对我们来说很容易识别,但对

    计算机来说,这三种写法代表着三个不同的值,我们需要通过建立映射

    关系将数据记录格式统一。

    常见的数据不规范的情况还经常发生在日期格式中。日期格式常见

    的几种记录方法有:

    · 20151020

    · 2015-10-20

    · 2015年10月20日

    · 10202015

    · Oct. 20,2015

    · October 20,2015

    · 2015.10.20

    每个人都有不同的喜好和记录数据的方式,这给计算机识别造成了

    很大的困难,一个公司应该有一个明确的规定,要统一数据的录入格

    式。

    (2)数据不一致数据不一致的情况往往是由于没有遵循单维数据表的原则导致的。

    例如同一条信息在不同的数据表甚至数据库中都有记录,当对此条信息

    进行更改后,因为没有同时对所有的数据表都做相同的更改,从而会发

    生数据不一致的情况。为了避免这种情况,我们引入了“单维数据表”的

    概念,其强调公司内部的同一条信息只能记录在一个地方,当其他地方

    需要的时候,可以使用索引查询的方式,从而保证数据的一致性,在任

    何数据表中的存在其他表中数据来源时,都要在查询输出时进行“同

    步”更新。

    数据的一致性虽然在技术上比较容易实现,但是要在企业经营实践

    中实现却有着巨大的难度。采购部门会录入供应商的信息,财务部门需

    要向供应商付款,所以也会保留供应商的相关信息。而采购部门和财务

    部门分属不同的职能部门,财务部门会采集一部分供应商的财务信息,包括银行信息、账号信息、税务信息、工商信息等,如果这些数据发生

    变化,例如法人变更、业务变更、企业性质变更等,财务部门会对这些

    数据进行更新。采购部门也会对供应商的信息进行采集并登记到相关的

    信息管理系统中。如果采购部门的信息管理系统能够同财务部门所使用

    的信息管理系统对接并且能够把同条信息关联或者建立索引关系,则该

    公司的数据一致性比较容易实现。但是如果这两个部门都采用了不同的

    信息管理系统,则很容易产生数据不一致的情况。而这种情况在大多数

    公司中都存在并且很严重。

    (3)标准不统一

    我们需要对一些事物的描述方法建立统一的标准,从而让计算机可

    以有效地处理文本数据。

    例如在描述导致产品出现质量问题的原因时,在大多数情况下是手工录入的,同样的原因,录入的描述会有不同。例如同样是描述因为电

    压不稳导致的产品质量问题,有的人会录入为“电压不稳”,有的人会录

    入为“电流不稳定”,还有的人会录入为“供电问题”……如果没有统一的

    规范,则在统计汇总数据时会产生上千个导致产品品质问题的原因。这

    给数据解读和分析以及寻找改善措施带来了很大的麻烦。

    这就需要数据库管理员根据公司的实际情况,将该类原因进行归

    类,然后设定几个类别,让员工在系统中进行选择,而不是让他们手工

    录入。一般情况下,出现最多的前10个原因能够覆盖90%以上的情况,在录入时要先让员工选择,然后留出一个“其他”选项,当员工选择“其

    他”选项后才能手工录入,这样就有效解决数据的录入标准化问题。

    (4)格式不标准

    所谓的格式不标准是指在录入数据时使用了错误的格式。例如在录

    入日期时,因为格式不规范,计算机不能自动识别为日期格式。

    这种问题比较容易处理,可以在信息系统中设定相关的数据校验,如果录入的数据格式不正确,则系统会弹出数据录入格式错误的警告。

    (5)附加字段

    我们在清洗数据的时候,往往需要添加新的字段以便数学模型可以

    直接处理数据。例如数据库中可能没有直接的字段来记录员工的司龄,这就需要在添加司龄字段之后,通过入职日期来计算;而员工的年龄则

    通过出生日期来计算。

    1.6.3 数据杂质和噪声在外部大数据中,因为数据价值密度较低,所以数据中的杂质和噪

    声很多,需要大量的数据处理工作才能将有价值的数据和信息提炼出

    来;而企业经营数据,特别是内部采集的数据,价值密度高,几乎所有

    的数据和信息都是有价值的,因此杂质和噪声也会少很多。

    1.数据杂质

    所谓的数据杂质就是在数据集中出现了与数据记录本身无关的数

    据,就如同大米中出现了沙子,需要在处理数据的过程中将这部分数据

    剔除。

    例如录音或者录像数据,其本质上是为了记录企业的经营或者管理

    活动,但是在录制的过程中可能因为没有活动发生,这部分数据就会成

    为杂质。例如企业生产线上的监控录像,当企业没有生产时其仍然在录

    像,那么这一部分时段的录像就可以从整体数据中剔除。而行车记录仪

    在检测到汽车已经超过10秒钟不动时,就暂停录像,当画面有变化时,则及时启动录像过程,这是一种比较智能的数据采集和记录方式。

    另外一种杂质是在数据采集或者记录过程中产生的。例如问卷调

    查,在正式进行调查之前,编制问卷的人首先要做几遍测试,还会找其

    他人进行测试,以保证正式发布调研结果之后无差错,而这部分测试数

    据也会被调研系统的后台所记录,这些数据也被称作杂质,在处理调研

    数据集的时候需要剔除。在调研的过程中,有的人打开了调研链接,但

    做到一半就因为其他事情耽搁了,稍后又重新开始做该调研,而前面这

    部分未完成的问卷就是杂质,可以从数据集中剔除。

    数据的杂质其实有很多种,使用不同的数据采集方式,就会产生不

    同类型的数据杂质,数据分析人员需要根据实际情况进行甄别。2.数据噪声

    所谓的数据噪声,就是看似是有用的数据,但仔细查看后该数据并

    非该数据集中该有的数据,或者仔细分析后没有价值的数据,当然也有

    一部分是我们无法解释的与其他数据有差异的数据。与杂质数据不同,噪音数据看似是相关的数据,其实价值不大或者根本没有价值。

    现在的电商是靠流量和销量说话的,特别是在天猫和淘宝中,买家

    更加关心卖家的信用。卖家为了获得更多的流量和销量,往往采

    取“刷”信用的方式来提高店铺的等级。对电商来说,这些“刷”来的交易

    数据,都可以看作噪声数据。

    例如一个订单数据集,在这个数据集中有一部分数据是内部测试形

    成的,也有一部分数据是竞争对手测试形成的,还有一部分数据可能是

    消费者测试网站形成的,这些数据就可以看作噪声数据,并非真正的交

    易数据。

    1.6.4 数据清洗

    所谓的数据清洗,就是对原始数据进行规范化的处理,减少数据噪

    音,消除数据的不一致性,并对某些数据进行加工,以便数据处理软件

    和数据模型能够直接使用。数据清洗是数据处理的工序之一,目的是提

    高数据的质量,为数据分析准备有效的数据集。

    数据清洗的方法有很多,主要与我们所使用的数据处理工具有关。

    例如使用Excel可以对数据进行查找替换、填充、分列、映射、透视

    等。如果数据的规律性很强,数据量很大,那么还可以采用VBA编程的

    方式来实现。在实践中,数据清洗是占用数据分析师时间最长的工作,虽然此项

    工作的价值产出很低,同时耗费了大量的时间,但是这个工作必不可

    少。如果我们在数据采集、数据存储和数据传输的过程中,提高数据的

    质量,保证数据的有效性,那么我们的数据清洗工作可以大幅度减少。

    而在这个过程中,数据采集的方式、方法,以及自动化智能设备的使用

    是大幅度提高数据质量的关键手段。

    要想在数据清洗环节上节省人力资源,那么就需要在数据系统中加

    入数据的校验,并制定相关的数据规范,让数据在录入时就是规范的、高质量的。即使是一些用户端口的数据,在录入的时候也要加入校验工

    作,通过示例的方式提醒用户按照一定的规则来录入数据。

    我们经常见到一些网站在让用户录入姓名时,要求用户分别录入姓

    氏和名字,但是如果不进行校验或者提示用户,则用户很可能会将姓氏

    录入到名字中,将名字录入到姓氏中,导致未来的数据分析存在问题。

    比如用户录入欧阳峰,如果“峰”字被录入到姓氏中,那么系统需要通过

    后台字典提示用户——“您确信您姓峰?”这种提示虽然降低了用户体

    验,但对数据的准确性来说还是非常有益的。

    1.5.5 如何提高数据的清洗速度

    一般数据清洗工作占数据分析师工作量的70%以上,而且数据质量

    越差,这个比例越高。

    其实提高数据清洗速度最有效的方法就是规范数据采集和数据记

    录,从源头把控数据质量。如果源头数据的质量就不高,则数据清洗工

    作不仅会洗掉脏的数据,甚至还会洗掉某些有价值的数据,导致数据信息量的损失。

    程序化方法是提高数据清洗工作效率的有效手段。我们面对的数据

    集往往比较大,如果手工一个个检查并清洗,则需要耗费大量的人工时

    间。如果能够对不规范、不完整或者不相关的数据进行较好的分析,总

    结它们中可能存在的规律性,然后用软件程序自动化完成数据的清洗工

    作,那么可以大幅度提升数据清洗的效率。寻找数据的规律性是用程序

    代替人工清洗的基础。

    即使是使用Excel进行数据清洗,使用透视表+映射表的方式会比使

    用手工查找+替换的方式快很多。有的公司已经将一些常见的数据清洗

    方法编制成软件,但效果还是不理想,虽然这种数据清洗软件能够大幅

    度节省人工投入成本,但一般都非常昂贵,一套软件一般在上百万元,并且软件虽然能够快速处理数据,但仍然需要大量的人工干预。

    数据清洗工作另外一个非常重要的原则就是:永远给自己留下反悔

    的余地。

    清洗数据时尽量不要破坏原始数据。不能在原始数据集上直接修改

    数据,如果修改了某些有价值的数据,那么可能很难再找回来;如果发

    生了错误,那么可能是灾难性的。所以要先备份数据后再清洗。例如如

    果想要规范日期格式,那么要在Excel中添加一列,让之前的日期数据

    保留着,如果看着不舒服,则可以采取隐藏的方式,但是直接将其删除

    或者替换都是不可以的。

    这里特别要强调的是,在对数据进行清洗时,禁止使用“查找+替

    换”的方式,因为这种方式改变了原始数据,如果发生错误,而Excel的

    撤销功能又不能启用,那么麻烦就大了,即使保留了原始数据副本,可能之前的数据清洗工作也会白做了。当数据量非常大的时候,在做任何

    有可能让数据集发生改变的操作之前都要做好数据备份工作。

    在利用Excel进行数据清洗时,可以将同一个字段的数据制作一个

    映射表,然后让Excel根据映射表对数据进行查找和替换,这里常用到

    的功能是VLOOKUP函数。例如地址字段中城市的名称,如果用户在录

    入数据时不是通过下拉列表选择的,那么他们填写的信息肯定五花八

    门,虽然人工能够识别,但机器不能识别。所以可以通过透视表功能将

    所有的城市进行统计汇总,然后人工识别后建立映射表,再把原始的地

    址映射回去,从而将地址字段中的城市名称标准化为一个唯一值,之后

    再对数据以城市为单位进行统计汇总时,数据才会准确(见下图)。

    也可以利用第三方工具进行数据清洗。大多数第三方数据清洗工具

    都是先构建一个映射表,根据数据的特点进行猜测、精准匹配并用后台

    的“字典”来映射数据,然后将规范化的数据输出。第三方工具在适用性

    上往往都存在一定的缺陷或者适用于不同的数据集,有的适合客户数据

    的清洗,有的适合产品订单数据的清洗,而有的适合社交媒体网站数据

    的清洗。在选择第三方数据清洗工具时要进行评比,用一个比较小的数

    据集进行测试之后再购买。这类第三方工具一般都比较昂贵,动辄几十

    万元或者上百万元,所以要慎重选择,并且最好购买对方的服务。当数据清洗效果不佳的时候,要让对方的技术人员参与,制定更加符合自己

    的数据集的“字典”。目前国际上比较先进的第三方数据清洗工具对国内

    的企业来说都不太好用,这主要是由中文的词语结构等问题导致的,大

    多数的数据清洗工具都是针对文本类和数字类数据的,中文的语种结构

    与西方的各种语种结构有着较大的差别,所以在数据清洗上有一定的局

    限性。购买软件公司的服务可以优化数据清洗质量,如果企业的数据量

    级达不到TB级别,则购买这些服务就要看值不值得了。

    [1]1969年美国国防部高级研究计划署(ARPA)建立ARPANet被公认为是标志着互联网的诞

    生。

    [2]MECE原则是分类的基本原则之一,Mutually Exclusive Collectively Exhaustive,即是“相互独

    立,完全穷尽”。它是麦肯锡的第一个女咨询顾问巴巴拉·明托(Barbara Minto)在《金字塔

    原理(The Minto Pyramid Principle)》中提出的一个很重要的分类原则。2

    数据分析的目的

    数据是数字化的证据——没有记录下来的事情就没有发生过

    追溯——追责、求根源、求真相

    监控——监督、检查、评估、监控、检测

    洞察——探寻规律,掌握发展的钥匙

    商机——挖掘未被满足的需求

    预测——指导未来实践的规律

    数据是事物存在、发生和发展的数字化的记录,只有事物发生了才

    会有数据记录,有了数据,我们才能了解过去发生了什么,才能对这些

    现象进行分析,总结出一定的结论和规律,并指导我们的社会实践活

    动。所以,数据分析的目的是为了对过去发生的现象进行评估和分析,找寻事物存在的证据,并在这个基础上对未来事物的发生和发展做出结

    论并形成能够指导未来行为的知识或者依据。2.1 数据是数字化的证据——没有

    记录下来的事情就没有发生过

    在破案的过程中,需要保护犯罪现场,要从犯罪现场中的各种证据

    中分析犯罪过程,如果能够还原犯罪过程,那么就能够破案,从而证明

    嫌疑犯有罪。

    企业的管理也一样。企业的各种业务活动也必须要记录下来,要证

    明员工做过什么或者员工是怎么做的,如果出现错误,则谁该对错误负

    责;如果做出业绩,则是谁做出来的。业务活动记录是成果或者结果的

    证据,是赏罚的证据。

    笔者在外资企业工作的时间比较长,一般管理比较成熟的外资企业

    都有一套保存业务活动记录的规范或者规则,并且有一个不成文的规

    定:“没有记录下来的事情就没有发生过。”事情做完之后需要写工作日

    志,填写各种报表,以及在各种标签、标记、记录、日志上签字或者盖

    章,虽然这些过程并不能为你所做的事情增加任何价值,但如果这些事

    情没有做,那么你的工作就白做了,这就是管理比较完善的企业所遵循

    的基本准则。因为只有记录下来,公司对各种事项和业务活动才能够追

    溯,没有追溯,你所做的工作价值就不能得到进一步的彰显,所以宁

    可“浪费”大量的时间,也要记录。

    而国内的企业一般都充斥着“捷径思想”,从老板到高管,从高管到

    中层管理者,从中层管理者到基层管理者,都存在“务实思想”,即认为

    事情做完就好了,记录不记录无所谓,向上级或者同事说一声就可以了,不需要留存记录。所以这些企业沉淀的数据也不多,出现问题

    时“死无对证”,要想查找过去做了什么,只能凭借管理者的“记忆”。而

    人的记忆力是有限的,具体在什么时间和谁做了什么事情,即使记得,也很难精准地还原,另外,不同的人可能存在不同的记忆。没有对过去

    的总结,企业就不能积累经验,就不能完成公司能力的迭代升级,即使

    运营了20年,公司的管理能力和管理水平还是那个样子,最多就是因为

    招募了更加优秀的人使得公司的整体人力水平获得了提高,原有的团队

    还是没有迭代升级式地成长。

    如果没有记录,则公司的经历就不能积累和沉淀为“经验”,公司就

    不可能真正积累“经验”,当人才流失后,公司的“经验”会随着这些人才

    的流失而流失了。这还是比较不错的情况,更为可怕的是,这些“经

    验”有可能会成为竞争对手的“经验”。2.2 追溯——追责、求根源、求真

    相

    数据是数字化的证据,可以用来追溯历史,让我们知道过去到底发

    生了什么。在管理上,我们可以追溯到底是如何发生了问题,可以追溯

    责任、追溯成就、追溯过程,了解驱动事物发展的根源。没有数据记录

    就无法追溯。

    为了保证产品的品质和用户的安全,很多公司都会建立质量追溯机

    制,对产品的生产过程进行全程追溯。当产品发生质量问题时,可以追

    查是谁生产的、是谁质检的、是谁研发的、是谁采购的部件或者材料,到底是什么影响了产品的品质,这样不仅能够追溯到个人,还可以追溯

    到发生问题的过程和源头,从而改善管理过程,避免出现同样的问题,这是企业品质管控最基本的流程。

    既然是为了追溯“真相”,追溯到底发生了什么,那么数据记录就必

    须具备“证据效力”,要有各种完善的数据记录标准和规范,以及对数据

    和信息进行更加完备的记录,从而能够让事物的回溯更加全面,甚至是

    完全重放。文字和数字的记录形式最为简单,数据量小,好保存,便于

    查阅或者检索查询;而声音和图片的记录内容更加丰富,但在查询方面

    对技术的要求较高;视频或者3D视频的记录数据量级大,查询或者检

    索需要人工参与,现在计算机自动查询或者检索视频的能力还非常有

    限,能够快速解读视频的人工智能程序还没有被开发出来,或者目前还

    未见有商业应用。法律上对证据的法律效力有明确的规定,虽然这些证据的法律效力

    远远落后于科技的发展。例如电话录音、电子邮件、电子文件等不能作

    为法律取证依据,个人拍摄的视频也不能作为具有法律效力的证据,但

    某些权威机构或者不为个人所控制的公共设施则具有一定的第三方公证

    的意义,在法律上往往会得到更大程度的认可。在企业的数据化管理

    上,有些信息和数据的保存也需要注意证据的效力性。一方面,公司可

    采用不为个人所左右的“公共设施”来记录数据,从而保证数据的真实

    性;另一方面,对于书面内容,可以通过增加见证人的方式来保证数据

    的真实性。笔者20年前在一家公司的实验室工作时,每次实验完成后都

    要在实验记录本上记录整个过程和实验结果,并且实验室管理员也要在

    实验记录本上签上共同见证的签字和日期,如果实验室管理员不在,则

    需要其他更高级别的经理负责签署,而这些签署认可都必须要在当日完

    成,超过24小时未签字确认的记录都需要说明原因。

    在数据对企业越来越重要,数据记录越来越方便,形式越来越多样

    的时代,数据记录与否只是管理问题,而管理问题的根源在于管理者的

    思维,管理者只有认识到数据的重要性才能让数据记录更加完善和健

    全,有了数据才会有数据分析,才会有对过去的追溯。如果觉得记录数

    据是一个可有可无的程序,那么肯定不会有数据的积累,也就不会有对

    历史行为的追溯,出现问题就不会有人负责。特别是当执行者不够自信

    或者不敢担当责任的时候,更会让这些执行者拒绝记录数据,这也是在

    大多数情况下在企业中推进数据记录时遇到的阻力。2.3 监控——监督、检查、评估、监控、检测

    企业在记录数据的基础上会进行数据分析和处理,形成一定的过程

    控制指标和管理指标,最终形成绩效评价指标。这些指标可以让企业的

    各层级管理者能够随时查阅相关任务的执行情况,从而对出现的问题和

    情况能够第一时间知道并采取相应的措施。

    数据指标的建立可以让各级管理者即时地观测和掌控当前业务运营

    状况,能够随时根据企业当前的运行状况调整策略。监控的目的是为了

    保证业务的发展能够按照计划的轨道行进,如果过程中发生了偏差,则

    需要随时调整政策,无论这种偏差是正向的还是负向的。如果是正向偏

    差,那么就意味着当时计划过程中的预测过于保守,需要对预测重新审

    视;如果是负向偏差,那么就意味着预期的效果没有达成,需要审查过

    程中出现了什么问题并分析原因,找到根源,然后解决问题。监控是为

    了控制整个公司的业务流程按照既定的方向和目标而执行,而不是走偏

    了方向。

    由于人并不能像机器一样完全按照既定的程序执行,但人又参与到

    各种监控过程中,所以以监控为目的的数据指标可视化体系往往会被人

    为地忽视或者阻挡,企业的高层管理者要有足够的意识,必须要确保监

    控指标的真实性,以免在执行过程中被人为修改,不管是无意地还是故

    意地漏掉相关数据导致数据的不完整。

    就如同城市里安装的监控摄像头一样,每个人都不希望自己被监控着,所以我们会要求明示安装视频监控摄像头的位置。是否被监控,有

    些时候是你无法左右的,而且你会觉得有监控的好处大于没有监控,但

    是监控信息需要被安全地保存并妥善地处理,以免违反相关的法律法

    规。

    美国影片《国家公敌》就描述了政府为了国家安全在所有的地方都

    安装了摄像头,甚至在著名影片《1884》中也有相关的描写。当我们每

    时每刻都被监控的时候,我们就已经失去了自由。自由是相对的,而监

    控是数据的应用价值之一,监控是数据采集的方法之一,也是数据的应

    用之一。2.4 洞察——探寻规律,掌握发展

    的钥匙

    所谓的洞察,就是理解事物为什么会发生,找到事物发展的规律,并对未来事物的发展进行预测。商业洞察就是对商业逻辑的探寻,寻求

    商业现象背后的逻辑和因果关系,从而为商业决策提供依据。人类的洞

    察力来自于对外部世界的敏锐观察,并将观察到的信息经过大脑加工形

    成对外部世界万物的认知,基于这些认知做出更加正确的决策,从而能

    够获得更好的收益。

    数据分析的终极目的是预测未来事物如何发展。如果我们对商业社

    会现象有足够的数据,通过数据挖掘,找到事物的发展规律,则必然能

    够对商业社会的近期和中期的发展方向与趋势做出一定的判断,这就是

    数据分析所带来的洞察。

    在传统的商业模式下,很多公司除设立了市场部门还设立了市场研

    究部门,它们利用统计抽样的方法了解市场情况、消费者的需求,并利

    用统计分析的方法来寻找规律,获得商业洞察。在大数据时代,越来越

    多的数据集让企业有更多的资源来获取商业洞察。

    无论是相关性或者关联性关系,还是因果关系,应用这些事物之间

    的关系来对未来做出预测和判断,以及利用这些关系来把控事物的发展

    方向,都是大数据时代下的需求。并不是大数据不强调因果关系或更注

    重关联关系,而是大数据的量级与分析成本还很高,与其花费大量的时

    间去研究事物之间的因果关系,还不如利用数据挖掘成果快速做出行动,最终发现因果关系,这对于指导企业做出规划大有裨益。2.5 商机——挖掘未被满足的需求

    大数据是数据加工的方式,代表着人们的思考方式。数据分析过程

    就是人们思考的过程,这些思考的过程不断沉淀,会形成丰富的处理数

    据的方法,也会产生更多的价值和智慧。

    这些智慧是我们赢利的基础。如果要想获取更多的财富,必须要了

    解事物发展背后的逻辑,并利用这个逻辑来指导自己的日常生活。当我

    们掌握了更多的规律之后,就能够减少决策失误,从而在发现的商机中

    获得超额的回报。

    数据分析能够帮助我们发现商机,商机代表商业机会。商业机会都

    带有时效性,如果今天的数据分析揭示了新的方法和理论,最好明天就

    付诸实施,如果没有及时实施,则商机就不再是商机了。2.6 预测——指导未来实践的规律

    预测是数据分析的终极目标。

    前面我们提到“数据”是数字化的证据,而在日常管理上,数据的价

    值更加在于其是“数字化的依据”,是决策的依据。而如果要作为依据,那么数据就必须对未来的状况做出判断,即要对未来做出预测。数据分

    析是为经营和管理决策服务的,最终还是要指导我们未来的实践,所以

    预测是数据价值最能发挥力量的地方。

    但我们也知道,预测也是最难的。无论是对经济的预测还是对天气

    的预测,都对我们的生活带来正面的影响,如果我们能够预测到天气变

    化,就能够提前做好应对措施,将恶劣天气带来的影响与损失降低到最

    小;如果我们能够预测到未来经济的变化,就能够及时做出判断,为未

    来的经济发展做好准备;如果我们能够预测到竞争对手的策略,就能够

    提前做好应对措施,确保不被竞争对手打倒;如果我们能够预测到客户

    的购买量,就能够提前生产,缩短交期,提高客户的满意度。

    预测是我们认识客观世界的基本技能,也是自然科学研究的基本出

    发点。通过分析历史数据能够掌握事物的规律,从而就可以推导未来的

    事物变化,从而做出更好的应对策略。淘宝的大量交易数据让阿里巴巴

    精准预测了2008年的金融危机,从而让其能够有效规避了席卷全球的经

    济危机带来的影响。而在2000年左右,有大量的互联网企业倒闭了,虽

    然有很多企业拥有大量互联网用户的数据,但是因为缺少对数据的分

    析,对互联网的发展变化凭感觉做出了错误的预测,导致经营决策错

    误,最终倒闭。预测是一门科学,需要丰富的历史数据和长期探索的算法。这些预

    测的方法也需要根据外部环境的变化做出调整。没有一个方法能够精准

    预测未来,而我们努力做的就是达到更加精准。3

    数据分析的思路

    先总后分,逐层拆解

    抽丝剥茧,寻踪问迹

    内涵外延,概念清晰

    可视化作图——按照认知规律作图展示

    识图的九个基本方法

    管理常识是数据分析的基础3.1 先总后分,逐层拆解

    先总后分的数据分析思路,让我们在分析细节问题时能够有全局的

    观念。如果一上来就陷入到细节的分析中,则往往对数据的差异性解读

    不知所终——为什么会这样呢?发生了什么?为什么会发生这种情况?

    要回答这些问题,往往需要将问题本身放到一个更大的环境中去看。

    什么是先总后分的思路?

    例如公司的利润下降了,这是一个汇总的数据,要分析公司利润下

    降的原因需要通过数据来查找。因为利润的公式为:

    利润=收入-支出

    利用这个公式我们可以把一个总的问题——利润问题,转化为两个

    相对较小的子问题。利润下降的根源存在5种可能:(1)支出不变,收

    入减少;(2)收入不变,支出增加;(3)收入和支出都减少,而支出

    减少更少一些;(4)都收入和支出都增加了,但支出增加更多一些;

    (5)收入减少而支出增加。接着可以继续对这两个子问题进行进一步

    的拆解。其中:

    收入(销售额)=销售单价×销售数量。

    如果是收入下降,那么有4种可能;(1)销售数量不变,销售单价

    下降;(2)销售单价不变,销售数量下降;(3)销售单价和销售数量

    都下降;(4)销售单价和销售数量一个增长而另一个下降,下降的那

    个要素下降的幅度更大一些。如果问题出在支出部分,那么支出部分可以按照上面这个分析思路

    进行拆分。

    如此一级级不断拆分下去就是先总后分的分析思路。先总后分的分

    析思路的好处是先有整体后有部分,即先有整体的概念,再在整体的组

    成要素中寻找造成整体变动的原因,找到原因之后再继续拆分,直到无

    法拆分为止。当要素不能拆分时,往往这些要素要么是不可控的外部因

    素,要么是能够内部控制的单因素,这样就能够找出解决问题的方案

    了。

    在从总到分的分析过程中可能会有不同的要素拆分思路,在上例

    中,总销售额可以是销售数量×销售单价,或者是销售人员平均业绩×销

    售人员人数,或者是单店平均销售额×专卖店数量,或者是客户数量×单

    客户平均成交金额,还可以是复杂的求和公式。拆分方式不同,我们追

    根溯源的思路就会不同。当用销售单价作为因子去分析的时候,我们在

    考察客户销售额和客户数量,即我们在客户开源或者客户管理体系中是

    否存在的问题;当我们用销售数量和销售单价作为因子的时候,我们是

    在考察产品中存在的问题;当我们用业务人员作为因子的时候,我们是

    在考察业务人员的努力程度的问题。要素拆分的视角不同,考察的内容

    就不同。要考察什么,就从什么视角进行要素拆分,这样才能真正找到

    问题的根源。

    先总后分的分析思路很容易理解,但是当我们拿到数据开始思考和

    规划该从什么角度进行分析的时候,往往忘记了基本的出发点。拿到数

    据集后我们的第一反应应该是:这是一个什么数据集,这个数据集中有

    哪些方面的数据,每个方面都有哪些信息点,每个信息点都能够获得什

    么信息,不同信息点之间是否有关联影响,能否通过信息点的组合产生

    新的信息点,这一系列的思考本身也是“先总后分”的结构,然后再开始着手从总的视角进行拆分。

    例如,下面需要分析公司中几千名员工的基本信息表。除非上级经

    理已经指定相关的分析思路和方法,以及提出了对分析结果的要求,否

    则我们需要自己在数据集中探索出有价值的数据分析结论,从而为公司

    的管理者提供决策依据。可以先看看员工的基本信息表中包含了哪些信

    息,一般有以下几种:

    (1)人口统计学特征数据字段(性别、年龄、身高、体重、血

    型、种族、出生日期、籍贯、住址、婚姻状况、子女生育状况等)。

    (2)员工教育培训和学历等信息(教育经历、专业学科、特殊技

    能、参训课程等,主要反映员工的技能状况)。

    (3)任职经历(公司、岗位、取得的成果、入职日期、岗位调动

    历史等)。

    (4)身心健康相关信息资料(体检记录、身体疾病记录等)。

    (5)宗教信仰等,也包括因为种族或者宗教信仰所影响的饮食禁

    忌、生活禁忌等。

    先把信息表分解成为几大类数据,然后将每一类数据细分到具体的

    字段,这样有助于我们了解整个公司的人才结构、能力水平分布、员工

    来源地分布。通过从不同方面进行统计汇总分析,我们可以了解目前公

    司的人员管理状况,以及可能存在的问题。如下图所示,2008—2009

    年,公司因为经营状况不善进行过裁员,并且没有招聘新的管理者,那

    么公司目前的中层管理者就有可能断层——除非人力资源部门已经早有

    预案,并招聘了一部分中层管理者来弥补这个潜在的管理断层风险。综上所述,先总后分的分析思路是所有数据分析工作的基础,使用

    此思路能够初步解决拿到一个数据集不知该如何进行分析的问题。3.2 抽丝剥茧,寻踪问迹

    根据先总后分的结构分析思路,我们在每个层级中都可以找到存在

    问题或者有差异的因素,然后针对这些因素进行再次拆分,顺藤摸瓜,直到找到问题的根源。这种分析思路需要强大的精细化的原始数据作为

    支撑,如果一个公司中的数据不完善和不全面,在层层追踪的时候就会

    继续不下去,也就无法找到问题的原因。

    笔者在为某家公司做数据分析的过程中发现一个规律:当公司的生

    产额偏低时,产品的返修率和退货率就会上升,当公司在旺季产能几乎

    饱和的状态下加班加点生产时,产品的返修率和退货率都极低。我们本

    来以为生产越忙,产品的品质肯定会被忽略,容易导致次品的产生,但

    事实数据表明我们错了。继续追究原因时,我们发现缺少足够的数据支

    撑,无法追究下去,所以只能从产生次品的原因(“人机料法环”的维

    度)逐步确定对比的方法,然后通过设定数据采集点,进一步跟踪这个

    问题。当历史问题因为缺少数据而无法得到解答时,只能等新的数据产

    生之后再研究原因。

    后来我们发现主要的原因来自人的因素,因为生产不饱和时,计件

    工资的工人工作积极性不高,容易懈怠,导致次品的产生率较高,而在

    生产饱和甚至加班加点生产时,计件工资的工人收入很高,工作积极性

    高,他们生怕犯错后被公司开除,所以做事也非常小心,次品的产生率

    较低。可见一线工作人员的工作积极性与产品的品质是有关系的。后期

    该公司加强管理,做好生产计划预测,调整人员数量,让上班的员工都

    能有较好的收入,并结合员工教育培训,让员工认识到产品品质的重要性,从而降低了淡季时产品的返修率和次品率。

    任何一个小的现象背后都可能蕴藏着巨大的机会。在进行数据分析

    的过程中,对于特殊现象要明察秋毫,抓住一个点,然后用数据去追

    踪,直到找到问题的根源。要有抽丝剥茧的精神,把各种各样的经营活

    动现象理清理顺,不出纰漏,这一方面需要对业务充分熟悉,另外一方

    面需要一种精神,一种严谨的态度,这也可以说是数据分析人员的“工

    匠精神”。虽然现在是大数据时代,但是大多数人认为现象背后的因果

    逻辑关系并不重要,但笔者认为,这个因果逻辑关系仍然很重要,但是

    如果希望快速得到价值回报,则可以先根据关联关系等现象采取一些手

    段将分析结果用于调整企业的经营和管理,但是如果能够找到背后的原

    因,那么对于丰富我们对数据的理解非常有好处,甚至会成为一种知

    识,一种对群体现象的Know-how(诀窍)。

    关注细节是数据分析师首先要具备的能力。细节能力在于能否在微

    小的差异下感知差异驱动因素的能力。一般人最多能够感知两位小数的

    差异,而敏锐的数据分析师能够从微小的差异中找到驱动差异的因素。

    一般我们会说9.5%和9.4%没有太大的差异,但是数据分析师会追踪这个

    差异是由什么因素导致的,会不会有一些新鲜事物发生,这些新鲜事物

    在未来是否具有成长性的力量。例如在客户中忽然多了一类新客户,这

    类新客户是不是一类新的趋势,是否需要关注,经过几个月或者几次的

    接触之后,数据分析师会将自己敏锐的视角转向这个维度,通过长期对

    数据跟踪,给出一个前瞻性的预判。

    关注奇异点。在统计学占领导地位的数据分析时代,我们在对一个

    数据集进行分析时,往往会对数据进行描述性分析,即将显著的

    outlier(奇异点)都去除之后再进行分析。因为我们认为这些奇异点数

    据往往是受随机因素影响而产生的,我们更加关注核心的问题,所以会消除奇异点再做分析。现在的大数据不再是抽样数据,而是完整的数据

    集。存在就有其合理性,这种存在的背后一定有其存在的原因,而任何

    一种存在都有追踪的价值。

    例如某电商平台在纳斯达克上市之前,其网上商城的各种品类中几

    乎都上架了一些价格超高的超级奢侈品,如一台笔记本电脑定价298888

    元(接近30万元),一枚钻石戒指接近99999999元(接近1亿元),一

    台专业单反照相机机身定价29万元。高价产品充斥了整个电商平台,这

    些商品甚至被放到首页。笔者不敢说该电商平台在上市前“刷单”,这需

    要内部数据的审计才能有确凿的证据,而外部的人是很难得到真实数据

    的。作为一名分析师,对事物变化感知的敏锐性是基本的能力,在对这

    个电商平台做出重大投资决策时,需要有敏锐的观察,要提出质疑,作

    为机构投资者让该电商平台出具交易明细记录数据进行审计也是值得

    的。

    作为一名数据分析师,不是简单地处理数据这么简单的,更重要的

    是要理解数据背后的逻辑关系。很多人说大数据不需要关注因果逻辑关

    系,只需要知道数据之间的关联关系就可以了。而笔者认为这是错误的

    认识,是急功近利的表现,虽然这样可以取得短时间的经济效益,但理

    解数据背后的逻辑关系,可以让我们更好地做出预测。

    互联网改变了信息的传播方式,改变了人们的沟通方式、交易方式

    和生活方式。互联网让消费者发出了声音,所以消费者的话语权变重。

    企业必须要按照消费者的需求组织生产,以满足消费者的需要,这也改

    变了很多公司的经营方式和商业模式,重置了消费者和生产者之间的关

    系结构,有了C2F(C2B或者C2M)等各种新的经营模式创新。

    大数据改变了信息加工的方式,也必将改变我们的思考方式、认知事物的方式、认知社会和大自然的方式、应对大自然和社会各种活动的

    方式。在企业管理中,大数据会改变我们的管理方式、决策机制。大数

    据必将产生更多的智慧,让我们更加聪明地做事,更加有效地做事,减

    少浪费,提高工作效率。大数据让资源的利用更有效,让资源配置达到

    最优化,进一步提升人类的创造能力。

    现在我们还不太清楚大数据将改变什么,就如1999年到2000年时

    [1]

    ,我们还不清楚互联网能够改变什么一样。

    必须要追求因果关系,必须要追求现象背后的逻辑关系,这样我们

    才能从大数据中产生智慧,而不是仅仅产生现象之间的关联关系。3.3 内涵外延,概念清晰

    数据分析最终都要形成结论,而结论是对数据所揭示的洞察的定性

    化总结。这是一个从定量分析到定性总结的过程,是形成洞察和“智

    慧”的路径。例如,沃尔玛分析了其购物车,发现啤酒和尿布有非常高

    的关联性,买尿布的购物车中总会有啤酒,所以他们形成了一个结论:

    啤酒和尿布有高相关性,把啤酒和尿布放到一起,能够更好地促进两者

    的销量。这个结论就是定性的总结,是研究大量数据之后得出的结论。

    随着这个案例的传播,“啤酒与尿布”这个词逐渐成为一种关联关系

    的代名词,或者是一种购物篮分析方法的代名词,这就形成了一个概

    念。这个概念有内涵:购物车中的尿布和啤酒的共存关系;这个词也有

    外延:关联关系、购物篮分析算法模型,以及其他数据挖掘分析的应用

    等。

    我们在做数据分析时要特别注意概念的清晰化,容易产生多种理解

    的概念要详细解释,不可以让概念产生歧义,衍生出错误的认知。

    大数据的概念同样有内涵和外延,甚至不同的人有不同的认知。随

    着大数据技术的发展,我们对大数据概念的理解肯定会发生变迁,甚至

    会发生颠覆性的变迁,我们要随时准备好。

    所以在数据分析的过程中,概念要清晰,要有明确的内涵和外延,必要的时候要做好精准的解释。例如我们从销售数据中看到去年年底11

    —12月销售额技术性下跌,到了今年的1—2月销售额又开始了大幅度的

    上涨,那么就有可能存在“囤货”的现象。囤货是一个概念,是指销售人员在一定时间内“惜售”。当产品价格处于快速上涨的时间段内,有存货

    的经销商就可能会存在惜售行为,因为晚卖一天,产品的价格就有可能

    提高1%,这对经销商来说有强大的吸引力。当然,如果销售团队完成

    年度目标后,超额完成的销售额会影响来年的销售计划和目标,而对激

    励影响不大甚至有负面影响时,销售团队也会“惜售”,产生技术性断

    货,从而导致公司丧失一定的销售机会。因此,对“囤货”的概念的解释

    要做到清楚和明白。

    与“囤货”相对应的是“压货”。所谓的压货是指通过调整销售政策,将更多的产品销往渠道或者终端用户,从而在短时间内提高销量的方

    法,其中包括一些促销活动。本质上的压货是指为了快速完成销售业绩

    而采取的各种措施,并非产品被快速消费掉了,而是形成了渠道、中间

    商或者最终用户的库存。例如,销售团队在年底为了冲刺销售业绩,给

    渠道商非常优惠的条件,例如只要渠道商的订货量达到某个标准,就可

    以享受一定的折扣,大幅度的让利让渠道商一下子进了很多货,而这些

    货是一下子卖不出去的,需要更长的周期才能消化,但销售团队的业绩

    完成了。这种现象会让公司提前消费了市场需求,不但不会扩大市场,反而会损害公司的利润。3.4 可视化作图——按照认知规律

    作图展示

    数据可视化本身就是一种数据分析方法,把数据用可视化的方法展

    示出来,本身就说明了一个故事,表达了一个观点,形成一种定性的判

    断。虽然在图形中没有写一个文字,但是图形却能呈现出强烈的数字对

    比。

    如下图左图所示,当我们把中国的GDP和全球其他发达国家的GDP

    放到一起时,可以看到中国排名第二,远远拉开排名第三的日本,并且

    是日本的两倍还多。但当我们看到右图时,发现中国人均GDP还不足日

    本的四分之一。除必需的标示外,在图片中没有多添加任何的评论或者

    总结性语言,但这两张图告诉了我们很多内容,虽然每个人的解读不

    同,但获取到的信息已经足够丰富。数据可视化本身就是数据分析的方

    法。同样的图形会有不同的解读,因为不同的人会有不同的理解和看问

    题的角度。

    甲说:虽然中国人均GDP非常低,远远落后于其他国家,但中国的

    综合经济实力已经是世界第二,而且远远拉开与第三名的距离——乐观

    主义者。

    乙说:虽然中国的GDP在世界排名第二,但中国的人均GDP非常

    低,不足日本的四分之一,只有美国的七分之一——悲观主义者。

    丙说:虽然中国的GDP不足美国的三分之二,却养活了四倍于美国

    的人口总量,我们确保了13亿人口的生活和生存质量,基本解决了温饱

    问题,并且在向小康社会前进——社会学家。

    无论你的图形多么中立,总有人会有特殊的看法,就像相同的颜色

    在每个人大脑中形成的影像是不同的。一对多年未见的好友一起走进了一家豪华的餐厅,点了一份78元的

    豆腐汤,在奢华的环境衬托下,他们并未觉得这个价格有什么问题。这

    对老友中的一个人第二天与一个同事去大排档吃午餐,点了一份同样的

    豆腐汤,售价为38元份,这两个人都觉得这个价格贵了。为什么会有

    这种心理变化?环境不同而已。所以,环境本身也会左右我们对事物的

    看法,我们的看法既然会受到环境、情绪的影响,必然地,我们的看法

    就无法真正达到中立。

    既然我们容易被环境所影响,在用图形表达数据的时候就要尽量避

    免人为的差异性存在,比如同样是红色,有些人认为是血淋淋的,有些

    人认为是激情洋溢的;同样是绿色,有些人认为是春意盎然,有些人认

    为是冷冰冰的。即使是同样的颜色也会有色温、色调的差异。为了避免

    这些问题,在一套图形中,要尽可能地选择一个比较符合逻辑的颜色序

    列来搭配,以保证表达的一致性。

    在进行图形化表达的时候,要符合人们认知事物的逻辑,从而不需

    要更多的解释,让图形自己会说话。

    3.4.1 点图——相对位置、相关关系

    点一般用来标识一个事物的“位置”,以及在“位置”上的相互关系。

    在做点图时,一般至少要用两个维度来描述事物,然后用点标识该事物

    在两个维度上的位置关系。两个维度比较容易做成象限,4个象限(2×2

    等分)或者9个象限(3×3等分)均可。如果多个点在一张图上,则可以

    标识各个点之间的相互关系,于是就做成了“散点图”。

    下图是两张点图,每个点代表一个事物,其从两个维度上来评测了这个事物。这样的例子有很多,如波士顿矩阵、麦肯锡·GE矩阵等。

    如果点代表的是同一个事物在不同条件下的状态,也就是说是一个

    事物在两个维度下不同的状态值,则可以根据点图的分布了解两个维度

    参数之间的关系。

    散点图是一个比较好的用来标识两个事物之间关系的工具。例如一

    个公司采用计件工资与计时工资相结合的计薪方式,因为生产的波动性

    较高,且员工受劳动合同法的保护,公司不能灵活地调整员工数量,所

    以员工数量(或者员工工资总额)与产量之间存在一定的不确定的关

    系。而这个关系在理论上来说应该呈线性关系,实际上的差别有多大,与公司人力资源管理的敏捷性有非常大的关系,它是衡量人力资源管理

    能力的重要指标,因此可以用点图来表示。下面这张图标识了公司在两年内每个月参与生产的人数与公司月度

    的产值情况,其中2011年的人数控制能力明显下降,2010年的人数控制

    得非常好,线性关系非常明显。

    3.4.2 气泡图——点图的延伸,结构组合关

    系、相对位置、分类

    在点图的基础上,把每个点的大小也标识出来,就形成了气泡图。

    气泡图是在点图的基础上延伸出来的,具有三维变量衡量的指标。每个

    气泡代表不同的事物主体,各个主体在三个维度上的差异决定着气泡图

    的位置和大小,如下图所示。使用气泡图可以对产品、客户、市场、区域、业务、员工、竞争对

    手、供应商、渠道商等各种主体进行分类分析,用气泡大小来代表主体

    的大小。

    3.4.3 线图——变化趋势、变化特征、规律

    线图一般用来标识事物发展变化的趋势和规律(见下图),通过线

    条的变化我们知道事物沿着什么样的轨迹在发展,未来会发展到什么地

    方——潜意识地就会延伸下去。人们能够根据线条的形状做出特征和规

    律的总结,不需要特殊指明。如下图所示,将中国自改革开放后历年GDP的增长率放到一张图中

    并用曲线来表示,我们很容易就可以看出有3个倒立的“V”字。

    这3个倒立的“V”字代表着中国经济发展的3个重要历史时期。第一

    个倒立的“V”字是中国处于计划经济转型到市场经济时期。1979年是中

    国改革开放开始之年,此时释放了大量的市场机会,“下海”成了热词,只要是下海早的人,基本都捞到了第一桶金。此时是中国经济快速发展

    的“机会红利期”。随着机会越来越少,之后中国经济增速开始出现下

    行。

    第二个倒立的“V”字是中国处于经济改革的第二个时期。1991年,邓小平南巡,开放经济特区,在这个时期中国为了购买国际的技术和设

    备,放开出口,此时“出口换汇”是热词。大量的产品出口拉动了中国经

    济的发展,因为出口加工需要大量的劳动力,剩余劳动力得到充分利

    用,此时是“人口红利期”。随着就业程度的饱和,劳动力成本上升,之

    后中国经济增速开始出现下行。

    第三个倒立的“V”字是中国处于经济改革的第三个时期。2001年,中国正式加入WTO(世界贸易组织),各种进出口壁垒逐步得到消除,中国迎来了更加宽松的政策环境,这个时期可以算作“政策红利

    期”。中国经济在2008年世界金融危机之后出现大幅度下滑,为了延缓

    经济下滑,中国推出多个万亿元投资政策,资本红利延缓了经济增速的

    下行,但效果没有预期中的好,持续下滑成为不可逆转的趋势,直到现

    在。

    要想了解事物的发展变化规律,线图是最直观的表现方式,它能够

    让你一眼洞穿数据背后的变化情况。如果将上图中的中国历年GDP数据

    换成表格的形式(见下表),则普通人是无法直接获得非常直观的洞察

    (Insights)的。

    中国历年GDP数据参与股票投资的人基本都会看股票的价格曲线图和指数曲线图,并

    根据图形来判断股票价格的涨跌情况。对于上图中的中国历年GDP变化

    的曲线图有更多的解读方法,例如从转型期的视角来看这张图,则可以

    有如下图所示的解读方法。从经济转型的视角看,中国经济经历了3次比较成功的转型,这让

    中国经济保持了长时期的快速增长,而现在中国处于第4个转型期,而

    且2016年是关键的一年,此次转型是否成功决定着中国经济未来的走

    势。

    “一图胜千言”,利用图表我们能够将数据背后的规律和特征演绎出

    来。

    要衡量一家公司的管理能力和水平,看看他们在开会时所展示的报

    告就可以判断。如果报告全部是Word文档、文字性说明,没有图表,那么就说明他们解读数据的能力非常差。不能解读数据背后的特征与规

    律,如何保证决策的准确性和正确性?如何确保公司稳健地发展?绝大

    多数企业倒闭都是由决策失误造成的,利用数据的图形化、可视化,可

    以大幅度提升我们解读数据的能力。

    3.4.4 柱形图、条形图——比较大小及结构关

    系

    柱形图和条形图属于一类图,在本质上没有什么区别,但在应用上

    还是有差异的。

    当数据描述的事物有时间先后关系时,可以用柱形图来表示,在横

    坐标上从左到右标识时间的先后顺序;当数据之间没有明显的先后逻辑

    关系时,这种并列关系可以用柱形图表示也可以用条形图表示;当数据

    之间有明显的上下关系时,则要尽可能用条形图来表示。

    如果数据之间没有上下或者先后逻辑关系,并且是完全的并列关

    系,则这个时候可以通过排序的方式让图形更加容易解读,如下图所示。

    如果数据之间有明显的时间先后逻辑关系,则要尽可能地照顾到时

    间的先后逻辑关系,这样容易让读者看到前后的数据变化过程。

    如下图所示,这是某企业在过去5年中的销售额数据。如果将数据

    按照大小来排序则没有任何的意义,而使用时间轴可以代表企业的发展

    历程,所以,如果有明确的逻辑关系时,则必须要服从这个逻辑顺序。

    如果把这柱形图做成条形图,就没有历史发展的逻辑顺序关系,也就失

    去了图形表示的“故事性”,如下图所示。如果柱形图的标识并没有强逻辑顺序关系,则可以通过排序的方

    式,让表达更加清楚,即要么突出前几名,要么突出后几名,具体如何

    突出或者希望表达什么,必须在作图的时候确定。

    无论是条形图还是柱形图,都会有很多的变种来表达不同的内容或

    者作者希望传达的消息。在变通的过程中,需要对图形顺序、大小比较

    的基准进行设计,如果有必要,则可以使用不同的颜色来表达相关的喜

    好或者结论,或者用刺眼的颜色来引导读者,如下图所示。用作大小对比的柱形图或者条形图,可以用来制作更加复杂的对比

    图形,例如可以对比两个要素之间的变化情况,虽然它没有点图更直

    接,但可以通过大小变化来初步了解两个变量或者两个指标之间的变化

    关系,如下图所示。

    笔者不太喜欢一个图形中有太多的内容,这会让读者无法理解这个

    图形的主旨内容。一个数据图表只需要清晰地表达一个观点即可,试图

    表达更多的内容,往往会造成每个内容都没有表达清楚,越复杂的图形

    实用价值越低(见下图),只能作为“艺术品”让人去欣赏,不能作为数

    据分析工具供我们使用。条形图和柱形图有很多种表达形式,如果我们掌握了基本的对比技

    巧,避免常识性错误,则可以更加有创意地使用条形图和柱形图来表达

    我们希望表达的内容,而且还可以有各种各样的变种,如下图所示。3.4.5 饼图——事物的结构配比关系、配方

    饼图是最基本的面积图形,它利用面积上的占比来表示事物内部的

    结构关系。一般情况下,可以用饼图来表示一个事物,如下图所示。饼图是做结构性展示最直接的工具,而任何的资源配置都有一个结

    构比例,不同的结构配方代表不同的资源配置比例,不同的资源配置比

    例会带来不同的效果。

    华为每年的研发投入都超过其销售额的5%,甚至大多数时候都超

    过了10%,所以华为的研发实力、专利数量、产品的技术领先性都超越

    了竞争对手;联想在产品的研发投入上不足其销售额的1%,所以联想

    一直需要购买他人的专利来保证技术领先性。因为联想在研发上的投入

    低,所以研发实力必然就弱;而华为在研发上的投入高,随着时间的推

    移,其产品在技术上的竞争力就能越来越强。大多数公司目前的状况与

    其之前的资源配比有着直接的关系。一个公司不考虑资源的配置,就无

    法保证公司能按照既定的战略去发展。如果想让公司的各种资源更加集

    约,就需要更加合理地配置,需要有更加合理的配方。最优化的配方会

    大幅度减少资源的闲置和浪费。

    任何一家企业都是由人、财、物、信息等各种资源构成的主体,这

    些资源之间是有配比关系的,不同的配比关系决定着这家企业的特点。

    有的企业土地资源丰厚,有的企业人才资源丰富;有的企业通过人海战

    术实现超高额的业绩,有的企业采用精兵强将策略,人数虽然不多,但个个骁勇善战;有的企业擅长客户服务,有的企业擅长产品设计和生

    产。不同企业的特点都是由其资源配置结构决定的,所以在分析一家企

    业的时候,用饼图对企业的各种资源进行分析,有利于我们充分了解企

    业的资源配置特征。

    如下图左图所示,这是一家典型的生产制造型企业的人力资源配置

    饼图,通过此图可以看出企业大部分的人力成本都配置到了生产环节,即工人的工资是最大的支出,而在研发、营销、人力资源管理、采购管

    理上的投入非常低。可以看出这家企业的基本特征是以生产为中心,不

    重视营销、研发。这样的企业往往在传统行业锁定一个产品或者一类产

    品进行生产,并且有稳定的大客户关系,专注服务几个大客户,并不太

    重视市场营销和客户开源。

    而右图则完全不同,同样是生产制造型企业,该企业会投入超过

    25%的人力成本去做市场营销和销售,这家企业是市场导向型企业,通

    过构建公司的销售网络和品牌知名度,实现企业长期稳定地发展,并且

    注重人才管理以及技术研发,有5%的人员从事产品研发工作,从而为

    企业提供源源不断的新产品。企业的资源配置结构决定着企业自身的特征,一张饼图就能让我们

    对企业有更加深刻的了解。如果企业处于变革的过程中,根据变革的策

    略,也可以用饼图来跟踪企业实际变革的过程和效果。例如,企业需要

    从以生产为中心转向为以市场为中心,那么企业在生产上的投入和在营

    销上的投入必须要发生结构性的变化,如果没有发生,那么我们就可以

    得出结论:这家公司所谓的转型仅仅停留在口号上,并未付诸行动或者

    行动没有任何效果。

    3.4.6 面积图——展示累积效果、结构关系、结构变化

    面积图一般用得比较少,主要是因为它比较复杂,看起来不够直

    观,理解起来比较费劲,在看图的过程中需要人为解读。当然面积图也

    有其好处,最典型的面积图就是帕累托图,即累计面积图,如下图所

    示。帕累托图主要用来分析各种事物主体的集中度结构状况。根据二八

    原理,我们知道80%的利润是由20%的客户给创造的;20%的产品创造

    了80%的销售额;80%的成本花费在20%的业务上;80%的人创造了20%

    的收益……所以我们可以用帕累托图来看看企业是否存在这样的现象,如果存在这样的现象,那么企业可以从改善管理、改善客户关系、改善

    产品结构、改善业务结构等方面不断优化,让企业的绩效产出进一步提

    高。

    饼图只能提供一个维度的结构分析,如果存在多个维度,则需要用

    更加复杂的图形。历史上比较典型的一个多维度结构分析的可视化图形

    是南丁格尔做的玫瑰图。南丁格尔通过其精心制作的玫瑰图向人们展示

    出真正在战场上死亡的士兵是比较少的,大量的士兵是因为在战场上缺

    少救治而死亡的,从而推动了战地医院的建设,让大量的受伤士兵得到

    救治,挽救了大批的战士,她因此被称为“伤员天使”、“提灯女神”,每

    年的5月12日被定为“国际护士节”,以纪念其成就。

    南丁格尔的玫瑰图是饼图的延伸,其将图等分成12份(表示12个

    月),然后每个部分都代表死亡的士兵数量,根据士兵死亡的原因,分

    别分成不同的段,从而能够看到哪一种死因占比最大,如下图左图所

    示。

    我们可以使用玫瑰图来制作产品销售结构图,例如有10个产品品

    种,每个品种有不同的规格或者细类,每一类都对应一个销售额,这样

    我们可以做出一个类似玫瑰图的图形来展示不同产品的销售贡献,如下

    图右图所示。另外,还有一种面积图形叫作Mekko图,它是用来表示多层级结构

    关系的数据图形之一,如下图所示。

    这个图形主要用来表示业务结构、产品或者业务组合、人员组合、客户组合等各种组合结构的问题。这是一个静态的业务组合结构图形。

    通过此图形可以分析公司业务组合的合理性、结构性,某些产品在某些

    地区是否特别受欢迎,某些地区的某些产品的销售还有多大的空间,从

    而方便公司制定相关的区域市场策略。3.4.7 雷达图、扇形图——多维图表,描述事

    物多个维度的特征

    我们对事物进行分类时,需要有一个分类标准,有时候分类标准不

    止一个,可以是两个、3个或者更多。只有一个维度的分类被称作单维

    度分类,例如对客户进行分类,根据客户的大小,可以分为大客户、中

    客户、小客户、微型客户;根据成为客户的时间,可以分为老客户、新

    客户。如果是两个维度的分类,则被称作矩阵分类。例如按照客户所在

    的地理位置和大小这两个维度,将客户分成北方大客户、南方大客户、北方小客户、南方小客户等。如果是三个维度的分类,则被称作魔方分

    类,例如RFM模型就是比较典型的三维度客户分类,通过此模型可以对

    企业的客户关系管理进行评测。

    当分类维度超过3个以上时,就需要使用扇形图或者雷达图来表

    达。比较典型的一个分析模型就是IBM产品竞争力评价模型

    APPEALS,如下图所示。

    该模型是从客户对产品需求价值的8个不同维度对产品的市场竞争力进行分析,主要用于评测IBM服务器产品、电脑产品等硬件产品。不

    同的产品品类、不同的业务特征需要根据自身企业的特点,从用户的需

    求出发,设定不同的维度来对产品进行竞争力评测,不可以完全照搬

    IBM的模型。任何数学模型都有其适用的范围,都需要结合企业的业务

    特点进行修订。别人的方法我们可以学习、参考,可以照葫芦画瓢,但

    不可以完全“拿来主义”。

    3.4.8 组合图——以上几种图形组合形成的较

    为复杂的图形

    笔者不太赞同使用相对复杂的组合图,因为有些图形对普通的管理

    者来说已经过于复杂了,例如气泡图、雷达图、面积图等。如果使用的

    是组合图,则必须要画得清楚明白。

    以上所有的图形都能使用微软的Office 2016制作出来,可以使用

    PowerPoint制作,也可以使用Excel制作,因为它们使用的是相同的模块

    程序,但前提是使用Windows版的Office 2016。目前Mac版的Office

    2016还有很多复杂的数据图形功能未能载入,包括组合图制作功能、Mekko图、玫瑰图等。3.5 识图的九个基本方法

    做数据分析时,一方面我们要学会将数据制作成图形便于他人解

    读,另一方面,我们也必须要学会解读别人的图形,或者解读自己过去

    曾经制作的图形。每个图形的背后都是数据,而具有不同水平和能力的

    人对于相同的图形解读也会不同。

    解读数据有很多种方法,下面介绍九种典型的方法。

    1.辅助线

    强化差异的辅助线让我们能更加清楚地认识事物的规律性、特征

    性,如下图所示。

    如下图所示是一家快速消费品公司的月度销售额曲线图,总共包括

    两年半左右的数据。从图形上我们可以看到这家公司的月度销售额在不

    断上升,呈现稳定增长的态势,大多数月份都是呈小幅波动,只有部分月份的波动幅度比较大。

    如果对数据的解读仅仅停留在这个层级上,则我们可能还没有看到

    这个公司存在的销售管理问题。下面添加一条“辅助线”,“辅助解读”一

    下图形,如下图所示。

    添加辅助线之后,我们会发现每年11—12月的销售额不增长或者呈

    下降趋势,每年1—2月的销售额呈井喷式增长,而到了3月销售额又大

    幅度下滑。这个数据走势带有春节期间的销售特征,但作为快速消费

    品,有可能是消费者在年前大幅度购买为了储存年货;还有一种可能是

    业务人员为了达成年度销售目标,在每年的12月进行促销,从而让本年

    度的销售目标超额完成。为了追究原因,数据分析人员需要去查看市

    场,了解具体的情况。

    通过实际考察发现,这个公司在每年的12月货架几乎都空了,这是

    销售团队进行的“技术性断货”。因为销售团队完成了当年的任务目标,担心今年完成的任务太多,明年的销售目标定得太高,给自己带来压力,所以选择技术性断货。而此产品是非常受消费者欢迎的,当消费者

    发现自己喜欢的产品断货了,等到产品重新上架的时候,就会一下子购

    买很多,以免下次断货时不好买到,所以造成1—2月的销售额大幅度提

    升。这种现象称作“压货”现象。

    压货会造成公司的营销费用浪费和错失销售机会,阻碍公司的发

    展,影响公司提升市场占有率。同时,供货不及时会造成渠道和终端抢

    货,在无形之中形成过高的库存,甚至让公司对终端销量的预测失效,影响决策的准确性。

    存在压货现象是由于公司制定的销售目标不科学,武断地将去年的

    销售额作为基础,再生硬地添加一定的增长比例作为新一年的销售目

    标,对市场需求、公司发展、竞争对手等估算不足,不能根据市场情况

    制定合理的销售目标;另外,公司对销售团队超额完成任务的奖励不

    足,导致销售团队超额完成当年销售目标的积极性不足,从而宁愿牺牲

    很小的超额完成任务的奖励,也不愿意明年背负更多的指标,这是人力

    资源设定的绩效激励机制存在不足造成的。

    同样的图,我们再添加第二条辅助线,如下图所示。通过添加这样一条辅助线,我们会看到整个公司的年度销售额增长

    竟然呈现“大阶梯式”,而不是我们常见的“斜坡式”。一个公司的销售额

    的增长肯定是呈斜坡式的,因为随着公司品牌的推广、渠道的推广,公

    司的知名度在慢慢提高,而不是一下子就提高了。此公司呈现阶梯式增

    长反映了公司在“限量销售”,即公司每个月就只有这么多货物,产多少

    卖多少,多了生产不出来;第二年的销售额上了一个台阶,说明公司扩

    大了产能,供应量增加了;而第三年又是通过扩大产能来实现销售额的

    增长的。

    仔细审查一下公司实际的产量,如果不是产能限制导致出现这个走

    势,那么就是销售团队存在管理问题。该公司产能利用远远未饱和,销

    售人员按量销售,并且销售人员的月度指标是按照全年指标除以12来设

    计的,销售人员完成了当月的指标之后,就没有了积极性去继续销售更

    多的产品。虽然第二年的销售目标设定得更高了,但他们仍然能够快速

    地完成任务,这说明这家公司的产品还是有非常大的市场潜力,销售人

    员只是按照自己的目标和奖励机制在工作,并没有考虑公司的发展和提

    升市场占有率,这就导致整个公司丧失了大量的销售机会。造成这种结果的根本原因有两个:

    (1)销售目标分解不合理,没有考虑从1月到12月的增速。

    (2)销售超额完成激励不足,销售人员没有动力去超额完成任

    务。

    辅助线是一个强大的工具,就如我们在中学学习几何要利用辅助线

    解题一样,我们也需要利用辅助线来解读我们的数据。必要的时候,在

    图上添加几条辅助线,能够让我们更好地解读数据背后的故事。

    2.找差异,找变化

    找差异和找变化是人类天生的一种技能,人类从认知大自然的时候

    就开始认知差异和变化,并从不断地大自然的变化中寻找规律。

    如果事物没有什么变化,则我们往往得不出一个明确的结论;当事

    务有变化的时候,我们可以寻找事物变化的驱动因素,从而得到事物变

    化的驱动要素,如果我们希望事物发生某种变化,那么可以按照我们从

    事物变化中总结出来的驱动要素进行配置,从而让事物发生变化。

    一个事物的变化往往有必要条件和充分条件。充分条件是指只要这

    个条件达到了,事物必然会按照预定的方向发生变化;而必要条件是指

    要想事物发生变化,这些条件必须具备,但是如果仅仅具备这些条件,则事物还是不能按照预期发生相应的变化。当我们分析数据或者现象事

    实时,如果找出的是充分条件,则我们就成功完成了分析工作;但是如

    果我们只是找出了必要条件,则我们距离成功还有很长的路。要想验证

    我们找出的条件是必要条件还是充分条件,就需要通过重复试验来完

    成。我们听过太多关于成功的故事,当外部环境发生变化后,当时成功

    的充分条件可能已经变成了必要条件。马云创业成功的故事激励着很多

    人,但马云成功的外部环境在现在已经发生了翻天覆地的变化,他的成

    功路径已经无法复制。

    数据分析师需要对事物的变化有足够的敏感性,不要因为变化微小

    而忽略,更不能因为变化不常见而不见。敏锐地觉察到事物细微的变化

    是我们比别人更早发现问题、发现规律、发现事物发展方向的捷径。等

    大家都看到变化的时候,你所看到的跟别人看到的就没有不同了。

    我们在阅读大量数据时,如果能够感受到事物的微小变化,就能够

    做到“春江水暖鸭先知”;如果我们感受不到事物的微小变化,就会成

    为“温水中的青蛙”,因为感知不到微小变化而逐步被淘汰。

    找变化是人的本能,但寻找变化背后的驱动因素需要专业能力,需

    要理解事物,需要一些基本的常识。企业的管理人员需要对企业经营、行业规则等有较为深刻的认识,能够辨别一些变化因素是充分条件还是

    必要条件。

    3.找奇异点、特殊群体

    与统计学不同,在大数据时代,我们的数据集都是全部数据,不是

    抽样数据,如果存在奇异点,则不是因为抽样造成的,也不是因为随机

    因素造成的,而是确实存在的,而奇异点的存在必然有其道理——存在

    即为合理。对奇异点的深度研究能够让我们感知到一些新的变化或者细

    微的变化。

    为了更快地商业化数据分析结果,我们可以将发现的关联关系、相

    关关系、共生关系应用到实践中,但是不能停止追求现象的逻辑规律。我们需要了解事物为什么会发生,为什么会存在,我们只有知道事物的

    逻辑规律,才能更好地预知世界,才能产生更多的知识和智慧。

    特殊点、奇异点、特殊群体的存在为我们揭示了事物的差异所在,而这个奇异点在未来会不会成为主流,会不会成为一种趋势,都是需要

    我们探究的。探究奇异点的存在,让我们发现更多新生的东西,也是做

    数据分析的乐趣所在。

    笔者在一家婴幼儿奶粉公司做商业智能分析的时候,发现有一个用

    户购买了大量的三段奶粉,而其家里并没有婴幼儿,笔者以为这个用户

    是买来送礼的,但是连续两三个月他都购买了大量的奶粉,应该是四五

    个婴幼儿的用量。后来我们继续追踪,发现这个用户是买给术后住院的

    家人的。在公司内部开会的时候,我提出一个想法,除婴幼儿市场外,还有一个值得关注的市场——老年人和手术后营养补充市场,这个市场

    应该也不小,值得关注及开发对应的产品。

    就如同海尔在农村市场发现有人用洗衣机来洗土豆,然后开发了用

    来清洗土豆的洗衣机一样,一个奇异点数据可以给我们带来新的探索。

    如果我们把握好了奇异点的数据并对其进行研究,就会发现完全不同于

    我们常规理解的内容,我们就会有了新的启发点、新的引爆点。

    4.找转折点和拐点

    数据的转折点和拐点是非常重要的,甚至是非常关键的分析要点。

    事物的发展都有惯性,而转折点和拐点突破了事物常规发展的惯性,完

    全转向另外一个方向,这需要强大的力量来扭转。分析这个拐点和转折

    点能让我们认识这个强大力量的真实实力。

    如果一家公司的销售额突然出现下滑了,那么就要分析驱动因素是什么。如果忽略了这个驱动因素,则公司就有可能像高山滚雪球一样,越往下速度越快,而雪球越滚越大,最后一发不可收拾。

    其实仔细研究中国经济的发展历史后会发现很多个拐点,有的拐点

    很大,例如1981—1982年的快速增长,1984—1985年的持续下滑,1990

    —1991年的再次快速增长(见下图)。通过研究这些拐点,我们能够认

    识到一个国家经济发展增速的驱动力,以及在驱动力发挥过程中的阻碍

    力量和每个驱动力的极限。

    在研究行业数据时也要分析数据的拐点,一个行业从快速发展到逐

    步稳定,再到后期的持续下滑,然后逐步进入不增长的阶段,都会有一

    个发展历程和周期,都会有不同的驱动要素。

    研究公司的发展历史也可以看出一些常见的规律。一家企业发展到

    20~30人的规模时,就需要建立分工的组织体系;当发展到50~100人

    的规模时,就需要建立相对完善和严谨的制度和流程;当发展到250~

    300人的规模时,企业就需要开始考虑每个人的职业规划,公司的职

    级、薪级体系需要完善;当公司规模达到500人以上时,就需要将不同

    的业务领域分组管理,开始考虑业务的中长期规划,需要在人员管理上做出不同的调整,在业务安排上有不同的激励措施;当发展到1000人以

    上的规模时,企业又开始面对新的挑战了。不同的行业面临的瓶颈期的

    时间也是不同的。

    行业环境也会大大影响企业瓶颈期的到来。对于快速发展的行业,企业的瓶颈期到来的时间就晚一些,当行业发展停滞时,企业的瓶颈期

    到来的时间就早一些。原因很简单,当企业乘坐行业的大船快速发展

    时,只要企业发展,大问题也不是问题;当行业发展停滞时,企业的发

    展也会受到影响,企业不发展,小问题都会成为大问题,甚至是致命的

    问题。

    5.找特征

    事物的发展总会留下历史的证据,而这个证据是需要不断挖掘的,这就是数据分析的经验所在。看过美剧《犯罪现场》(Crime Scene

    Investigation)的朋友都知道,所有犯罪证据的收集都是必需的,可以

    根据现场留下的各种证据然后使用推测、演绎、还原等方式来推演过去

    发生了什么。

    其实只要在事物的发生和发展过程中记录了数据,就能够推演过去

    发生了什么,为什么会发生,怎么发生的,然后找寻其中的驱动要素或

    者发展规律,这就是从数据中寻找证据。

    任何事物的发展都有其自身的特征,如果能够对事物的数据特征有

    更好的认知,就很容易从数据的表现形态上看到事物是怎么发生和发展

    的。这就是我们所说的要看数据表现出来的特征。

    识别特征是需要经验的,这也是数据分析师与其他的技术人员、编

    码人员不同之处。数据分析师类似于老中医,经验越丰富、经历越多,价值越高。越是有经验的数据分析师,越能够从一些简单的图形中看出

    问题所在。虽然在软件操作、代码编写上落后于年轻一代,但在数据解

    读和数据识别上,资历深厚的数据分析师能够给出更加丰富的解读。

    也可以说数据分析师越懂得人性,越能挖掘数据背后的故事。如果

    数据分析师拥有社会学、心理学、经济学、管理学等多学科知识,就能

    够了解企业中会发生什么,在解读数据的过程中就能够有更加丰富的想

    象和假设,然后根据想象和假设寻找相对应的验证,佐证发现的问题。

    如果没有这些知识,则数据分析只会停留在对数据本身特征的描述上,不能解释数据所反映的事物的发展变化规律。

    做股票交易的人会有各种看图的本领,例如5日均线、10日均线、40日均线与主交易线穿插代表什么,什么时候预示着行情上涨,什么时

    候预示着行情下跌,这些都是经验的积累,以及数据分析的结果。通过

    图形本身的特征找出事物背后的相关规律,这是从数据的角度去解读事

    物发生和发展规律的基本方法。

    可以采用各种方法寻找数据的特征,其中一种方法就是将数据图形

    化,用肉眼来观察具体数据的特征;还可以使用描述统计的方法,通过

    观察描述统计后得到的指标找到数据分布的特征,从而能够更准确地理

    解数据,包括数据的平均值、最大值、最小值、中值、峰度、偏度等信

    息。

    6.找问题

    对数据分析人员来说,找问题就是找数据,只要问对了问题,就能

    够找到合适的数据,通过数据可以分析出具体的问题,并能够找到具体

    的解决方案。从一定意义上来讲,问对问题比找到答案更加重要。只要问题问对了,答案非常容易获得。甚至可以夸张地说,问对了问题,事

    情就解决了一半。

    资深的数据分析师常使用以下5个问题来确保数据分析能够深入到

    最深层次,挖掘到事物的本质,以及找到问题的根源。这5个问题是数

    据分析师应该掌握的,否则就称不上是数据分析师,而仅仅是数据处理

    人员。

    (1)What

    事物存在什么差异或者变化?这个差异和变化是什么?是向好的方

    向还是向坏的方向发展的?是好现象还是坏现象?是需要警惕还是需要

    挖掘创新点?What is the change?——这个变化是什么?这个变化的本

    质是什么?

    (2)Who

    这个变化的主体是谁,客体是谁?是谁在变化或者是谁引导了变

    化?是谁造成的变化?如果是好的变化,则谁该领功;如果是坏的变

    化,则谁该负责?为什么要引领这个变化或者有什么样的动机要让这个

    变化发生?背后的利益或者情感的驱动是什么?

    (3)When

    这个变化是什么时间发生的?是最新发生的,还是过去就一直在发

    生着,只是现在变化大了才发现?这种变化持续多久了?多长时间才发

    生了这么大的变化?是快速变化还是慢速变化?按照这个速度发展下

    去,多长时间可以发生质的变化?这种变化是否需要阻止?最迟需要什

    么时候阻止?这个变化是否需要加速?如果需要,到什么时候需要达成什么结果?

    (4)Where

    这个变化在哪里发生的?发生的环境要素是什么?牵扯到哪些部

    门、组织或者利益相关方?每个利益相关方的诉求是什么?会对该事物

    的发生和发展有什么影响?这个变化发生的环境因素是必要条件还是充

    分条件?哪些条件达到了才产生了这个变化?这个条件是否可以人为创

    造?如果不能人为创造,有什么可能形成这样的条件?

    (5)How

    如何调整变化?如何强化变化?如何弱化变化?如何创造事物发生

    的条件让事物按照我们期望的方向进行变化?如何才能改变现在的状

    况?这个变化是怎样发生的?这个变化的发生能否避免或者重复?

    这5个问题简称4W1H方法,它可以让数据分析师把握问题的关键,找到问题的根源。在执行过程中要有钻研精神,不要放过任何一个细微

    的变化与差别,对所有的问题都要有追根究底的精神。在刚开始学习

    4W1H方法的时候,很容易陷入一个窘境,即有太多的问题要问,非常

    少量的数据需要花费大量的时间去分析。其实,当你对公司的业务熟悉

    之后,在追问问题的根源时,也会更有重点,当然这也可能是遗漏问题

    的根源。越想走捷径,越容易出遗漏的问题。

    7.找源头

    4W1H方法让我们通过问问题的方式找到问题的关键和问题的根

    源,找到发生变化的原因,从而找到解决问题的方法,这是一个非常全

    面的数据分析方法。而在进行数据分析的时候,找到问题的根源,却是一个比较见功底的活儿。

    常言道:“问题都在前三排,根源就在主席台”。很多公司的管理问

    题都可以追究到公司老总的管理理念、管理方式、管理思路上。为何公

    司令行不止?因为老总言行不一致。为何很多人收贿、受贿?因为老总

    就是这样的人。为什么很多人光说不做?因为老总只喜欢那些说得好听

    的人……

    有些问题的根源来自公司的潜规则或者员工长期以来养成的习惯,例如有些公司的员工不作为,是因为长期以来养成了懒散的习惯,没有

    尽职尽责的精神。而制度流程的问题往往是管理中常见的问题根源。门

    在哪儿开,人们就从哪儿走。门开错了位置,大家就会走错位置。公司

    的制度和流程缺少严谨性和严肃性,往往会导致很多制度和流程最终成

    为形式;如果制度和流程在不同的人身上执行都不同,那么制度和流程

    的严肃性就会被人质疑,从而失去其权威性;如果制度和流程失去权威

    性,则很多人就会钻空子。

    随着公司规模的变化、人数的增多、业务复杂程度的增加,原有的

    制度和流程可能会发生变化,出现不适用的现象,这时需要根据公司的

    发展进行调整。数据能够显现出一些问题,当出现这些问题后,数据分

    析人员需要根据公司的情况,提出相关的建议和意见,协同相关的部门

    对制度和流程进行修订,并追踪制度流程修订后的结果。要用数据来追

    踪效果,确保这种修订是好的、可行的、有效的。如果公司制定的目标

    和流程不科学,则需要重新设定公司目标和分解流程;如果公司制定的

    员工激励制度不合理,不能有效地激励员工超额完成任务,就需要协同

    人力资源部门修订员工激励方案,确保员工能够把能力发挥到极致,让

    公司把握所有的发展机会,不能因为员工的问题影响公司的持续发展。在挖掘现象背后的原因时,我们需要对事物的本质有清醒的认知。

    同样是营销和销售,每个公司对这两个部门的定义有很大的区别。在快

    速消费品公司中,营销主导销售,公司的销售模式是通过广告吸引消费

    者购买,而销售需要做好产品的分销,确保店面中有可销售的产品,不

    断货;而在药品、医疗器械、耐用消费品公司中,销售起到非常重要的

    作用,影响终端消费者的决策,而营销则是为销售提供各种销售工具

    的。为什么会产生这种差异呢?这取决于购买者的决策机制。当购买者

    的决策机制是由感性的品牌喜好决定时,营销主导销售;当消费者的购

    买决策复杂,需要具有专业知识、理性决策时,需要专业的销售人员或

    者专家在销售点把握成交过程。由此可以推断下去,B2B的销售往往都

    是销售主导营销,或者营销为销售提供支持服务。

    8.找关系

    通过数据找到事物之间的关系比较容易做到。例如通过散点图(见

    下图),我们能看到相关数据的分布状况,从而能够直观地判断数据之

    间是否是相关关系,相关性有多高,随机误差的影响有多大。

    有时候我们需要对数据进行一定的调整才能看到其相关性,例如可

    以通过对数关系等处理后再看其相关关系。

    相关性研究需要更谨慎一些,既要有足够丰富的专业知识,同时还要不违背常识。例如,如果监狱中85%的罪犯都喜欢吃米饭,那么是否

    可以得出结论:米饭是导致犯罪的原因?调查研究显示,癌症患者中只

    有18%的人是重度烟民,但90%的人都吃米饭,其中有65%的人每天至

    少吃一顿米饭,那么是否可以得出结论:米饭是导致癌症的原因?纽约

    股票交易所的股票指数与华尔街中的女性的裙子长短成正相关,股票下

    跌,裙子变短,股票上涨,裙子变长,那么华尔街中的女性的裙子长度

    是导致纽约股市涨跌的原因吗?

    以上这些都是无法立住脚的分析判断,但是数据分析软件或者算法

    所给予我们的只有这些相关性,以及真实的数据和指标,我们在解读数

    据的时候必须要加入常识,不能单纯地从数据角度去判定事物之间的关

    系。

    9.找驱动

    数据无法直接告诉我们事物变化背后的驱动要素是什么,只能告诉

    我们相关的关系或者两种指标之间的变化关系,我们需要寻找事物变化

    的驱动关系。

    汽车加入汽油后,通过启动发动机,就能够行驶几百千米,这是典

    型的汽油驱动发动机、发动机驱动车轮前行的逻辑关系。但在现实世界

    中,特别是在商业环境下,这种单纯的关系是不存在的。

    广告可以扩大产品品牌的知名度、提高消费者的认知度,从而提高

    产品的销量,但广告和销量之间的关系并不像汽油和发动机那样明显。

    我们把广告投放到电视媒体、广播媒体和互联网媒体中,让品牌有更多

    的曝光率,但是曝光率和购买率之间还有很大的距离。那么如何来评测

    广告的效果?站在公司的角度看,这是投入和产出之间的关系;而站在消费者的角度看,则这是消费者看到与最后购买之间的转化率关系。

    数据分析要从多个维度进行,一方面要从公司的维度分析:广告是

    公司的投入,销售是公司的产出,这是一个投入与产出之间的关系;另

    一方面要从用户的维度分析:广告要吸引人,如果广告冗长,则会让消

    费者看到广告后感到腻烦,更不会购买你的产品。消费者会越来越成

    熟,能否让广告更加符合他们自身的需求,变得越来越重要。

    我们在做销售数据分析时经常会分析转化率,例如我们获得了多少

    客户的信息、有多少客户愿意跟我们接触,有多少客户愿意了解我们的

    产品,有多少客户对我们的产品感兴趣,又有多少客户对我们的产品产

    生了购买意向,最后有多少客户购买了我们的产品。整个过程的数据体

    现了各个阶段的转化率,转化率代表着营销和销售的效率。

    我们做的数据分析只能分析从一个阶段到另一个阶段的转化率,却

    无法发现从一个阶段到下一个阶段转化的驱动要素,我们可以通过各种

    方式采集数据,但现阶段的技术无法实现驱动效果分析,我们能做的是

    进行各种不同的试验,分析不同方法的效率和效果。这种方法被称为

    AB测试。所谓的AB测试,就是指我们针对同一类客户采取A方法和B方法,然后对比A方法和B方法之间的效率、效果差异,从而确定哪种方法更

    加有效。数据分析最终的结果可以评测A方法和B方法的效率与效能,但无法揭示A方法为什么有效、B方法为什么低效,或者其背后的逻辑

    是什么,这就需要人为地参与解读和理解。而这些理解往往是建立在假

    设或者臆想之上的,没有足够的证据证明其驱动过程和效果。

    AB测试是一种方法,是数据分析人员与公司的管理者达成一致进

    行试验的一种方法,如果管理者本身不想进行测试,那么这个过程就很

    难实现。因为管理者有其管理目标,AB测试总要锁定一定的条件,导

    致管理者在过程中的自由裁决力度被减弱,而管理者为了保证既定考核

    目标的实现,往往会采取其喜欢的方式来管理,从而让整个测试结果不

    可用。要推行AB测试,需要公司的高层给予支持,管理者在背负相关

    责任的基础上要有明确、合理、适合的科学实验精神的标准,否则这个

    测试就会带来不一样的结果,甚至会得不到希望得到的结论。

    笔者曾经主导过一个AB测试,公司投入了差不多两亿元人民币的

    广告费用,但在测试过程中,因为投入成本高,管理者的业绩压力大,在出现问题之后需要做一些调整,但这些调整会让整个测试失去可对比

    性,不可否认,测试只能向公司管理目标倾斜,最后只好放弃。这个测

    试失败的原因有两个方面:一方面,这个测试的标的过大,让管理者的

    压力太大;另一方面,缺少最高层领导的支持和理解,他们也不想放弃

    短时期内看似可行的方案,从而让整个对比试验夭折。短期利益的驱使

    会让整个AB测试中途夭折,数据分析人员需要在开始之前就要做好预

    案。

    10.找规律找规律是数据分析与数据挖掘最基本的目标,也是唯一的目标,数

    据分析的根本目的还是指导企业未来的经营实践。通过数据分析找到事

    物发展的规律,让我们能够对未来做出更加准确的预测,能够把控未来

    的发展方向。

    例如,我们要研究整个互联网行业的发展状况,而纳斯达克股票交

    易市场的综合指数基本能够反映长周期的市场情况,也能够反映整个市

    场的价值,如下图所示。

    纳斯达克综合指数代表着一个技术从发展到应用普及所走的道路。

    Gartner机构研究了上百种技术的路线,得出了类似的结论。感兴趣的读

    者可以用谷歌搜索Gartner Hype Cycle,如果对本行业的技术应用阶段性

    分析感兴趣,则可以在谷歌搜索中加入行业的关键词,例如Gartner

    Hype Cycle Digital Healthcare(数字医疗)。3.6 管理常识是数据分析的基础

    数据分析的本质是用数据来解读商业的逻辑和规律,并对现有的认

    知进行再次修订的过程。如果不懂得商业逻辑和基本的常识,那么就很

    难理解数据,甚至不知道其背后到底发生了什么。

    供需关系规律一直是经济领域的第一规律,价格影响需求和供应,如果产品价格高,供应方可以赚取更高的利润,那么他们就会有更大的

    动力去生产更多的产品,产品供应就会充分。同时,当产品价格高的时

    候,购买者的需求量就会下降,那些可买可不买的人就会放弃购买;需

    求方减少,产品生产多了就会卖不出去,供应方为了把产品卖出去就会

    降价销售,这样需求量和供应量就会逐步形成一个动态的平衡。而当产

    品生产还有利润可赚的时候,供应方就会继续生产导致供应量增加,当

    产品价格降到接近于零的时候,则不会有更多的供应,也不会有更多的

    需求,从而达到一个稳定的平衡点。这是经济学理论上的供需关系原

    理。用它可以解读基本的市场数据之间的变化。但市场永远不会按照理

    论来发展,还会有很多的变化和变种,所以在实际工作中,供需关系规

    律是基本规律,是一个基本的常识,在这个基础上结合供应方差异、需

    求方差异来解读数据才会更加完整。

    数据分析人员也需要掌握一些管理学方面的基本常识。管理永远是

    在管理人和事的关系,对人性有足够的认识才能更好地做好管理工作。

    对数据分析人员来说,也要懂得不同的人性,包括不同文化理念下的人

    性,必要的时候可以经常阅读一些西方管理学文集和中方管理学文集。

    之前某个管理学研究者曾经提出一个“中国式管理”的概念,这个概念非常好,其区分了中国人做管理与西方人做管理的不同,虽然在某些观点

    上有些偏颇,但值得我们去学习和了解,这对于我们解读国内市场数

    据、本土企业管理数据是非常有益的。

    笔者在为某个公司提供数据化管理咨询服务时,为了更好地推进管

    理实践,让咨询方案更好地落地,在6个车间中选择最差的一个车间进

    行试验,让数据化管理在这个车间里先行先试。在短短两个多月里,该

    车间在生产效率、生产品质和生产交期方面,已经从最差的车间变成最

    好的车间,而且与其他5个车间拉开了很大的距离。本来笔者希望利用

    这个车间的成果在其他车间开始推广数据化管理,结果两个月后,试点

    数据化管理的车间主任找到笔者,他说:“赵老师,不好了,我混不下

    去了。”

    我问:“为什么啊?”

    他说:“上周五,我们6个车间主任下班后一起去喝酒,我们都是共

    事二十多年的老朋友了,大家都很熟悉。那天喝了点儿酒之后,我们6

    个人中的老大哥,也是我们都很尊重的人,在酒桌上对我说:‘小吴,你这样做还让我们怎么混啊!以后这样的场合你还是不要来了。’”

    笔者当时就懵了。在笔者看来,一个人做出了成绩,大家都应该向

    他学习才对,既然有好的方案,大家一起学习,共同提高,让整个公司

    发展起来,这样大家可以过得更好;如果不提升,大家就会跟着公司这

    条大船一起沉没。他们为什么会这么想呢?当时笔者特别不理解,在欧

    美的企业中是不可能存在有这种想法的人,这些元老级的人物,难道不

    希望公司发展壮大吗?

    他解释说:“在这6个人中,我的年龄最小,45岁,而年龄最大的人已经58岁了,马上要退休了。而我还有15年才退休,我是希望公司能够

    持续发展的,也希望趁着自己还有力气、有能力就再拼一把。而其他几

    个人已经不是这种心态了,他们希望在自己职业生涯的最后几年保持不

    变,顺利退休。现在都是公共社保了,公司的死活与退休金没有关系,而他们更关心的是自己在这几年该如何更顺利地度过,这种数据化管理

    的变革对他们的冲击还是很大的。”

    由此可见,一些人们根深蒂固的思想是很难改变的,而且年龄越大

    越难改变,相应地,企业的历史越久,变革的阻力越大。一家企业的董

    事长开玩笑地说:“一家拥有近四五十年历史的企业要进行数据化治

    理,其实还不如将公司出售,用这个钱重新组建一个全新的企业来得容

    易。”虽然这只是说说,但任何企业都不可能关掉重来。变革的阻力需

    要公司的高层和数据分析人员一起面对。

    为什么说公司存续时间越长,变革的阻力越大呢?排除技术方面的

    问题,人情是最大的问题。所有的事情都会涉及人和事两个层面,我们

    把事情做一个分类分析,将其分为两个维度:人和事,用重要程度来衡

    量会形成一个矩阵,如下图所示。这个人事矩阵在本书的多处都会提到。当人很重要时,我们要让对

    方“赢”;而当事情也很重要时,我们也要“赢”,所以理想的结局是“双

    赢”。也就是说,对于人很重要,事情也很重要的“事情”,要采取“双

    赢”的策略。人不重要,事情很重要,可以采取竞争的策略;人很重

    要,事情不重要时,我们尽量妥协,确保让对方高兴。

    在一个“历史悠久”的公司中推动变革时,因为人与人之间的关系很

    重要,导致很多事情的重要程度被比下去了,有些该采取双赢和竞争策

    略的事情,往往会演变成采取妥协策略,这也就是为什么人际关系越融

    洽的企业推动管理变革越难。

    以上都是一些管理的常识,或者从管理常识推演得出的结论。在进

    行数据分析时,要了解一些基本的管理知识、经济学知识、社会学知

    识、心理学知识,这样数据分析工作才能够顺利地进行,从而发挥出数

    据分析师应有的价值。

    [1]1999年到2000年,互联网泡沫前期,当时人只是认为互联网是一种信息传播的方式,是一种

    媒体,是一种让全球都能够看到各种信息的工具,但现在这种认知已经完全颠覆了。第2篇

    方法篇4

    对比与对标——识别事物的基本方

    法

    对比是识别事物的基本方法

    对比——横向、纵向及多维度对比

    比值比率背后的逻辑

    指标的逻辑与管理指标

    对标的层次和维度

    标杆管理与榜样的力量4.1 对比是识别事物的基本方法

    对比是最基本的数据分析方法,也是其他数据分析方法的基础。

    我们识别数据的差异是通过对比来实现的。为了得到一个结论,我

    们通常会查看两个数据的差异,如果1月份的销售额是1000万元,2月份

    的销售额是1200万元,则月度销售额环比上升了20%,销售额增加了

    200万元,这就是一个数量上的对比。人总有问问题的本能,我们潜意

    识里会问:为什么会增加了200万元,这200万元从哪里增加的?怎么增

    加的?

    从这种潜意识的思考中可以看到,我们关心的是差200万元,而没

    有 ......


您现在查看是摘要介绍页, 详见PDF附件(4899KB,336页)