当前位置: 首页 > 新闻 > 信息荟萃
编号:398
人工智能革命:历史、当下与未来.pdf
http://www.100md.com 2019年12月24日
第1页
第10页
第19页
第21页
第47页
第68页

    参见附件(3395KB,226页)。

     人工智能革命:历史、当下与未来是一本关于解读AI的前世今生的书籍,里面的内容将人工智能整个发展期到成熟期描述了一遍,帮助读者更深入了解人工智能。

    人工智能革命内容提要

    继2016年8月被加入国务院印发的《“十三五”科技创新规划》后,人工智能再次被写入2017年的《政府工作报告》,意味着人工智能这一技术在政策中的急速奔跑。有人曾言“人工智能对社会、生活的影响不会低于互联网”。

    那么到底何为人工智能?它的发展脉络是怎样的?它与普通人的生活有什么样的紧密关联?对人类社会到底会带来怎样的变革?

    本书内容清晰,结构合理,叙说深入浅出,是中文领域难得“人工智能”佳作,作者试图用尽可能少的专业术语回顾人工智能发展历程,揭秘机器学习的终极逻辑,全景勾勒人工智能的商业未来,一本给普通人看的、全面解读人工智能历史、当下与未来的人生指导书。

    人工智能革命作者介绍

    王天一,北京邮电大学通信与信息系统专业工程学博士,现任贵州大学大数据与信息工程学院副教授,研究方向为量子通信与物联网/大数据技术,长期关注人工智能的发展。

    人工智能革命章节目录

    第一章 用智慧再造智慧——人类的终极梦想

    第二章 安能辨我人或机——通用人工智能理论

    第三章 从深蓝到阿尔法狗——人工智能的技术演进

    第四章 得数据者得天下——智能思维方式的革命

    第五章 我,机器人——人工智能的终极载体

    第六章 拒绝美丽新世界——为什么我们还是人类

    第七章 第八章畅享技术红利——人工智能的应用 黑镜照进现实——警惕技术的反噬

    第九章 进化,永不止步——人工智能新趋势

    第十章 这里群星璀璨——人工智能英雄谱

    人工智能革命:历史、当下与未来截图

    书名:人工智能革命:历史、当下与未来

    作者:王天一

    出版社:北京时代华文书局

    出版时间:2017年6月

    ISBN:9787569915952

    版权所有 侵权必究目录

    前言

    第一章 用智慧再造智慧——人类的终极梦想

    图灵模型——铺平理论道路

    冯诺伊曼结构——踏平技术坎坷

    达特茅斯之野望——人工智能横空出世

    你方唱罢我登场——三大流派竞风流

    技术的十字路口——人工智能谁领风骚

    第二章 安能辨我人或机——通用人工智能理论

    机器能思考吗?——智能的本质在哪里

    熟悉的麻木——人类智能有多强大

    学习、归纳与推理——这才是人工智能

    不完备性定理——哥德尔的“诅咒”

    第三章 从深蓝到阿尔法狗——人工智能的技术演进

    取胜之匙——深蓝的“算”与阿尔法狗的“想”

    最初的一步——模式识别

    大脑的人工模拟——神经网络

    计算机的无师自通——深度学习

    第四章 得数据者得天下——智能思维方式的革命

    工业时代到信息时代——世界观的重构

    知其然,而非所以然——信息到数据的认知变革

    海纳百川,有容乃“大”——被量化的世界

    有数据,才有一切——人工智能驱动力

    第五章 我,机器人——人工智能的终极载体

    思考能力的进化——语音助手与无人驾驶

    乌合之众还是有血有肉——集群智能

    人类,你out了——机器人终将淘汰人类?

    脆弱的三定——奴隶、伙伴还是主人

    第六章 拒绝美丽新世界——为什么我们还是人类

    电车的困境——道德代码如何编写

    电车的困境——道德代码如何编写

    创造性与想象力——人类最后的阵地

    不确定性的终结——反乌托邦的终极奥义

    第七章 黑镜照进现实——警惕技术的反噬比你更像你自己——当隐私成为奢求

    不要相信眼睛——虚拟现实的幻境

    云端的永生——思维克隆人的背后

    无为有处有还无——数据的黑洞

    第八章 畅享技术红利——人工智能的应用

    通向巴别塔之路——机器翻译

    我不是脸盲晚期——图像识别

    穿着白大褂的电脑——辅助诊断

    知人知面更知心——推荐系统

    第九章 进化,永不止步——人工智能新趋势

    别怂,就是GAN——生成式对抗性网络

    人工智能中的负反馈——强化学习

    翻不过的那座山——语义理解

    定义意念的力量——脑机接口

    第十章 这里群星璀璨——人工智能英雄谱

    游刃有余的跨界大牛——司马贺西蒙

    得饶人处且饶人——明斯基的一点过往

    基因的力量——人工智能的救世主辛顿

    从科学家到创业者——阿尔法狗之父哈撒比斯

    作者简介前言

    人工智能引发了对如何创建能够进行智能行为的计算机的广泛关

    注。多年来,缓慢却稳定进展逐渐使计算机在日常工作上变得更加“聪

    明”,研究界和行业的一系列突破近来更激发了对这一领域发展的势头

    和投资。

    今天的人工智能仅限于狭隘的具体任务,并没有展现出如人类一般

    普适性的智慧。尽管如此,人工智能对世界的影响力依然不断增长。我

    们所看到的进步速度将对从医疗保健到形象和语音识别等领域产生不可

    估量的影响。在医疗保健方面,大量医疗计划将依靠人工智能来寻找医

    疗数据模式,帮助医生诊断疾病并提出治疗方案。在教育方面,人工智

    能有潜力帮助教师根据学生的需求定制教学。在交通领域,人工智能是

    自动驾驶技术的关键,这些无人操控的车辆与飞机可能会在未来几十年

    内改变全球物流系统。

    人工智能带来的经济前景同样令人振奋:它无疑将重塑经济的面

    貌。根据埃森哲的研究报告估计,到2035年,人工智能可以使许多发达

    国家的年度经济增长率翻倍,并借此促进人与机器之间的新关系。该报

    告指出,业务中的人工智能将加强劳动者在推动业务增长方面的角色,进而提高劳动生产率。随着人工智能的成熟,它将潜在地成为近几十年

    来技术劳动生产率停滞和短缺的有力解决方案。

    虽然许多人认为人工智能会取代人类,但人工智能令把人类的精力

    留在更杰出的工作上。创新的人工智能技术将使人们能够更有效地利用自己的时间,做人类最好的工作——创造,想象和创新。即使在人工智

    能时代,成功和创造价值的关键因素仍然是采取“以人为本”的方针。

    然而,像任何变革技术一样,人工智能带来了一些风险,并且从工

    作和经济到安全和监管问题的几个方面提出了复杂的政策挑战。人工智

    能系统也可以以惊人的方式表现,我们越来越依赖人工智能来提供决策

    和操作设备,这无疑增加了预测和控制复杂技术将如何行为的挑战。

    无论如何,人工智能可以让人在全新的层面上工作,以推动增长和

    生产力。人工智能的核心任务不仅仅是消除重复的任务,而是把人放在

    中心,通过应用机器的能力来增加员工队伍,使人可以专注于更高价值

    的分析,决策和创新。

    作者第一章 用智慧再造智慧

    ——人类的终极梦想

    世纪之交上映的三部曲电影《黑客帝国(Matrix)》,堪称人工智

    能题材中前无古人后无来者的里程碑式作品,其思想的深度与广度令后

    来者难以忘其项背。电影中,作为超级人工智能的Matrix将世界变成一

    个庞大的矩阵,支配这个矩阵运行的所有规律都在其掌握之下,人类反

    叛者尼奥(Neo)也不过是这个庞大棋局中的一个子。

    设计师:你好,尼奥。

    尼奥:你是谁?

    设计师:我是设计师,我创造了Matrix.我一直在等你。我知道你有

    很多问题要问,虽然整个过程改变了你的意识,但你依然是不折不扣的

    人类。所以,我的一些回答你也许能明白,有些你也许不能明白。你的

    第一个问题也许是最关键的一个问题,同时你也许意识到或没有意识到

    它也是最无关紧要的问题。

    尼奥:为什么我会在这里?

    设计师:你的生命是Matrix固有程序中一个失衡因式的残留总和。

    你是一个偏差的偶然性,是尽管我竭尽全力,仍不能消除的影响数学精

    度和谐的一个偏差。尽管它不断地制造麻烦让我小心翼翼地处理它,但

    它并不是不可预测的,它仍然处于控制范围之内。它引导着你来到这

    里。尼奥:你还没有回答我的问题。

    设计师:很好。有意思,这要比其他的那些要快一点……Matrix比

    你想象的要老得多。我比较喜欢用一个完整偏差的出现到下一个完整偏

    差出现的方式来计算,这已经是第六个版本的Matrix.

    尼奥:只可能有两种解释:没人告诉过我或是从来就没人知道。

    设计师:正确。因为你无疑是在最简单化的因式里聚集并创造着偏

    差的系统化变动。

    尼奥:选择。问题的关键是选择。

    设计师:我设计的第一个Matrix非常完美,它简直就像是一件完美

    而卓越的艺术品。它的成功和失败都同样是史诗性的。它失败的必然性

    在我看来是每个人类固有的非完美性的结果。所以我根据你们人类的历

    史重新设计了Matrix,以便更准确地反映你们人类本性中多变的怪诞特

    质。可是我再次失败了。我终于了解到我得不到正确答案是因为它不需

    要太多的考虑,或是也许不需要考虑太多完美性的问题因素。答案最终

    被另一个指导性的程序偶然发现,这个程序原本是为了研究某些人类思

    维的。如果说我是Matrix之父,她无疑是Matrix之母。

    尼奥:先知。

    设计师:嗯。正如我所说的,她偶然发现了一个方法使得将近

    99.9%的试验体接受程序,给他们一个选择的机会,他们甚至只是仅仅

    意识到这个选择只是处于无意识的阶段。这个解决方案最初进行时,它

    无疑从基础上是有缺陷的,因而产生了相矛盾的系统偏差,如果不加以

    抑制就会威胁到系统本身。因此,那些拒绝程序的试验体,尽管只是少

    数,但如果不加以抑制,就会不断增加形成灾难的可能性。

    今日世界,计算无处不在。

    从结绳到算盘,从计算尺到集成芯片,计算的工具终于完成了从量到质的飞跃。无所不能的计算如同《西游记》里的孙悟空,虽有万般变

    化,却仍然逃不脱逻辑规律这位如来佛祖的掌心。第一个发现这个秘密

    的人,便是英国数学家阿兰·图灵(Al-an Turing)。图灵模型

    ——铺平理论道路

    在1935年春天的剑桥大学国王学院,年仅23岁的图灵第一次接触到

    了德国数学家大卫·希尔伯特(David Hilbert)23个世纪问题中的第十问

    题:“能否通过机械化运算过程来判定整系数方程是否存在整数解?”

    图1-1 阿兰·图灵

    图灵清楚地意识到,解决这一问题的关键在于对“机械化运算”的严

    格定义。考究希尔伯特的原意,这个词大概意味着“依照一定的有限的

    步骤,无需计算者的灵感就能完成的计算”,这在没有电子计算机的当

    时已经称得上既富想象力又不失准确的定义。但图灵的想法更为单纯,机械计算就是一台机器可以完成的计算。用今天的术语来说,机械计算的实质就是算法。

    用机器计算的想法并不新鲜。17世纪,德国哲学家戈特弗里德·莱

    布尼兹(Gottfried Leibniz)就设想过用机械计算来代替哲学家的思考;

    两个世纪之后,计算机事业的先驱,英国工程师查尔斯·巴比奇

    (Charles Babbage)和他的红颜知己阿达·洛瓦莱斯(Ada Lovelace)就

    已经设计出了远远超越时代的“分析机”的原型。但图灵需要的机器跟各

    位先驱设想的机器稍有不同:它必须足够简单,可以用一目了然的逻辑

    公式描述它的行为;它又必须足够复杂,有潜力完成任何机械能完成的

    计算。这是一种能产生极端复杂行为的简单机器,这类机器在日后也被

    用他的名字命名为图灵机,以纪念这位伟大的先驱者。

    1936年,图灵在伦敦权威的数学杂志上发表了划时代的重要论文

    《可计算数字及其在判断性问题中的应用》,首次提出了图灵机的概

    念。图灵机以天才的抽象性模拟了人脑的计算过程,将其还原为若干最

    基本的机械操作。对于人类而言,计算无非就是必备元素的集合:根据

    已有信息移动笔尖,在草稿纸上书写符号,指引书写的是一位数加法这

    些先验的规则,计算中涉及的进位操作则作为中间产物出现。在图灵机

    中,计算的每个必备元素都有其机械对应:笔被抽象为一个具有输入-

    输出功能的读写头,草稿纸被抽象为一条无限长度的纸带,先验的运算

    规则被抽象为读写头的内部状态转移表,一位数加法法则则被抽象为输

    入读写头的程序。

    在运算过程中,图灵机的纸带被划分为小格,每格中只能有0和1两

    种符号,读写头则可以处于不同的状态中。在总共的有限个状态中,有

    一个特殊的“停机”状态。读写头一旦处于停机状态,就会停止运作;否

    则就会不停地运转下去。整台图灵机的核心在于读写头的状态转移表,它决定着读写头在读入来自纸带的一格信息后,其内部状态如何变化并

    将什么信息输出到纸带的格子上。

    图灵机作为理论模型可谓“麻雀虽小五脏俱全”,它所能完成的任务绝不像它看起来那么简单。只要有足够长的纸带和足够好的耐心,今天

    的计算机能做的计算,一台精心设计的图灵机同样能够完成。足够长的

    纸带可以模拟出足够大的寄存器、内存和硬盘;而在中央处理器的电路

    中,虽然所有可能的状态极多,但其数目终究是有限的,也就超不出图

    灵机的功能范畴。只不过这台图灵机的状态转移表将会有着超乎寻常的

    大小,以及通常超乎寻常的复杂程度,每次“读写内存”时,读写头都需

    要花长得令人咋舌的时间在纸带上来回奔波。

    图灵机的出现本来是用于解决纯数学中的基础理论问题,可它却带

    来了意想不到的巨大收获:从理论上证明了研制通用数字计算机的可行

    性。图灵机的实际意义在于定义了数字计算机的计算能力:数字计算机

    能识别的语言属于递归可枚举的集合,它能计算的问题是部分递归函数

    的整数函数。

    图1-2 用乐高积木搭建的图灵机

    图灵机模型的成功丰富了图灵的想象力,他开始思考图灵机运算能

    力的极限。如果让图灵机拥有更多的纸带和对应的读写头,而纸带上也不再限定两种符号,而是三种四种甚至更多种符号,图灵机就可以更快

    地实现预定任务。但从本质上来说,“升级”后的图灵机能完成的任务,原来的图灵机也能完成,差别只是出现在所需的时间资源上。换言之,这种“升级”并没有给可计算性带来任何质变,无论升级与否,能计算的

    问题仍然能计算,不能计算的问题也依然不能。显然,制约数字计算机

    的瓶颈并不在于性能指标。而在运行中遵循的逻辑规律。

    自1940年起,图灵开始认真地思考机器是否能够具备类人的智能,而科学家敏锐的直觉使他马上意识到这个问题的关键其实并不在于如何

    打造强大的机器,而在于我们人类如何看待智能,即依据什么标准评价

    一台机器是否具备智能。于是在1950年,图灵发表了论文《计算机器与

    智能》,首次提出了对人工智能的评价准则,即大名鼎鼎的“图灵测

    试”。图灵测试是在测试者与被测试者(一个人和一台机器)隔开的情

    况下,由测试者通过一些装置向被测试者随意提问。如果经过5分钟的

    交流后,如果有超过30%的测试者不能区分出哪个是人、哪个是机器的

    回答,那么这台机器就通过了测试,并被认为具有人类水准的智能。图1-3 电影《模仿游戏》海报

    本质上说,图灵测试从行为主义的角度对智能进行了重新定义,它

    将智能等同于符号运算的智能表现,而忽略了实现这种符号智能表现的

    机器内涵。它将智能限定为对人类行为的模仿能力,而判断力、创造性

    等人类思想独有的特质则必然无法被纳入图灵测试的范畴。但无论图灵

    测试存在怎样的缺陷,它都是一项伟大的尝试。自此,人工智能具备了

    必要的理论基础,开始踏上科学舞台,并以其独特的魅力倾倒众生,带

    给人类关于自身、宇宙和未来的无尽思考。

    当然,相较计算机专业领域的成就,图灵更加广为人知的事迹是他

    在第二次世界大战中为盟军胜利做出的卓越贡献。在德军凭借其密码机

    恩尼格玛(Enigma)实现了军事情报的保密传送,进而在欧洲战场占据

    先机的情形下,图灵毅然应征勤王,正式到“政府编码与密码学院”服

    役。在剑桥的布雷契莱庄园,图灵领导着由200余位数学家组成的智力

    大军,成功破解了恩尼格玛,使英军在战场上迅速扭转局势,决定了第

    二次世界大战的最终走向。虽是一介书生,却堪敌百万雄兵。改编这段

    经历的电影《模仿游戏》于2015年上映,在大银幕上再现了图灵的传奇

    人生。

    然而,图灵对人类的贡献不仅在于破译了德军的密码,更在于破译

    了人类思维的一些重要秘密。冯诺伊曼结构

    ——踏平技术坎坷

    图灵奠定了计算机的理论基础,美国科学家约翰·冯诺依曼

    (Johnvon Neumann)则将图灵的理论物化成为实际的物理实体,成为

    了计算机硬件体系结构的奠基者。自第一台冯诺依曼计算机诞生以来,七十余年的时间悄然流逝,计算机的技术与性能在这期间都发生了翻天

    覆地的变化,不变的却是作为主流体系架构的冯诺依曼结构。

    1936年,当意气风发的图灵来到美国的普林斯顿大学攻读数学博士

    学位时,在位于同一个城市的普林斯顿高等研究院,同是不世出的天才

    的冯诺依曼当时正在该研究院主持数学研究。他对图灵的才华赞叹不

    已,极力邀请图灵毕业后做他的研究助手,只可惜图灵心系剑桥,一心

    要回到母校任教,这不禁令冯诺依曼颇为惋惜。可令人惋惜的远不止

    此,如果当年两位科学奇才能够强强联手、通力合作,必将给数学和计

    算机科学等学科带来革命性的变革,只可惜这种美好的景象只能存在于

    想象之中。

    冯诺伊曼于1903年出生于匈牙利布达佩斯的一个犹太人家庭,在量

    子力学、现代计算机、纯数学与应用数学、核武器和生化武器等诸多领

    域内都有杰出建树,是20世纪难得一见的百科全书式学术奇才。但在生

    涯早期,冯诺伊曼的运气实在欠佳。1931年,当冯诺依曼即将在希尔伯

    特世纪问题中第二问题上获得突破时,却突然得知奥地利逻辑学家库尔

    特·哥德尔(Kurt Godel)已经先他一步发表了哥德尔定理,着实令他郁

    闷不已。一气之下,冯诺伊曼转行研究量子力学。可就在他的量子力学

    研究即将结出硕果之际,另外一位天才物理学家英国人保罗·狄拉克(Paul Dirac)又一次抢了他的风头,出版了奠基性的巨著《量子力学

    原理》,这比冯诺依曼的《量子力学的数学基础》整整早了两年。

    图1-4 约翰·冯诺伊曼

    接连受到两次打击之后,冯诺依曼开始把部分注意力从基础数学转

    向了工程应用领域,出众的才华终于结成硕果。在美国,冯诺依曼积极

    参与美国军方武器研制的过程。自此,他把自己巨大热情和天赋投入到

    计算机研制和运用的事业中。

    经过长期的构思与讨论,冯诺依曼在火车上完成了离散变量自动电

    子计算机的设计。1945年6月30日,《关于离散变量自动电子计算机的

    草案》经油印复印,由莫尔学院限量发行,“冯诺依曼体系结构”就此诞

    生。诞生在列车上的卓越思想为电子计算机的逻辑结构设计奠定了基

    础,已成为计算机设计的基本原则。

    冯诺依曼体系结构采用二进制代替十进制,因而完成了计算机从模

    拟到数字的转化。在硬件上,冯诺伊曼体系结构包括五大部分:运算器、控制器、存储器、输入设备和输出设备,建立在硬件基础上的则

    是“存储程序”原理——使用同一个存储器,经由同一个总线传输,程序

    和数据统一存储同时在程序控制下自动工作。特别要指出的是,它的程

    序指令存储器和数据存储器是合并在一起的,程序指令存储地址和数据

    存储地址指向同一个存储器的不同物理位置。这是因为程序指令和数据

    都是用二进制码表示,且程序指令和被操作数据的地址又密切相关。

    冯诺伊曼体系结构给计算机的性能带来了革命性突破:最早的计算

    机器仅仅内置固定用途的专用程序,因而只能实现特定的功能。如果想

    要改变此机器的程序,就必须更改线路、调整结构甚至重新设计机器。

    由于当年的计算机器并非今日可编程的计算机,彼时所谓的“重写程

    序”很可能指的是纸笔设计程序步骤,接下来制订工程细节,再施工将

    机器的电路配线或结构改变。冯诺伊曼体系结构的“存储程序”理念则将

    计算机的专用性拓展为通用性。借由创造一组指令集结构,并将所谓的

    运算转化成一串程序指令的执行细节,将指令转化为一种特别形态的静

    态资料。一台储存程序型电脑可轻易改变其程序,并在程序的控制下改

    变其运算内容。同时,“存储程序”理念也允许程序执行时自我修改程序

    的运算内容。事实上,这一理念的设计动机之一就是让程序自行增加内

    容或改变程序指令的内存位置,因为早期的设计都要使用者手动修改。

    但随着索引暂存器与间接位置存取变成硬件结构的必备机制后,本功能

    就不如以往重要了。而程序自我修改这项特色也被现代程序设计所扬

    弃,因为它会造成理解与除错的难度,且现代中央处理器的管线与快取

    机制会让降低这种功能的效率。图1-5 冯诺伊曼设计的离散变量自动电子计算机草图

    虽然踏平了计算机物理实现的技术坎坷,但冯诺依曼对建造计算机

    并没有太大的兴趣,他和图灵一样,更感兴趣的是计算机能够做什么。

    自然而然,冯诺依曼注意到机器的自动复制问题,并对生物世界的复制

    进行了同样深入的思考和比较。自动计算机能制造出和本身复杂度相当

    或者更高的后代吗?冯诺依曼解释说:“低级的‘复杂性’可能是退化性

    的,即每一个可以制造其他自动机的自动机只能产生较不复杂的自动

    机。然而,当复杂性超过某一个特定水平之后,如果对合成现象进行适

    当安排,就会发生爆炸性的变化。换句话说,自动机的合成可以通过这

    样一种方式进行:每个自动机有可能产生比自身更为复杂、更具潜力的

    自动机。”

    可能连冯诺伊曼自己都没有意识到,他提出了一个重要的科学问

    题:能否创造出与人类智能具有相当水平的机器智能?但可惜的是,他

    的生命已经逐渐走向了尽头。1957年,53岁的冯诺伊曼因骨癌去世,而骨癌的病因很可能源自大名鼎鼎的曼哈顿计划的核辐射。这位美国核武

    器的奠基人,临终时刻却只能在军方代表的监视下度过。而人类智能与

    机器智能的关系这个未竟的话题,也只有留待后来者去探索了。

    最后,让我们用冯诺伊曼的一件轶事作为结束:

    在一次晚会上,女主人勇敢地向冯诺伊曼提出一道数学题:

    “相距一英里的两列火车在同一轨道上以每小时30英里的速度相向

    而行,这时栖在一列火车前面的一只苍蝇以每小时60英里的速度朝着另

    一列火车飞去,当它飞到另一列火车时又迅速地飞回来。它一直这样飞

    来飞去,直到两列火车不可避免地发生碰撞。请问这只苍蝇共飞了多少

    英里?”

    大多数人,尤其是懂一点数学的人,都会先计算出苍蝇每一来回飞

    行的路程,再把这些结果累加起来。这一方法虽然直观,但涉及到无穷

    级数求和的问题,因而费时费力。更聪明的算法是首先计算出两列火车

    要经过多长时间才能碰撞,再用这个时间乘以苍蝇的飞行速度,清楚又

    简洁。

    女主人话音刚落,冯诺依曼就脱口而出:“一英里。”

    “天啊!你这么快就算出来了,”女主人惊呼,“大多数数学家都没

    能看出这里面的技巧,而是用无穷级数去计算,就不知道要算多久。”

    “什么技巧?我也是用无穷级数算的。”冯诺依曼诧异地问。达特茅斯之野望

    ——人工智能横空出世

    当计算机的理论基础与工程技术全部成熟之后,人工智能的出现就

    可谓万事俱备,只欠东风。这一瓜熟蒂落的时刻的到来出现在1956年8

    月。彼时在美国达特茅斯学院(Dartmouth Col-lege)召开的学术会议,正可谓群贤毕至,少长咸集,汇聚了一大批未来学界的风云人物——包

    括1969年图灵奖获得者马文·闵斯基(Marvin Minsky)、1971年图灵奖

    获得者约翰·麦卡锡(John McCarthy)、1975年图灵奖获得者艾伦·纽埃

    尔(Allen Newell)、1975年图灵奖和1978年诺贝尔经济学奖获得者赫

    伯特·西蒙(Herbert Simon)在内的诸多科学家。在宁静的汉诺斯小

    镇,这些计算机大咖们正讨论着一个不食人间烟火的主题:用机器来模

    仿人类学习以及其他方面的智能。

    这次会议最重要的成果就是确定了会议所讨论的研究内容的名称

    ——由麦卡锡提出的人工智能(Artificial Intelligence),1956年也就成

    为了人工智能元年。正是在达特茅斯会议之后,人工智能进入了其发展

    的第一次黄金时期。

    人工智能大展身手的第一个学科是纯数学学科,而最早取得突破的

    领域是使用计算机程序代替人类进行自动推理来证明数学定理。20年后

    分享图灵奖的纽埃尔和西蒙在达特茅斯会议上展示了人类历史上首个人

    工智能程序“逻辑理论家(Logic Theo-rist),它不仅证明出《数学原

    理》——阿尔弗雷德·怀特海(Alfred Whitehead)和贝特兰·罗素

    (Bertrand Russell)的三卷本数理逻辑巨著——中前52个定理中的38

    个,还给出了一些比罗素本人的证明更加简洁的解法,这甚至让罗素本人兴奋不已。

    机器定理证明的前进一发而不可收。1958年,美籍华人王浩在

    IBM704计算机上证明了《数学原理》中有关命题演算部分的全部220条

    定理,同年IBM公司还研制出了平面几何的定理证明程序。1959年,纽

    埃尔和西蒙又开发出一种不依赖于具体领域的通用问题求解器(General

    Problem Solver)。1961年,约翰·霍普金斯大学的美国学者詹姆斯·斯拉

    格(James Slagle)发表了一个符号积分程序(Symobolic Automatic

    Integrator),它能完成初等微积分中的不定积分式的计算。1963

    年,“逻辑理论家”也进化到能够证明《数学原理》的全部前52条定理。

    “逻辑理论家”的出现在人工智能的历史上具有里程碑式的意义。这

    不仅因为它是第一个人工智能程序,更因为它颠覆了人们对计算机的印

    象:自1946年首台计算机诞生以来,计算机用来解决的都是诸如导弹弹

    道计算、核反应模拟这类具体数值的计算问题,抽象的、符号化的数学

    证明一直以来被认为超出了计算机的能力范围,“逻辑理论家”的出现显

    然颠覆了这固有的印象。其发明者西蒙曾评论道:“我们发明了具备抽

    象思考能力的程序……解释了合成的物质如何能够拥有人类的心智。”

    遗憾的是,在关于机器与心智的判断上,西蒙和其他年少轻狂的人

    工智能科学家们都过于乐观了。1965年,人工智能在机器定理证明领域

    遭遇了滑铁卢,计算机推了数十万步也无法证明两个连续函数之和仍是

    连续函数。最糟糕的事情则发生在机器翻译领域,自然语言的理解与处

    理确实是人工智能中的硬骨头,但计算机在自然语言理解与翻译过程中

    表现之差也的确超乎了研究者的想象,一个最典型的例子就是下面这个

    著名的英语句子:

    The spirit is willing but the flesh is weak.(心有余而力不足。)

    可当计算机把这句话翻译成俄语再翻译回英语时,得到的结果可谓

    风马牛不相及:The wine is good but the meet is spoiled.(酒是好的,肉变质了。)

    骨感的现实打碎了丰满的理想,不仅让已被过誉的人工智能走下神

    坛,也给研究者们的头浇了一盆冷水。痛定思痛,他们开始思考如何突

    破这一瓶颈,美国计算机科学家爱德华·费根鲍姆(Edward

    Feigenbaum)正是人工智能新路的开拓者。受哲学家弗朗西斯·培根

    (Francis Bacon)“知识就是力量”著名论断的指引,费根鲍姆将视线从

    抽象的通用证明方法转移到具体的专业知识上,强调人工智能必须在知

    识的指导下实现,这催生了人工智能新领域——专家系统(Expert

    System)的诞生。

    所谓的专家系统实质上是利用计算机基于已有的知识进行自动推

    理,从而从领域专家的角度解决实际问题。第一个实用的专家系统

    Dendral于1968年诞生,它可以根据质谱仪的数据推知物质的分子结

    构。在这个系统的影响下,各式各样的专家系统很快陆续涌现,形成了

    软件产业一个全新的分支:知识产业。1977年,在第五届国际人工智能

    大会上,费根鲍姆用术语“知识工程”为这个全新的领域命名。

    可惜好景不长,在专家系统或知识工程获得大量的实践经验之后,其弊端也开始逐渐显现:它们的运作需要从外界获得大量知识的输入,而这样的输入工作是极其费时费力的,这就是知识获取的瓶颈。这个全

    新的棘手问题虽然没有催生新的“费根鲍姆”,却给人工智能这个学科带

    来了革命性的改变:它逐渐分化成了几大不同的学派,沿着不同的路径

    继续发展。你方唱罢我登场

    ——三大流派竞风流

    尽管传统的人工智能研究者也在奋力挣扎,但是他们不得不承认,如果采用完全不同的世界观,即让知识通过自下而上的方式涌现,而不

    是让专家们自上而下地设计出来,那么机器学习的问题其实可以得到很

    好地解决。这就好比我们教育小孩子,传统人工智能好像填鸭式教学,而新的方法则是启发式教学:让孩子自己来学。

    事实上,在人工智能学术界,很早就有人提出过自下而上的涌现智

    能的方案,只不过它们从来没有引起大家的注意。一批人认为可以通过

    模拟大脑的结构(神经网络)来实现,而另一批人则认为可以从那些简

    单生物体与环境互动的模式中寻找答案。他们分别被称为连接学派和行

    为学派。与此相对,传统的人工智能则被统称为符号学派。自20世纪80

    年代到90年代的十年间,这三大学派形成了三足鼎立的局面。

    符号主义学派的代表人物是达特茅斯会议的与会者之一麦卡锡,而

    他对人工智能的理解也代表了符号主义学派的见解:

    “(人工智能)是关于如何制造智能机器,特别是智能的计算机程

    序的科学和工程。它与使用机器来理解人类智能密切相关,但人工智能

    的研究并不需要局限于生物学上可观察到的那些方法。”图1-6 约翰·麦卡锡

    符号主义学派认为人工智能源于数理逻辑,而数理逻辑才是智能行

    为的描述方式,用于机器定理证明的逻辑演绎系统事实上也继承了图灵

    测试的衣钵。该学派认为人类认知和思维的基本单元是符号,而认知过

    程就是对符号的逻辑运算,这样一来,人类抽象的逻辑思维就可以通过

    计算机中逻辑门的运算来模拟出来,进而实现机械化的人类认知,也就

    是人工智能。值得注意的是,麦卡锡着重强调人工智能的智能并不体现

    在真实的具体行为,而是体现在思维方式上,换言之,人类智能本身就

    能够被看成一类特殊的软件,至于运行它的硬件到底是碳基(人脑)还

    是硅基(计算机),反而没有那么重要了。

    发明“逻辑理论家”的纽埃尔和西蒙则把麦卡锡的观点进一步推演

    为“物理符号系统假说”。该假说认为,任何能够将某些物理模式或符号

    转化成其他模式或符号的系统都有可能产生智能的行为,符号主义学派

    之名也由此而来。这种物理符号可以是人脑神经网络上的电脉冲信号,当然也可以是通过各种逻辑门产生的高低电平。在“物理符号系统假

    说”的支持下,符号学派把焦点集中在人类智能的高级行为,如推理、规划、知识表示等方面。这些工作曾在某些特定领域取得了空前的成功。

    图1-7 沃森在《危险游戏》节目中

    1958年西蒙就曾预言,计算机会在10年内成为国际象棋世界冠军。

    这一天虽然在30年后才姗姗来迟,却也验证了西蒙的论断。2011年,由

    IBM公司制造的另一台超级计算机又创造了历史:在美国的电视节目

    《危险游戏(Jeopardy)》中,超级计算机沃森(Watson)通过处理自

    然语言线索,在涉及各个领域的知识问答上战胜了人类选手。沃森的胜

    利是人工智能界的一个标志性事件,它说明计算机不仅能在初始条件确

    定的棋盘博弈中获胜,在不存在初始条件与边界条件的开放世界中的表

    现同样不逊于人类,至少是在某些特定条件下。

    一言以蔽之,人机大战是符号主义学派人工智能的标志性应用,但

    这样的“战争”对IBM公司市值的意义远大于对人工智能发展的意义。经

    过短暂的辉煌之后,符号主义学派也逐渐走向式微。

    连接主义学派并不认为人工智能源于数理逻辑,也不认为智能的关

    键在于思维方式。这一学派把智能建立在神经生理学和认知科学的基础

    上,强调智能活动是由大量简单的单元通过复杂的相互连接后并行运行

    的结果。众所周知,人类的智慧主要来源于大脑的活动,而大脑则是由一万亿个神经元细胞通过错综复杂的通路相互连接形成的。连接主义学

    派认为神经元不仅是大脑神经系统的基本单元,更是行为反应的基本单

    元。思维过程是神经元的连接活动过程,是通过大量突触相互动态联系

    着的众多神经元协同作用来完成的。

    基于以上的思路,连接主义学派通过人工构建神经网络的方式来模

    拟人类智能——以工程技术手段模拟人脑神经系统的结构和功能为特

    征,通过大量的非线性并行处理器来模拟人脑中众多的神经元,用处理

    器的复杂连接关系来模拟人脑中众多神经元之间的突触行为。显然,相

    较符号主义学派,连接主义学派更看重智能赖以实现的“硬件”。这种方

    法在一定程度上可能实现了人脑形象思维的功能,即实现了人的右脑形

    象抽象思维功能的模拟。

    图1-8 弗兰克·罗森布拉特

    连接主义学派最主要的成果是人工神经网络技术。早在1943年,生

    理学家沃伦·麦卡洛克(Warren Mc Culloch)和数理逻辑学家沃尔特·匹

    兹(Walter Pitts)就提出的形式化神经元模型。他们提出神经元形式化的数学描述和网络的结构方法,为人工智能创造了一条用电子装置模仿

    人脑结构和功能的新途径。此后,神经网络被不断改进:美国心理学家

    弗兰克·罗森布拉特(Frank Rosenblatt)将反馈学习算法引入神经网络

    中,英国科学家杰夫瑞·辛顿(Geoffrey Hinton)则提出将神经网络由一

    层改进为多层,美国心理学家大卫·鲁梅尔哈特(David Rumelhart)等

    人提出了多层网络中的反向传播算法,使多层感知机的理论模型有所突

    破。

    神经网络最重要的改进出现在世纪之交。2000年,两位俄罗斯科学

    家弗拉基米尔·万普尼克(Vladimir Naumovich Vapnik)和阿列克谢·切

    沃内基斯(Alexey Yakovlevich Chervonenkis)提出了统计学习理论,并

    进一步提出了支持向量机模型。虽然统计学习在各个领域中都得到了广

    泛应用,但连接主义学派依然面临着难以解决的问题:科学家们虽然会

    向大脑学习如何构造神经网络模型,却根本不清楚这些神经网络究竟是

    如何工作的。智能仍然躲在黑盒子里,深藏不露。

    行为主义学派的出发点与符号主义学派和连接主义学派完全不同,他们认为人工智能源于由美国数学家诺伯特·维纳(Nor-bert Wiener)建

    立的全新学科——控制论。控制论把神经系统的工作原理与信息理论、控制理论、逻辑以及计算机联系起来,其研究重点落脚于模拟人在控制

    过程中的智能行为和作用,如对自寻优、自适应、自镇定、自组织和自

    学习等控制论系统的研究。正是上述研究播下了智能控制和智能机器人

    的种子,并在20世纪80年代催生了智能控制和智能机器人系统。

    在智能方面,行为主义学派并没有把关注焦点放在人类身上,而是

    投向了昆虫。昆虫虽然比人类低级得多,但其智能水平仍令计算机难以

    望其项背。从个体角度而言,昆虫可以灵活地摆动自己的身体行走,还

    能够快速躲避捕食者的攻击;从群体角度而言,大量昆虫聚集在一起时

    能表现出非凡的群体智能,还能形成严密的社会性组织方式。从更长的

    时间尺度看,生物体对环境的适应还会迫使生物进化,从而实现从简单到复杂、从低等到高等的跃迁。

    行为主义学派的机械代表作首推美国麻省理工学院教授罗德尼·布

    鲁克斯(Rodney Brooks)设计的六足行走机器人,它被视为“控制论动

    物”,是一个基于感知-动作模式模拟昆虫行为的控制系统。它们看起来

    的智能事实上并不来源于自上而下的复杂设计,而是来源于自下而上的

    与环境的互动。这就是行为主义学派所倡导的理念。另一方面,行为主

    义学派的算法代表则是美国科学家约翰·霍兰(John Holland)提出的遗

    传算法和美国心理学家詹姆斯·肯尼迪(James Kennedy)提出的粒子群

    优化算法。遗传算法对进化中的自然选择现象进行了高度抽象,通过变

    异和选择实现目标函数的最优化;粒子群优化算法则通过模拟动物的群

    体行为解决最优化问题。

    行为主义智能的终极形式是由彼时就职于洛斯阿拉莫斯国家实验室

    的克里斯托弗·兰顿(Christopher Langton)提出的人工生命。所谓的生

    命或者智能实际上是从微观单元的相互作用而产生的宏观属性,这些微

    观单元既然可以是蛋白质分子,为什么不能是二进制符号形成的代码段

    呢?人工生命的研究思路正是通过模拟的形式在计算机数码世界中产生

    类似现实世界的涌现。图1-9 罗德尼·布鲁克斯

    可现在看来,行为学派带来的问题似乎比提供的解决方法还多。究

    竟在什么情况下能够发生涌现?如何设计底层规则使得系统能够以我们

    希望的方式涌现?这些问题尚未出现让人满意的答案,高级的智能也完

    全没有如期待般自然涌现,甚至没有丝毫涌现的迹象。技术的十字路口

    ——人工智能谁领风骚

    人工智能三大学派从不同的角度理解、定义和构造智能,事实上,它们之间还存在着很多微妙的差异和联系。

    符号主义学派认为计算机是处理思维符号的系统,致力于用数理逻

    辑方法利用计算机形式化地表达世界。尽管按照这种方式来工作的专家

    系统已经在表达科学思维的某些方面达到了人类专家的水平,但这并不

    能制造具有自我意识的“人工智能”系统。因为从根本上来说万能的逻辑

    推理体系是不可能存在的,要计算机或智能机器完全模拟人脑的活动几

    乎是不可能完成的工作。

    认知神经学表明人脑并非以线性顺序进行思维,而是以复杂的并行

    操作来处理感觉信息,连接主义学派正是据此主张从神经生物学的角度

    来模拟动物或人的大脑及各种感觉器官的结构和功能,力图寻找一种可

    以描述自然神经系统的方法,建立神经生理学模型。但人脑是一个异常

    复杂的组织,目前对人脑结构和活动机制的了解只是冰山一角,要建立

    一个与人类大脑相近的神经网络目前看来还是天方夜谭。

    与前两者不同,行为主义学派从生物进化学的角度来研究人类的智

    能,认为智能是生物体对外界复杂环境的动态适应,人工智能只有从复

    制动物的智能开始,才能最终复制人的智能。基于以上观点,他们放弃

    了对智能的抽象描述的计算引擎,而是通过来自环境世界的情景、感应

    器内的信号转换以及机器人和环境的相互作用完成智能的构建。但是这

    一基于行为主义的感知——动作模式只能获得特定目标的行为,而在意

    向性、创造性方面还有难以克服的困难。三大学派分别从高、中、低三个层次来模拟智能,但现实中的智能

    系统显然没有这么简单。如何将三大学派的观点融会贯通,将会是人工

    智能的下一个突破口。第二章 安能辨我人或机

    ——通用人工智能理论

    1970年,美国图兰大学的心理学家小戈登·盖洛普(Gordon Gallup

    Jr.)进行了著名的镜子实验(The Mirror Test),这一实验的用意在于测

    试动物的自我意识——是否能像人一样在镜子中分辨自己。盖洛普在黑

    猩猩的脸上画了小红点并观察它们如何照镜子。实验结果表明,和人的

    经验一样,照了镜子的黑猩猩立刻意识到“自己”的脸上出现了奇怪的红

    点,抓耳挠腮想要抹掉这些不速之客。而当实验对象换成猕猴——一种

    比黑猩猩低等不少的灵长类动物,结果就变得大相径庭:哪怕是照上一

    个月的镜子,猕猴也完全不会意识到镜子里就是它们“自己”。它们忙着

    每天和镜子里的“新朋友”打闹玩耍,根本无暇理会那些奇怪的小红点究

    竟是什么鬼。

    1977年,美国人比利·米利根(Billy Milligan)因持械抢劫和校园强

    奸被起诉。但在法庭上,米利根的辩护律师证明了自己的代理人是多重

    人格症患者,作案时的比利事实上是另外的两个“自我”控制了他的身体

    和行为——事实上,米利根身体中潜藏的人格多达24个!其中既有南斯

    拉夫的共产党员,也有虔诚的犹太教信徒;既有打闷棍套白狼的小古惑

    仔,也有幼儿园年纪的英国小女孩。这番辩护成功说服了陪审团,米利

    根被无罪释放并进入精神病院治疗,他成为历史上第一个因为多重人格

    而免罪的人。米利根的不幸经历因纪实文学《24个比利》和《比利战

    争》而广为人知,根据他的经历改编的电影《分裂(Split)》也于2017

    年上映。在“我是谁”这个看似再简单不过的问题上,米利根的经历给出了另外一种回答,自反映意识能力在内的那种元思维之“心”看起来并非

    理所当然。那么问题来了,机器是否能够具备类似的自我意识呢?机器能思考吗?

    ——智能的本质在哪里

    从前文的探讨中可以看出,对人工智能的思考与评价在很大程度上

    依赖于对“智能”的定义。因此,在讨论人工智能的前景之前,有必要对

    人类智能的本质进行一些阐释。但思维与智能这个问题本身恐怕用千页

    篇幅也不能尽述,在此只做挂一漏万的解读。

    人类智能的本质是什么?这是认知科学的基本任务,也是基础科学

    面临的四大难题中最难解决的一个。根据自底向上的分析方法,人类智

    能的本质在很大程度上取决于“什么是认知基本单元”。目前的理论和实

    验结果表明,要分析认知基本单元是什么,合理的方法并非物理的推理

    或数学的分析,而是设计合理的认知科学实验。已有大量实验结果显

    示,从被认知的客体角度来看,认知基本单元是知觉组织形成的“知觉

    物体”。例如当人的视觉系统注意一只飞鸟的时候,它所注意的是整只

    鸟(知觉物体),而不是鸟的某个特性(形状、大小、位置等),尽管

    飞行时鸟的特性在时刻变化,但它作为同一个知觉物体的整体性却始终

    保持不变。用学院腔的话说,知觉物体概念的直觉定义正是在形状、位

    置等特征性质改变下保持不变的同一性。

    知觉物体概念的形成具备其特殊的物理基础。脑神经科学研究表

    明,人脑由大约千亿个神经细胞及亿亿个神经突触组成,这些神经细胞

    及其突触构成一个庞大的生物神经网络。每个神经细胞通过突触与其他

    神经细胞进行连接与信息传递。当通过突触所接收到的信号强度超过某

    个阈值时,神经细胞便会进入激活状态,并通过突触向上层神经细胞发

    送激活信号。人类所有与意识及智能有关的活动,都是通过特定区域神经细胞间的相互激活与协同工作而实现的。

    作为一个复杂的多级系统,大脑思维功能源于功能的逐级整合:各

    神经元的功能被整合为神经网络的功能,各神经网络的功能被整合为神

    经回路的功能,各神经回路的功能最终被整合为大脑的思维功能。巧妙

    的是,在逐级整合的过程中,每一个层次上实现的都是“1+1>2”的效

    果,在较高层次上产生了较低层次的每个子系统都不具备的“突生性质

    或功能”。这就意味着思维问题不能用还原论的方法来解决,即不能靠

    发现单个细胞的结构和物质分子来解决,揭示出能把大量神经元组装成

    一个功能系统的设计原理,才是问题的实质所在。

    大脑利用定型的电信号处理它接受和分析的所有信息,外部世界的

    种种刺激都被量化为或弱或强的生物电流。有充分证据表明,感觉神经

    元仅对其敏感的事物属性作出反应。从信息科学的角度理解,这意味着

    感觉神经信号就是神经元对其敏感属性的编码。外部事物属性一般通过

    光波、声波、电波等模拟物理信息作为输入刺激人类的生物传感器,而

    感觉神经元输出的感觉编码是一种可符号化的心理信息。因此,感觉属

    性检测是一种将数值信息转化为符号信息的定性操作过程。更直白地

    说,感觉神经元实质上是将其敏感的事物属性从包含它们的物理刺激中

    抽取出来,并转化为该属性感觉映象的定性检测器。

    感觉将事物属性转化为其感觉编码,不仅让大脑意识到该事物具有

    其检测的属性,还在事物属性集与人脑感觉记忆集之间建立起对应关

    系,所以感觉属性检测又叫感觉定性映射。如果说大脑是靠逐级整合各

    级神经网络的功能才形成其思维功能的话,那么由于感觉神经元的输出

    是各种简单属性的感觉映象,其高层神经网络整合的对象就只能是各种

    简单属性的感觉映象。于是,大脑怎样从这些简单属性的感觉映象中将

    对象的心理表象或记忆模式整合出来,并利用它们进行各种思维操作,就成了思维与智能研究中的关键问题。

    神经网络整合事物各简单属性的感觉映象,得到的是该事物的整合属性的感觉映象。比如大脑整合苹果的颜色属性(如红色)和形状属性

    (如圆形)的感觉映象的结果,应得到该苹果又红又圆这个整合属性的

    感觉映象。反过来,事物某整合属性的感觉映象又应该是该整合属性的

    各个因子属性的感觉映象的整合,苹果又红又圆这个整合属性的感觉映

    象,应该是红和圆这两个因子属性的感觉映象的整合。因此,在感觉映

    射下,事物属性结构与其感觉映象结构之间应保持不变,也就是说,感

    觉映射应该是事物属性集与其感觉记忆集之间的一个同态映射。通常所

    谓人脑认知结构是外部世界(结构)的反映,只是感觉同态的一种通俗

    说法而已。反过来,若感觉映射的确是一同映射的话,那么,事物属性

    的感觉映象结构与该事物的属性结构之间就应该是一致的。

    根据感觉同态原理,事物性质(或质的定性)由此而产生的模糊

    性、非单调性和矛盾性等各种不确定性,不仅要同态地映射到人的感知

    记忆集中,而且,要在人的各种思维活动中反映出来。也就是说,所谓

    人类思维与智能的各种不确定性,实质上只是事物性质(或质的定性)

    的各种不确定性的表现而已。反过来,人类自身感觉阈限,或定性基准

    也要产生各种变化,感觉输出的各种不确定性感觉映象,又被整合为更

    高级的、带有各种不确定性的整合属性、关系和结构的记忆模式,人们

    利用这些记忆模式作其思维的素材,其思维当然会产生各种不确定性。

    根据感觉同态原理,思维中的这些不确定性是可转化到相应的事物属性

    集中来加以同态地讨论的,因而,也是可由属性坐标系加以数学表达

    的。

    如果要对以上枯燥难懂的文字加以形象的梳理,就是这样一幅图

    景:人类自从他能被叫做人的那一天起就具备识别物体的能力了——这

    是剑齿虎,那是长毛象,手里的是棍子。其实进入我们眼睛的不过是不

    同波长不同数量的光子,是我们的视网膜和大脑的视觉皮层把这些光子

    进一步加工为不同的属性——这就是信息抽象的过程,作为加工工具的

    神经网络则部分来自于祖先的遗传,部分来自于自身的进化——最后在

    我们的脑中能够找到见过的动物的脑细胞,形成了对事物的抽象。在不同的情境下,祖先会发出或表示危险或表示安全或表示高兴或表示悲伤

    的叫声,语言正是对大脑对不同叫声的抽象结果。有了语言,人类的交

    流就更加自如了。有时候要表达语言也说不清楚的意思时,就只好拿棍

    子在地上画画,图画最终抽象成了文字,使人类能够更全面更持久地传

    递各种经验。

    大脑的抽象功能把人类和动物区分开来,帮助人类学会了耕种、取

    火、制作武器等技能,建立了文明,又抽象出文学、数学、物理、化学

    等分门别类的学科,这些学科反过来有帮助人类创造出今天的社会,科

    学知识只是人类知识的很小的部分,它只是自然规律信息的投影。人类

    进步的过程,也是创造抽象信息和使用抽象信息的能力逐步提高的过

    程。

    只有以对人脑的物理性认识作为基础,探讨智能才是水到渠成。在

    自然界中,智能并非人类的专利,绝大部分动物、甚至某些植物都具备

    智能,只不过其水准远远低于人类的水平。但这种差异只是数量上的差

    异,究其本质,自然界的智能都体现为对信息的抽象,蚁群、蜂群、鱼

    群等群体性动物都表现出集群智能特征,其本质也无外乎是信息的抽象

    与共享。

    归根到底,人脑进行的是复杂度超高的抽象计算,其智能化程度绝

    非现有计算机的水平可以比拟。眼睛、耳朵等感知器官与注意、意识等

    高级认知功能之间有高强度的交互作用,而不仅仅是实现信息获取这么

    简单的功能。人工智能的目标并不是模拟出和人脑功能毫无二致的计算

    机——那还要人脑做什么呢?更重要的恐怕还是实现互补的功能。计算

    机和人脑对信息的表征有着本质的区别,实现计算的架构也完全不同,能够获取的样本数也有差别。从第一台计算机诞生到现在不过区区七十

    年的历史,可人类却是经历了千万年的进化才达到今天的水平,因此要

    求计算机算法具有与人的智能类似的准确率和推广能力也无异于水中捞

    月、雾里摘花。但问题恰恰在于计算机服务的对象是人,实际需求也是辅助人来实

    现类似的认知功能,用户不可避免地将计算结果与人的认知过程作比

    较,并用人的处理结果来评价计算机算法的优劣。不过,估计用户不会

    满足于一个计算机识别系统只能正确地识别一类物体,他们会很自然地

    要求设计的系统能够像人一样处理视听觉信息,这正是推动计算机像人

    一样工作的动力。熟悉的麻木

    ——人类智能有多强大

    世界顶级的计算机科学家高德纳(Donald Knuth)曾经如此评价人

    工智能:“人工智能已经在几乎所有需要思考的领域超过了人类,但是

    在那些人类和其他动物不需要思考就能完成的事情上,还差得很

    远。”人类的心智活动运行得如此流畅,以至于我们把它当作理所当

    然,却对它的精巧与美妙浑然不觉。直到运用科学与技术尝试解释其运

    作原理时,其复杂精密的设计才让我们后知后觉地赞叹不已。正是人工

    智能的发展在一次次地提醒我们:人类能进化到今天的样子是多么伟大

    的成就。

    人类的大脑就像是一台杂乱地拼装在一起的器件,虽然低效、笨

    拙,兼之深奥难解,却还能正常工作。无论从哪个层面看,大脑都是个

    设计拙劣、效率低下的团块,可又出人意料地运作良好。大脑不是一台

    快速且万能的超级计算机,它不是一个天才在白纸上即兴完成的杰作。

    大脑是一座独一无二的大厦,沉淀着数百万年的进化历史。大脑很久以

    前对某个问题形成了特定的解决方法,经年累月一直使用它,或者加以

    改进用于其他用途,或者严格限制其改变。用分子学家弗朗索瓦·雅各

    布(Francois Jacob)的话说来就是:进化是个修补匠,而不是工程师。

    可正是修补匠的缝缝补补,补出了宇宙中最令人叹为观止的智能奇迹。

    对形状的判断与分类是人类的基本技能,这一点在文字的处理上尤

    为明显。任何一个计算机操作系统中都有字体册,里面存储着百余种字

    体,每一种都代表着文字或字母不同的显示方式。但无论字体如何变

    化,一个识字的人都不会把汉字“土”认成“士”,也不会把英文字母“i”认成“j”——这背后隐藏的正是惊人的抽象能力,只不过因为人类已经掌握

    而显得稀松平常。与此形成鲜明对比的是,即使计算机的形状辨认能力

    在今天已经得到长足进步,却依然难望人类的项背。

    对这一事实最有力的说明就是验证码的应用:几乎所有的网站都要

    求你在注册时辨认并输入一串扭曲的字符,其目的在于证明服务器另一

    端的你是人类而非机器。这串简单的字符却有着冗长的学名:全自动区

    分计算机和人类的图灵测试,英文缩写为CAPTCHA——也就是通常所

    说的验证码。验证码的出现恰是人类智能绝妙的体现:识字的小朋友都

    能完成的任务,迄今为止却没有任何计算机算法能够做到。

    在验证码中,字母和数字被嵌入杂乱无章的场景之下,灰度也被仔

    细调整,人为加入的各种噪声则让画面看起来更随机;为了防止根据频

    域特征识别,场景中还会加入线条等元素以破坏图像的大尺度特征。虽

    然从统计特性上看,噪声和目标字符没有差别,但是这些元素组合在一

    起显然导致了质变。这质变对人而言无关痛痒——在这类复杂的场景中

    正确地分割和识别出物体是小菜一碟。虽然场景中的颜色、形状、朝向

    千变万化,各不相同,互相遮挡程度很深,甚至有些物体的背景都在运

    动,但这些特点丝毫不会影响识别的准确性,视觉功能正常的人做这类

    任务的准确率几乎是100%,这突出地体现出人类视觉和计算机视觉的

    之间的差异。这一技术目前被互联网网站广泛应用,着实是对计算机视

    觉无声的嘲讽。图2-1 典型的验证码图片

    隐含在验证码背后的是关于人类认知的迷人话题:当物体的视觉信

    息经过视网膜和外膝体之后,会在注意环路的调节和控制下被初级和高

    级视觉皮层完成逐级的表征和加工过程,从而引导大脑发现物体自身醒

    目的特征和需要提前注意的特征。如果对面是一张人脸,在感知、区分

    和识别的过程中,我们会先后实现如下的判断“是人脸还是桌子?”“这

    个人我认识吗?他叫什么?在哪工作?”等过程,之后,记忆系统还会

    进一步完成一系列的高级加工:再认和回忆——某时某刻我在某地见过

    他、语义判断——他的名字有什么特殊的含义、以及情绪加工——这个

    人看起来绝非善类,我不喜欢他。

    所有这些认知都可以归结为一个高度抽象化的加工模型。在这个模

    型中,信息的加工具有从简单到复杂的层次化特征,在每个层次上都有

    相应的表征,提取从线段朝向、简单特征组合到复杂特征等不同的特

    征,感知、识别等认知加工也是由这些不同表征的组合完成的。表征和

    加工的物质基础是神经元,大量神经元构成的群体的同步活动是实现表

    征和加工的生理学机制。单个神经元只能表征极为简单的信息,但当它

    们通过神经电活动有节律的同步震荡整合在一起时,复杂的功能就诞生

    了。从信息科学的角度看,整个加工过程的实现可以理解为复杂的多次

    特征提取过程,提取的特征从简单到复杂,多次组合,甚至“概念”这种十分抽象的特征也可以被提取。

    但如果人类的认知过程只是提取当前信息的特征并进行分类这么简

    单的话,它可不值得如此大费笔墨——认知还和注意、情绪等系统有着

    极强的交互作用,这些功能和认知密切相关。人的情绪对认知的影响绝

    非中晚期才启动的高级过程,它的作用远比我们想象的多。焦虑症、抑

    郁症等情感疾病的患者与正常人相比,对负性情绪信息有注意偏向,对

    带有负面色彩的情绪刺激更容易关注,这种注意偏向发生在视觉感知的

    早期阶段,其机理至今还笼罩在迷雾之中。

    从生理角度上讲,认知过程中不同的加工是由大脑的不同区域实现

    的,这些区域并非各自为战,大部分情况下会协同工作。这种类似多重

    备份的机制的优势在于大脑的部分区域出现功能丧失时,不会导致识别

    功能完全瘫痪。在神经外科中经常出现令人称奇的病例:一位小脑完全

    缺失的患者竟然可以长期存活,她的不正常表现仅仅是走路不稳和轻微

    的发音不清;另一位患者大脑中连接两个最重要的语言区的弓状束纤维

    受到肿瘤压迫,这让她无法说出呈现在眼前的钥匙的名称,但是能明确

    描述出它是用来开门的,还亲手操作用法,情急脱口而出说这是瓶起

    子。某些脑区的缺失不但不会影响存活,甚至对正常生活的影响也远非

    我们想象中那般严重,这不得不说是进化的奇迹。

    我们作为人类足以引以为傲的还不止于此。我们能够自由地控制四

    肢和身体,这同样是工程学上的卓越成就。人类的双手可称得上终极进

    化版瑞士军刀,在大脑的精确控制下能够执行几十种相当于卡盘、握

    把、夹具和钩子的功能。双腿亦是如此:这是真正意义上的全路况交通

    工具,它帮助我们征服了地球上从陡峭的山坡到崎岖的深谷的各个角

    落。站立、行走、奔跑、跳跃——在大脑的支配下双腿可以完成无比复

    杂的动作。目前,售价几千元的扫地机器人既爬不出地毯的边缘,也越

    不过最矮的门槛。要知道这些机器人是以轮子来驱动的,对于包含人工

    关节的机器义腿的控制比对轮子的控制还要复杂百倍。相比于对身体的控制,更难以解释、也更让人着迷的是思维的自主

    性。人类心目中的常识实际上是个极端复杂的推论系统,更是个意义深

    远的科学问题。人或动物某一时刻只能处在一个位置、人的身体与思维

    是一个整体、人死则不能复生……认识这些看似理所应当的事实对人类

    而言荒谬可笑,可最强大的计算机也未必知道这些常识:他们没有日常

    生活中的体验、没有来自其他人的教导、也没有关于事实基本构成的核

    心概念。

    人类智能与人工智能之间可以通过信息处理的桥梁联系起来,两者

    都是通过对信息的处理来组织事物。人类智能的运行模式可视为一个信

    息系统:来自外界的输入信息会刺激大脑产生反应,大脑根据逻辑等先

    验规则对信息进行处理,处理得到的输出再反馈给外界。但相比于基于

    计算机的人工智能,人类智能还有无数奥秘有待破解,这也给人工智能

    的发展路径笼罩上层层迷雾。学习、归纳与推理

    ——这才是人工智能

    创造出像你我一样具有自我意识和思考的人工智能无疑是世界上最

    具挑战性的问题之一,新的存在总是想窥探造物主的秘密。事实上,这

    也是达特茅斯会议的初心所在。可眼下,主流人工智能界已变得越发谨

    慎,目标也开始转移到针对某类特殊问题、特殊功能、特殊领域设计算

    法问题求解。在坚持传统的研究者看来,人工智能早已进入“脑死亡”的

    状态。

    单纯的信息提取对计算机而言可能只是小菜一碟,但人类经过了千

    万年的进化,要复制这久经考验而形成的智能水准现在看来还是路漫漫

    其修远兮。计算机和人脑的运行规则显然是两个相差甚远的范式。目的

    在于提取信息的人类智能本就不求在精神世界里客观准确地再现物理世

    界,其终极目标是“生存”:用最合理的代价,获取最大的生存优势。

    正因如此,物理世界中的不同信息在精神世界中具有不同的权重也

    就理所当然。体积相对较小的手指、舌头等重点区域占据着感觉运动中

    枢里的大部分皮层,在视觉上也只有对应中央视野的视网膜具有较高的

    空间分辨率和颜色分辨率,而更广泛的外周视野只对外界物体的突变敏

    感。人类正是通过知觉组织的选择性注意机制,直接感知输入信号中的

    大尺度不变性质,而忽略大量的局部的小尺度特征,其生态意义就在于

    对知觉对象进行信息抽提。

    选择性注意机制的生理学基础是模块化的层次结构和分布式表征。

    功能模块化假设认为,大脑是由结构和功能相对独立、专司特定认知功

    能的多个脑区组成。这些模块组成复杂的层次结构,通过层次间的传递和反馈实现对输入信号的主动调节。大量脑成像的研究实验也支持了这

    一假设,特别是视觉研究发现了非常详细而复杂的功能模块及其层次结

    构。另一方面,分布式表征的假说认为,认知功能的神经机制是相对大

    范围的分布式脑状态,而不是特定脑区的激活与否。

    当然,人脑不仅仅是个针对刺激产生反应的简单系统,其内生性活

    动的强度甚至高于反应性活动,人脑在所谓的静息状态下的耗氧量与任

    务状态下相比差别很小这一事实也验证了以上观点。遗憾的是,由于内

    生性活动无论是定性观察还是定量观察都非常困难,导致其被长期排除

    在认知科学的研究主流之外。随着脑成像技术的发展,功能连接成为分

    析静息态大脑自发活动的有力工具。特别是默认网络的发现,创立了强

    调内生性活动的全新脑功能成像研究范式。默认网络被认为涉及警觉状

    态、自我意识、注意调控以及学习记忆等心理认知过程,已被广泛应用

    于社会认知、自我、注意、学习、发育、衰老机制的研究,有力推动了

    各种脑生物指标的完善和脑疾病的治疗,这些疾病包括阿尔兹海默病、帕金森病、抑郁症、精神分裂症和自闭症等等。

    相比之下,计算机在很多事情上都显示出其“笨拙”。在安静的环境

    中,语音识别的准确率已经可以达到90%,但是在存在方言、噪音、远

    场等问题的实际环境下,其准确率就会不忍直视。最常见的例子就是鸡

    尾酒问题。在酒会上,即使周围十分嘈杂,有许多人同时交谈,人仍然

    能够顺利地分辨出和我交谈的那个人的声音,机器的语音识别算法在这

    样的场景下则基本等同于聋子。

    如何从狭窄的特定领域智能迈向更通用的智能?这里的“通用”意味

    着机器能在没有编码特定领域知识的情况下解决不同种类的问题。作为

    人类,我们希望机器能够像我们一样进行判断与决策,而非限于在规则

    的框架内给出解释性的回答。通用智能应当具备处理多种类型的任务和

    适应未曾预料的情形的能力,例如,它无疑可以实现“正义”和“公平”这

    样的概念:事实上,人工智能对法律系统的影响已经近在眼前。当莱特兄弟和其他先驱者停止模仿鸟类并开始学习空气动力学时,对人工飞行的追求才开始走向成功,对通用智能的追求过程同样如此。

    人工智能不需要将重点放到模仿大脑的生物过程上,而应该尝试理解大

    脑所处理的问题。可以合理地估计,人类使用了任意数量的技术进行学

    习,而不管学习在生物学层面上的实现方式。对通用人工智能来说也是

    一样:它将使用穷举搜索树,它将使用基于规则的系统,它也将使用模

    式匹配。但不管使用什么,它在处事方式上应该像个人类,而非仅仅说

    出一些似是而非的“人话”。

    通用人工智能(Artificial General Intelligence)由德国计算机科学家

    马库斯·胡特(Marcus Hutter)提出,他对这一概念给出了精当的定义:

    智能是主体在各种各样的纷繁复杂的环境中实现目标的能力。

    把这一概念翻译成计算机能够理解的语言,得到的结果就是通用归

    纳模型和序贯决策理论的结合。通用归纳将归纳转化为预测,而预测的

    关键是对数据的建模或编码表示,预测的精度依赖于对模式的掌握程

    度。诸如分类、类比、联想、泛化等与智能相关的要素,都可以被广义

    地理解为对模式的追求,对计算机而言则是找寻最优编码。但找寻最优

    编码的过程无法通过解析方式执行,只能通过试错不断逼近。

    试错的实质就是序贯决策理论,它研究的是在客观概率分布已知但

    具体状态不确定的动态环境中,主体如何寻求最大化期望效用。它从初

    始状态开始,每个时刻根据所观察到的状态和以前状态的记录,依照已

    知的概率分布,从一组可行方案中选用一个能够获得最大化期望效用的

    最优方案,接着观察下一步实际出现的状态,然后再作出新的最优决

    策,如此反复进行。但最关键的问题是,如果这种客观的概率分布未知

    怎么办?

    建立了未知概率分布下的决策体系,就建立了通用人工智能,这也

    正是“算法概率”的宗旨与要义。算法概率的含义比较复杂,对这一概念的探讨已超出了本书的范围。但简而言之,其核心是用可控的主观概率

    代替未知的客观概率,不同的主观概率则来源于对描述客观世界的不同

    算法的反向推演。如此一来,归纳是一个不断试错的学习过程,算法概

    率使得我们可以根据经验不断修正信念、逼近真实的客观概率,再借助

    序贯决策理论帮助我们追逐效用,能够自动适应各种可能环境的超级智

    能体就横空出世了。

    通用智能在指明人工智能发展方向的同时,也给人工智能的水平设

    置了上界。如果现实世界没有那么纷繁复杂——或许现实世界真的没有

    想象中那么纷繁复杂,一个简单的幂律分布就能在各种尺度上各种环境

    中支配着各种看上去不相干的现象;或着某些复杂的模式可能是存在

    的,但某些可计算但异常复杂的模式可能不过是我们数学上的抽象构

    造,未必真的都会被物理例示——那么,算法概率就可以迅速地收敛到

    真实的现实世界,某个可计算且足够强大能适应足够复杂的环境的智能

    体也可能不难找到;但如果现实世界确实包含高复杂度的各种可能的模

    式,那么,简单的数学理论就无能为力了。

    长久以来,通用智能概念的创始人胡特如一个特立的苦行僧,在熙

    熙攘攘的人工智能领域踽踽独行。在这个各路算法大行其道的狂欢时

    代,对终极问题的思辨与追寻反而显得格格不入。不完备性定理

    ——哥德尔的“诅咒”

    谈论通用人工智能,哥德尔不完备性定理就是个不可回避的问题。

    这一定理由奥地利数学家库哥德尔提出——就是气走冯诺伊曼那位老

    兄,是对希尔伯特提出的23大难题中第二个的回应。遗憾的是,哥德尔

    发现的不完备性定理对第二问题给出了否定性的答案,颠覆了数理逻辑

    大厦的基础,一度大大动摇了人们对于公理化方法和数学,甚至于整个

    科学的信心。当提问者希尔伯特得知哥德尔的研究结果后,哀叹“哥廷

    根数学已死”;撰写《数学原理》的罗素得知哥德尔的研究结果后,心

    灰意冷转而研究哲学,并于1950年以另一部巨著《西方哲学史》摘取诺

    贝尔文学奖,真可谓塞翁失马焉知非福。

    虽然意义重大,但不完备性定理的表述却令人惊讶地简洁,第一不

    完备性定理内容为:

    在任何包含初等数论的形式系统中,都必定存在一个不可判定命

    题。

    为了通俗地解释不完备性定理,我们先来看一句话:

    这句话是错的。

    这句话到底是对还是错呢?如果它是对的,得到的结论就和判断本

    身相悖;如果它是错的,又证明它代表的实际判断是对的。无论如何,这句话带来的都是自相矛盾的结果。这种逻辑上自相矛盾的论断就是悖

    论。由于这句话中涉及了对自身的指代,这类悖论也因而被称为自指悖

    论。自指悖论的出现挑战了非黑即白的世界观,也为不完备性定理的证实埋下了草绳灰线。

    不完备性定理针对的是数学的公理化系统。在希尔伯特眼里,公理

    化系统应该同时具备两种优雅的特性:一致性和完备性。一致性指公理

    化系统中不存在矛盾;完备性指所有真命题都可以由公理化系统证实。

    如此一来,公理化系统,乃至整个数学就成为一个自洽的整体,要想获

    得真知,只要在这个超级的公理化系统中不停地推导就可以了。遗憾的

    是,希尔伯特理想中坚不可摧的数学城堡终究只是不堪一击的盐沙之

    基,它的命门就在于对自指的迷惑:

    本数学定理不可以被证明。

    这条自指语句与前文的悖论有异曲同工之妙。首先,这个数学命题

    所讨论的对象不是别的,恰恰是它自己。“本数学命题”就是对整个命题

    的指代。其次,该命题给出了一个逻辑判断,即这条命题是不可以被证

    明的。这个句子本身似乎并没有那么邪恶,然而只要我们一开始用逻辑

    的头脑解读它,它就变成了一句魔咒,直接摧毁了希尔伯特的完备一致

    性猜想。图2-2 库尔特·哥德尔及其签名

    根据逻辑排中律,这条数学命题非真即假。如果这个数学命题是真

    命题,并且根据它自己的论述,它不能被证明。于是,我们得到了一条

    真理,但却不能被我们的数学公理化系统所证明,因此,希尔伯特要求

    的完备性不能得到保证。如果这个数学命题是假命题,这意味着“本数

    学命题不可以被证明”这个命题是可以被证明的。于是,从公理出发,我们能够得到“本数学命题不可以被证明”这一命题。而按照假定,“本

    数学命题可以被证明”是真理,所以根据完备性,它也必然是系统中的

    定理。于是,正命题和反命题同时都是系统中的定理,一致性遭到了破

    坏。

    综上所述,我们可以断言:对于一个具备自指能力的数学公理化系

    统,一致性和完备性不能兼得。这便是第二不完备性定理。当然,在哥

    德尔的原始论文中,所有的表述都是使用严格的数学语言来表达的。不完备性定理的应用不仅仅限于纯数学领域,它对一切抽象性问题

    的分析都产生了深远的影响,自然也包括了计算机科学和人工智能的发

    展。人类之所以会把实现人工智能的期望寄托在计算机身上,其基础在

    于“认知的本质是计算”这一著名论断。截至目前,所有的计算机都未能

    超出图灵机的范畴,也就必须遵循数理逻辑定义的规则。从“认知即计

    算”的角度出发,基于计算机的人工智能如果想要达到近似人类的思维

    能力,也必须建立起“自我”的概念,这无疑会导致自指的出现,也将成

    为不完备性定理的活靶子:如果计算机能在运算中制造出一个代表自身

    的符号,那么哥德尔制造悖论的方式就可以在计算机中造出不可证实也

    不可证伪的飘渺仙境。据此,基于图灵机理论模型的计算机绝无可能拥

    有代表自我的符号,也就绝无可能达到人类智能的水平。毕竟人类既能

    执行逻辑思维又能超越逻辑思维(谈恋爱时讲逻辑?那你注定要孤独一

    生哟!),而直到今天,一切试图以纯逻辑来描述世界的尝试都以失败

    告终。

    利用不完备性定理预测人工智能的前景并非民间科学家的自说自

    话,主流学界也早已发声表态。达特茅斯会议召开后仅仅5年,美国哲

    学家约翰·卢卡斯(John Lucas)便发表论文《心、机器、哥德尔》,提

    出了著名的“卢卡斯论证”,以激烈的言辞试图用哥德尔定理证明计算机

    的智能水平无法达到人类水准:“依我看,哥德尔定理证明了机械论是

    错误的,也就是说,心不能解释成机器。”因为,“无论我们造出多么复

    杂的机器,只要它是机器,就将对应于一个形式系统,接着就能找到一

    个在该系统内不可证的公式而使之受到哥德尔构造不可判定命题那种程

    序的打击,机器不能把这个公式作为定理推导出来,但是人心却能看出

    它是真的。因此这台机器不是心的一个恰当模型。人们总想制造心的一

    种机械模型,即从本质上是‘死’的模型,而心是‘活’的,它总能比任何

    形式的、僵死的系统干得好。”

    1989年,卢卡斯的牛津同侪,英国数学家和物理学家罗杰·彭罗斯

    (Roger Penrose)在风靡全球的著作《皇帝新脑——计算机、心智和物理定律》中发展了卢卡斯论证,以大量笔墨试图基于不完备性定理推导

    出“人心超过计算机”的结论,被称为“对哥德尔定理令人吃惊的强应

    用”,在学界引发了广泛争议。彭罗斯的一个强硬论证是:根据哥德尔

    定理可以“像在数学中所做的那样,严格证明”数学真理的概念不可能包

    容于形式主义的框架之中,数学真理是某种超越纯粹形式主义的东西,人类判断数学真理的过程是超越任何算法的。这是因为,意识是我们赖

    以理解数学真理的关键,这种意识使我们能够借直觉的洞察力“看出”某

    些在数学形式系统中不能证明的数学命题的真理性,而这种意识是不能

    被形式化的,它必定是非算法的。因此人工智能绝不可能超越人类心

    智,所谓强人工智能不过是专家所钟爱的,与皇帝的新衣一般无二的一

    副“皇帝新脑”而已。

    计算机是人类为了自身目的而设计制造的,这种制造者与被制造者

    之间的强关系将人置于一个面对面地统治机器的绝对优越地位,这种地

    位究竟是一种社会学意义上的优越,还是计算机和人的智能的本质特性

    所决定的?是像哥德尔断定的,存在与物质相分离的心能超越任何计算

    机去发现和证明某些数学定理;抑或如彭罗斯断言,人心具有一种特殊

    的能力,这种能力是建立在迄今未予发现的某些物理学规律的基础上,而且人心能超越任何计算机实现非算法的运算?这些都是我们需要深入

    探讨的问题。

    人工智能,甚至整个认知理论正在面临着一场研究纲领的变革。在

    哥德尔不完备性定理的阴影下,基于图灵可计算概念的“认知可计算主

    义”研究纲领已经显示出其极大的局限。如果以“认知的算法不可完全

    性”为核心的研究纲领取而代之,人类就必将探索新的非图灵机概念来

    尝试解决人工智能更深层的问题,以摆脱在理论和实践上的困境。当

    然,解决这些问题除了靠哲学思辩,更需要依赖于科学的进展和精细的

    逻辑应用的研究。解决人类智能的极限和人工智能的极限问题,除了与

    绕不开的哥德尔不完备性定理有关外,还需要对大脑和计算机更精细的

    模型做更大胆的研究,而且还需要将学习、问题求解、对策理论与实数论、逼近论、概率论和几何学知识结合在一起,探索其如何对问题的解

    起实质性作用。第三章 从深蓝到阿尔法狗

    ——人工智能的技术演进

    多年以后,面对韩国九段李世石(Lee Sedol)与阿尔法狗(Alpha

    Go)的厮杀,加里·卡斯帕罗夫(Garry Kasparov)将会回想起,与深蓝

    (Deep Blue)对弈的那个遥远的下午。彼时的对手是一个庞大的超级

    计算机,记下变化多端的开局,以固定的逻辑决策应对中局,穷极所有

    可能性筛选残局。人工智能新生伊始,许多概念尚且是空中楼阁,计算

    机能够战胜优秀的人类围棋选手的想法不啻于天方夜谭。

    2017年开年,人工智能企业Deep Mind公司又搞了个大新闻:继阿

    尔法狗以压倒性的优势4:1战胜围棋世界冠军李世石后,大师(Master)

    ——升级版的阿尔法狗——在网络上又实现了对各路围棋大师的60连

    胜!这一结果令人大跌眼镜:因为在20年前,虽然升级版的深蓝同样战

    胜了来自俄罗斯的国际象棋特级大师卡斯帕罗夫,可即使最乐观的人工

    智能研究者也不敢断言,未来有一天计算机能横扫人类的围棋精英们。取胜之匙

    ——深蓝的“算”与阿尔法狗的“想”

    棋类游戏的核心在于根据棋局判断下一手的最优下法,深蓝通过穷

    举的方法在国际象棋的棋局中解决了这个问题。在64格的国际象棋棋盘

    上,深蓝的运算能力决定了它能算出12手棋之后的局面下的最优解,而

    身为人类棋手执牛耳者的卡斯帕罗夫最多只能算出10手棋,这多出来的

    2手棋就会成为左右战局的关键因素。可在围棋棋盘上,可以落子的点

    数达到了361个——别说12手棋,就是6手棋的运算量都已经接近于天文

    数字!这使得计算机相对于人脑的运算优势变得微不足道,走出优于人

    类棋手的妙手的概率也微乎其微,这也是为什么计算机会在围棋领域被

    看衰。

    深蓝的核心在于”算”:利用强大的计算资源来优化目标函数。深蓝

    本身就是一套专用于国际象棋的硬件,大部分逻辑规则是以特定的象棋

    芯片电路实现,辅以较少量负责调度与实现高阶功能的软件代码。其算

    法的核心则是暴力穷举:生成所有可能的下法,然后执行尽可能深的搜

    索,并不断对局面进行评估,尝试找出最佳下法。图3-1 1997年超级计算机深蓝对阵国际象棋特级大师卡斯帕罗夫

    在深蓝的象棋芯片上,国际象棋的走棋规则被以硬件电路的方式嵌

    入到逻辑门阵列之中,不同棋子处于不同位置时的分值由软件预先计算

    好后也会写入硬件。对下法的判断则源于国际象棋的固有逻辑。在国际

    象棋中,最核心的逻辑就是子力价值的对比:马或者象等效于三个兵;

    车等效于五个兵;后等效于九个兵;王的价值是无穷大,因为失去王就

    输了棋局。但在评价棋盘状态时,深蓝会考虑更多的局面细节:如果同

    一方的兵在象前面,它就会限制象的移动,导致象本身的价值降低;如

    果同一个兵可以通过捕获一个敌方兵来打开车的行进路线,这个兵就并

    不会严重损害车的价值。这类对棋局细节的刻画有助于深蓝对局面做出

    更准确的判断。

    深蓝的软件来源于与硬件协同工作的的专门设计。软件部分负责调

    度最多32个象棋芯片并行搜索,以及对大范围规划的局面进行软件评

    估。软件中还包含了从数十万局棋中抽取出来的开局书,少子条件下的

    残局数据库,以及同时代的美国特级大师乔尔·本杰明(Joel Benjamin)

    针对卡斯帕罗夫行棋风格而对以上开局与残局下法的专门优化。因此,深蓝背后蕴藏着的是古往今来各路高手的象棋智慧,说卡斯帕罗夫是光明顶上独战六大门派高手的张无忌,其实也不为过。

    图3-2 2016年人工智能系统阿尔法狗对阵围棋世界冠军李世石

    可是,用穷举的方式来下围棋呢?

    围棋的棋盘状态远比国际象棋复杂,以穷举法进行最优落子策略的

    推演无异于痴人说梦。事实上,顶级的围棋棋手更多地依赖模糊的直觉

    来评判特定的棋盘状态的好坏。但理性的推演与感性的判断之间似乎存

    在着不可逾越的巨大鸿沟,对于计算机程序而言,依赖直觉是不可能的

    事情。因此并没有显而易见的方式来将国际象棋领域的成功复制到围棋

    上——直到阿尔法狗的横空出世。图3-3 国际象棋计算机深蓝

    图3-4 人工智能系统阿尔法狗

    阿尔法狗的核心则在于“想”。与专用硬件深蓝不同,阿尔法狗是一

    套能够运行在通用硬件之上的纯软件程序。它汲取了人类棋手海量的棋

    谱数据,并依赖人工神经网络(Artificial Neural Network)和深度学习

    (Deep Learning)从这些数据中学会了预测人类棋手在任意的棋盘状态

    下走子的概率,模拟了以人类棋手的思维方式对棋局进行思考的过程。

    阿尔法狗算法的形成可以分为三个阶段:

    第一阶段——拜师学艺:阿尔法狗根据彼此无关的盘面信息模仿

    专家棋手的走法,通过海量盘面数据训练出一个监督式策略网络,这个

    策略网络随后就能以超过50%的精度预测人类专家的落子;第二阶段——左右互搏:阿尔法狗将过往训练迭代中的策略网络

    与当前的策略网络对弈,将对弈过程用于自我强化训练,对现有策略网

    络的改进使阿尔法狗对弈当时最强的开源围棋软件Pachi的胜率达到

    85%;

    第三阶段——融会贯通:阿尔法狗在自我对弈中随机生成新的训

    练数据,用以训练局面价值网络。价值网络、策略网络和蒙特卡洛树搜

    索相融合,用于预测和评估棋局未来可能的发展方式。

    拜师学艺完成后,阿尔法狗就可以中规中矩地下一盘棋了。在某种

    意义上,这是一种意识流的下法,胜负不在算法的考虑范围之内。而左

    右互搏的目的就是引入胜负:让策略网络和自身进行对弈,来获得一个

    给定的棋盘状态是否为胜利的概率估计,以此作为对棋盘状态的评估方

    式。最后,通过将评估方式和对下法的搜索进行融会贯通,选择那个给

    出最高棋盘状态评价的下法。不难看出,阿尔法狗并非从一个基于很多

    围棋细节知识的评价系统开始,而是让神经网络和机器学习扮演核心角

    色。它使用了两个各司其职的神经网络:策略网络和价值网络。策略网

    络的作用是选择下一步的走法,可以降低搜索的广度;价值网络的作用

    是评估盘面优劣,可以降低搜索的深度。通过连续不断做出微小改进的

    方式构建策略网络和价值网络,阿尔法狗就形成了类似于人类棋手所谓

    的关于不同棋盘状态的直觉的效果(当然也使用了搜索和优化的思

    想)。

    策略网络本质上是个监督式学习(Supervised Learning)的过程,通过学习千万数量级的职业棋手棋谱来训练落子位置的预测模型。它有

    着专一的目标:完全不考虑输赢的概念,只关注预测对手落子的精确

    性。在2016年1月刊发在著名科学期刊《自然》的封面文章中,阿尔法

    狗预测对手落子位置的正确率是57%,这个数据在和李世石对弈时显然

    又得到了相当的提升。阿尔法狗的策略网络与类似的传统算法区别有

    二:一是左右互搏的引入:通过基础版本策略网络和进阶版本策略网络之间的对弈,让基础网络快速习得高手的落子策略,形成一个比进阶更

    进阶的策略网络,这个新形成的策略网络又被用来进一步提高原始的进

    阶版本策略网络……经过两千万次“青出于蓝而胜于蓝”的循环修正后,策略网络才达到现在的水准;二是局面判断的设计:选择下一步的走法

    时,策略网络的备选并非棋盘上的所有361个点,而是通过卷积核先排

    除掉一些最优解出现概率较小的区域,再在剩余的区域中找出可能的最

    佳位置,这样就可以排除一些有意为之的干扰棋路对整体局势的影响。

    这种机制固然会降低落子预测的精确度,却能使计算速度得到大幅度的

    提升。

    如果说策略网络关注的核心是“知彼”,价值网络关注的就是“知

    己”:在当前的局势下,我下在哪个位置能得到最大的胜算。对胜算的

    估计既与当前的局面有关,也与向下预测的步数有关:能够预测的步数

    越多,得到的结果就越精确,计算量也会越庞大。在围棋中,求解精确

    解显然是不可能的,因而价值网络只能求出近似解,通过卷积神经网络

    来计算出卷积核范围内的平均胜率,最终的走法则留给蒙特卡洛树搜索

    (Monte Carlo Tree Search)来处理。此外,价值网络的训练不是通过对

    现有棋谱的学习,而是让两个阿尔法狗互相对弈——两者实力的接近确

    保了棋局的胜负完全由落子决定,而非一些其他的先验因素。这让阿尔

    法狗快速地累积出正确的评价样本,也解决了评价机制的难题。价值网

    络和策略网络的结合让阿尔法狗“知己知彼”,其百战百胜自然也在情理

    之中。

    但这并不意味着阿尔法狗无懈可击:在人机大战的第四局中,李世

    石的一招妙手(白78手)让阿尔法狗掉进了陷阱。阿尔法狗完全没有意

    识到这步神仙棋有什么作用,直到几个回合之后才如梦初醒,然而为时

    已晚。在此之后,阿尔法狗开始频频下出不可理喻的走法,直到投子认

    负。

    李世石的妙手妙就妙在刺中了阿尔法狗的盲区:它并不认为棋会下到这里。可能阿尔法狗认为这步棋并非最优甚至并非次优,可能在于自

    身对弈的过程中这样的棋路从未出现……种种原因让它没有在深度学习

    过程中习得这个走法。所以一旦出现这种局面,阿尔法狗开始不知如何

    是好,在盲目应对的过程中丧失主动。劣势后频出的昏招事实上也是蒙

    特卡洛树搜索的固有结果:自知败局已定的阿尔法狗只能通过这样的招

    数,寄望于凭借李世石的失误扭转局面。好在李世石没有上当,漂亮地

    赢下这一局,也赢下全世界的满堂彩。

    虽然仍有改进的余地,但与深蓝的区别正是阿尔法狗的突破之处:

    早期的计算机就已经被用来搜索优化已有的函数的方式,深蓝的特点仅

    仅在于搜索的目标是优化尽管复杂但是形式大多数由已有的国际象棋知

    识表达的函数,其思想却与人工智能早期的多数程序并无二致。更令人

    诧异的是,在整个算法中,除了“获胜”这个概念,阿尔法狗对于围棋规

    则一无所知,更遑论定式等高级围棋的专门概念。尤其在第一阶段的训

    练中,完全基于简单的盘面信息就能够达到相当可观的预测效果。这也

    是阿尔法狗和深蓝的本质区别:同是战胜了棋类世界冠军,深蓝仍然是

    专注于国际象棋的、以暴力穷举为基础的特定用途人工智能;阿尔法狗

    是几乎没有特定领域知识的、基于机器学习的、高度通用的人工智能。

    这一区别决定了深蓝只是一个象征性的里程碑,而阿尔法狗则更具实用

    价值。

    围棋似乎也并不是人工智能与人类对抗的终结。美国卡内基·梅隆

    大学的两位计算机科学家创造了会玩德州扑克(Texas Hold'em)的人工

    智能李贝特斯(Libratus),而李贝特斯则在2017年1月的匹兹堡大河赌

    场的无限制德州扑克游戏中大获全胜——以180万筹码的优势战胜了四

    位人类高手。虽然这一人机对战的关注度与影响力远不及围棋对弈,可

    它表现出的却是人工智能的另外一面。扑克游戏的声誉来自于艺术更甚

    于科学,对于计算机来说,这也是不同于各种棋类的独特挑战:非完美

    信息博弈需要某种人类的狡诈——例如欺骗对手并且能够察觉到对方在

    欺骗你——这通常被认为是计算机的阿喀琉斯之踵。在扑克游戏中执行均衡战略的关键是打出最强和最有潜力的一手牌的同时还保持不可琢

    磨,看起来李贝特斯在这方面也是个好手。

    人工智能与人类的下一次对抗在哪里?我们能做的,只有拭目以

    待。最初的一步

    ——模式识别

    通过计算机来实现人工智能,最初的路径是模式识别(Pat-tern

    Recognition)。模式识别的黄金时代出现在20世纪80年代,它强调的是

    如何让计算机程序去做一些看起来很“智能”的事情,就像是有个人躲在

    盒子里伪装成机器的样子。模式识别技术的主要作用在于发现、区分、检测或提取存在于我们周围世界中的模式,这依赖于怎么从观察数据中

    进行信息提取和表示,结合背景知识,最终得到新知识和概念的形式化

    内容。学习的结果是得到一个用于表示模式之间相互依赖的形式化知

    识,以此更好地理解与解释观察数据。当模式的概念被形式化后,它就

    可以被应用于相同领域未知的用例,包括新的信息,例如对一个新对象

    进行标识,且对于新用例的处理应当遵从应用于原来用例的相同的演绎

    过程。

    具体来说,人们在观察事物或现象的时候,常常要寻找它与其他事

    物或现象的不同之处,并根据一定的目的把各个相似的但又不完全相同

    的事物或现象组成一类。字符识别就是这其中最典型的一个例子。在不

    同的字体中,数字“3”可以有不同的写法,但所有的写法都属于同一类

    别。更为重要的是,即使对于以前从未出现过的“3”的写法,识字的人

    凭借直觉和智慧也能够把它划分到“3”所属的这一类别之中,而不是错

    误地辨别为“8”或着“B”。“模式”的概念正是源于人脑的这种抽象思维能

    力:只要认识这个集合中的有限数量的事物或现象,就可以识别属于这

    个集合的任意多的事物或现象。为了强调从一些个别的事物或现象推断

    出事物或现象的总体性质,这些个别的事物或现象就被称作模式。模式识别意在学习人类(或其他生物系统)在所处环境中发现、区

    别和找出特征从而标识出观察结果的本领,这属于认知科学的范畴,是

    生理学家、心理学家、生物学家和神经生理学家的工作范围;同时也专

    注于开发和评价模仿或辅助人类识别模式能力的系统,这是数学家、信

    息学专家和计算机科学家的用武之地。模式识别中工程的观点则是试图

    建立模拟生物识别能力的系统,这方面的研究已经取得了系统的成果,也给人工智能的发展打下了良好的理论基础。

    早期的计算机模式识别研究将重点放在数学模型的建立上。1958

    年,供职于美国康奈尔航天实验室的心理学家罗森布拉特(神经网络的

    先驱者,参见第一章)提出了一种模拟人脑进行识别的简化数学模型

    ——感知机,初步实现了通过给定类别的各个样本对识别系统进行训

    练,使系统在学习完毕后具有对其他未知类别的模式进行正确分类的能

    力。1974年,供职于美国普渡大学的华裔计算机科学家傅京孙出版了专

    著《句法模式识别及其应用》,系统梳理了模式识别在自然语言处理中

    的成果。就职于美国加州理工学院的科学家约翰·霍甫菲尔德(John

    Hopfield)则于1982年和1984年分别发表了两篇重要论文,深刻揭示出

    人工神经元网络所具有的联想存储和计算能力,进一步推动了模式识别

    的研究工作,从而形成了模式识别的人工神经元网络方法的新的学科方

    向,也将神经网络这一新的研究议题推到了聚光灯下。

    模式识别的流程可以概括如下:首先要通过各种传感器把被研究对

    象的各种物理变量转换为计算机可以识别的数值或符号的集合,这个集

    合被称为模式空间,相应的数值或符号则被称为信号。对模式空间的必

    要处理——去除噪声的干扰、排除不相关的信号——是抽取有效识别信

    息的基础。在数据的识别中,模式空间中的信号经过特征量的提取和变

    换后,被映射到新的空间上,这个新的空间就是特征空间。与原始的模

    式空间不同的是,特征空间之中的元素是相互独立的,任意两两之间都

    不存在相关性,这显然构成了描述信号的一组基本元素,这个过程也可

    以被看作特征抽象的过程。模型匹配正是借助特征空间上的基本元素进行的:通过对输入的对象进行同样的空间转换,模式识别系统会输出对

    象所属的类型或者是模型数据库中与对象最相似的模型编号。为了提升

    模式识别的精确性,往往需要加入一些预先设定的规则以对可能产生的

    错误进行修正,或通过引入限制条件大大缩小待识别模式在模型库中的

    搜索空间,以减少匹配计算量。

    目前,模式识别技术最成功的实际应用,非光学字符识别(Optical

    Character Recognition)莫属。光学字符识别本质上是利用光学设备去捕

    获图像,并从中读取出出现的文字。未来的办公室中很可能出现这样的

    景象:只要使用手机等具备拍照功能的智能设备对会议白板进行拍照,系统便能自动识别出照片中的讨论内容,分检出相关人员的后续工作,并将待办事项自动存放到各自的电子日历中。正是光学字符识别的出

    现,使这样的场景成为可能。

    光学字符识别技术的发展经历了超过半个世纪的摸爬滚打。1965年

    的纽约世界博览会上,IBM公司展出了其研发的光学字符识别产品——

    IBMl287.这款元老产品只能识别特定印刷字体的数字、英文字母及部分

    符号,在当时却已经是了不起的成就。IBM公司的研发成果在日本被迅

    速跟进:数年之后,日本东芝公司和NEC公司先后研制出手写体邮政编

    码识别的信函自动分拣系统,并广泛应用在邮政系统中,让信函的自动

    分拣率达到92%。1983年,东芝公司又发布了印刷体日文汉字的识别系

    统——OCRV595,其识别率高达99.5%。20世纪90年代后,平板扫描仪

    的应用与普及又成为光学字符识别技术走向下一个高潮的东风:谷歌公

    司雄心勃勃的数字图书馆计划正是由此而来。

    光学字符识别中的技术难点在于字符的辨认与区分,其技术手段包

    括模式匹配识别法和特征提取识别法。模式匹配识别法是将数字图像中

    的字符与已有数据库中的标准字符相比较,以找到最相似的匹配,寻找

    的过程通常是以迭代方式进行的。特征提取识别法则是将每个字符分解

    为若干独立的字符特征,比如汉字笔划中的横、竖、撇、捺、点等等,再将这些特征与待识别的字符进行匹配,根据不同的笔划凑出识别结

    果。

    模式识别的核心意义在于分类——也就是所谓“模式”的区分,而每

    个模式的区别又由其与众不同的特征决定。可数据的种类千变万化,要

    发掘出隐藏在表象下的特征绝非易事。20世纪90年代,研究者开始意识

    到数据才是更有效地构建模式识别算法的方法——这正是机器学习的思

    想。事实也渐渐证明,机器在没有人类的干预下学习得到的结果远比各

    位专家纯手工设定的分类规则要好得多。这也催生了更多人工智能领域

    的先进技术。大脑的人工模拟

    ——神经网络

    前文介绍了人工智能发展过程中产生的三大学术流派,眼下风头正

    劲的正是其中的连接主义学派,阿尔法狗的横空出世也正是拜连接主义

    学派的神经网络所赐。

    人工神经网络听起来玄之又玄,既然神经网络属于生理学和认知科

    学的范畴,那人工神经网络岂不是要人为合成一套神经系统?其实不

    然,人工神经网络只是一组数学模型,只不过这一数学模型被用于模拟

    人类神经系统的架构与功能,所以才被仿生地命名为人工神经网络。

    关于神经网络的作用,在国外的问答网站Quora上有非常通俗的描

    述:如果你去买芒果,但又不知道什么样的芒果最好吃,最简单的方法

    就是每一个都亲口尝一尝,吃完就知道个头大、颜色深的比较好吃,再

    买的时候选这种就行了。要是把这个方法套用到计算机上,让计算

    机“尝”一遍所有芒果,它就能够总结出关于芒果好吃判断标准的一套规

    律。有了这套规律后,一旦把新芒果的特征输入计算机,计算机就能够

    根据已有规则判断出芒果的好坏,岂不美哉!

    根据规则来判断芒果的好坏这个问题,属于模式识别的范畴,而人

    工神经网络正是解决模式识别问题的主流方法。

    人的大脑是自然界中最强大的神经网络。打过麻将的读者可能会知

    道“审牌”的说法:久筑长城的牌坛老手不用看牌,单凭触摸麻将牌上的

    纹路就能知道这张牌到底是五条还是八万。当然,从没接触过麻将牌的

    小孩子无论如何也摸不出到底是哪一张,打牌较少的新手要达到较高的审牌成功率也并非易事,只有长期摸牌打牌的人才具备这种牌桌上的高

    级技能。在这个现象中,我们可以一窥人工神经网络的工作原理。

    要解释人工神经网络的原理,不妨把审牌的问题做个简化:分辨出

    一张牌到底是九条还是一饼。这两张牌的区别明显:九条的牌面只包含

    竖纹,而一饼的牌面只包含圆圈纹,每一种牌面的特征都是一种独特的

    模式。作为人类的我们可以通过手指的触觉识别不同的纹理,但计算机

    显然没有这么聪明——它只认识数学模型。既然如此,我们就可以把不

    同的纹理抽象化成一个平面直角坐标系,它的横轴代表竖纹的强度,纵

    轴代表圆圈纹的强度。这样一来,九条和一饼就分别落在两个坐标轴

    上。沿着这个坐标系的对角线画一条线,就可以轻松地把九条和一饼区

    分开来。再来一张牌,经过量化后落在这条线上面的就是一饼,下面的

    就是九条。

    这条线起到的就是模式识别中分类器的作用,在人工神经网络中则

    对应神经元的概念。神经元的实质就是分类器,它把由所有输入信号构

    成的空间一分为二,两边的元素分别属于不同的类。最简单的分类器就

    是二维空间上的直线,这一直线扩展到三维空间上就是一个平面,扩展

    到四维空间上就是一个超平面……依此类推。这样一个线性函数虽然实

    现简单,但其功能也有限——只能用来区分九条与一饼,用来区分八条

    和二饼、七条和三饼的话,就可能会出现判断错误的情况。要是再把纹

    路结构更加复杂的一万到九万引入判定的话,这样的线性模型就不再适

    用了。

    汉字的笔划有横有竖还有弧,所以万牌从牌面上讲,不是简单的单

    一纹路,而是横纹、竖纹和弧形纹的有机组合。这样的纹路扩展从数学

    上讲,实质上是将模式的特征复杂化,模式之间的区别精细化,一条直

    线就没有办法将不同模式精确地区分开来。一个直观的改进方法是将线

    性的神经元改造为非线性的神经元,非线性的曲线或者曲面显然比直线

    或平面具有更高的区分度。但不同地域的麻将规则不同,北方的麻将里会有红中发财白板,四川的麻将里有东西南北风,江浙的麻将里有梅兰

    竹菊。要进一步区分出这些复杂的牌面,在平面上只画一条线就不够

    了,只有把平面划分成更多的区域才能实现精确的判定,这对应的就是

    多层神经网络。

    通常的审牌过程正是多层神经网络的处理方式:审牌时我们会先摸

    出大致的纹路,判定这张牌到底是简单的条牌或饼牌,还是更加复杂的

    万牌或花牌。经过这一步的分类后,再来具体判定是四条还是五饼,是

    三万还是南风。多层神经网络的工作原理也是这样:下层神经元的输出

    是上层神经元的输入,不同层次的神经网络使用不同的神经元来分辨输

    入信号的不同特征,经过多层神经网络处理后得到的不同区域还可以进

    一步进行交、并、异或等逻辑运算。这样一来,多层神经网络就可以表

    示出更复杂的空间划分,得到更精确的判定效果,其代价则是更高的计

    算复杂度。

    图3-5 神经网络识别图像示意图

    如前文所示,通过与打麻将中审牌的对比,我们意在说明人工神经

    网络的作用是分类。实际的人工智能当然不能用于判断麻将牌,但在垃

    圾邮件识别,循证医学的临床路径、自然语言处理、图像识别等领域中

    都有广泛的应用。在这些应用中,人工神经网络都需要使用海量的分类

    器。审牌的能力可以通过长期的试错与反馈习得,但人工神经网络中的大量参数又如何来确定呢?

    说到这里就不得不涉及数学知识了。人工神经网络的数学本质是一

    种特殊的有向图,这个有向图可以由一层或多层节点组成,每一层的节

    点都通过有向弧指向上一层的节点,每一条有向弧都用一个权值来描

    述,同一层的节点之间则并无连接。输入层的节点按照有向弧的权值进

    行函数变换,变换后的输出传递给第二层的节点作为输入;第二层的节

    点如此这般执行同样的操作,其输出再作为第三层的输出。最后在输出

    层,哪个节点的数值最大,输入的信号就被划分在哪一类。

    在此过程中,如何保证对输入信号的分类符合我们的要求呢?这就

    需要人为地对人工神经网络进行训练。所谓训练,就是通过负反馈的方

    式动态调整人工神经网络中权值的过程,目的就是使网络参数尽可能的

    与真实的模型逼近。既然我们希望网络的分类结果尽可能地接近真正情

    形,就可以通过比较网络当前的输出和真实值,再根据两者的差异情况

    来更新每一层的权重值来降低偏差。如果人工神经网络的预测值偏高,就调整权值使输出变低,反之则调整权值使输出变高。就这样不断调

    整,直到偏差小于某个特定的阈值为止,这时我们就认为人工神经网络

    达到了精确的分类。具体的训练方法则是反向传播算法:最开始输入层

    输入特征向量,网络层层计算获得输出,输出层发现输出和正确的类号

    不一样,这时它就让最后一层神经元进行参数调整,最后一层神经元不

    仅自己调整参数,还会勒令连接它的倒数第二层神经元调整,层层往回

    退着调整。经过调整的网络会在样本上继续测试,如果输出还是老分

    错,那就继续来一轮回退调整,直到网络输出满意为止。

    人工神经网络的质量由三个要素决定:网络结构和节点函数,训练

    数据的质量和完备性、训练方法的合理性。其中网络结构类型和节点函

    数是预先设计的,训练数据和训练方法则是由外部导入的。网络结构和

    节点函数是决定人工神经网络质量的首要因素,运行机制符合实际事物

    的内在机理的网络才是高质量的人工神经网络。另一方面,如果训练数据不典型、不充分、不完备,训练方法不适当,也会影响人工神经网络

    的输出精度。计算机的无师自通

    ——深度学习

    人工神经网络的本质是通过计算机算法来模仿、简化和抽象人脑的

    若干基本特性。起起落落之后,人工神经网络产业如今迎来了第三个高

    速发展时期,正是得益于深度学习的研究。

    深度学习又被称为深度神经网络(Deep Neural Network),其基础

    也是人工神经网络,“深度”则体现在神经网络的层数以及每一层的节点

    数量。传统的神经网络最多只包含3个层次,结构的简单决定了它能够

    运行的功能相当有限。再次基础上,深度学习采用由包括输入层、多个

    隐藏层和输出层组成的多层网络,这种分层结构是深度学习模仿人类大

    脑的核心结构特征。

    要介绍深度学习的原理,就不得不说些题外话。1981年,两位神经

    生物学家大卫·胡贝尔(David Hubel)和托尔斯滕·魏泽尔(Torsten

    Wiesel)连同另一位科学家分享了诺贝尔医学奖,他们二位的主要贡献

    在于“发现了视觉系统的信息处理方式:可视皮层是分级的”。1958年,胡贝尔和魏泽尔在美国的约翰霍普金斯大学开展关于瞳孔区域与大脑皮

    层神经元的对应关系的研究。他们给小猫展现形状和亮度各不相同的物

    体,并改变每个物体放置的位置与角度。在这一过程中,小猫的瞳孔感

    受不同类型和不同强度的刺激,小猫的后脑上则被插入电极,用来测量

    神经元的活跃程度。

    这一实验的目的是验证一个假设:位于后脑皮层的不同视觉神经元

    与瞳孔感受到的刺激信号之间,存在某种相关性。一旦瞳孔受到某种特

    定的刺激,后脑皮层的某些特定神经元就会活跃。经过长期枯燥的试验后,胡贝尔和魏泽尔发现了“方向选择性细胞(Orientation Selective

    Cell):当瞳孔发现了眼前物体的边缘,而且这个边缘指向某个方向

    时,这种神经元细胞就会活跃。这一发现不仅在生理学上具有里程碑式

    的意义,更激发了人们对于神经系统的进一步思考,促成了人工智能在

    四十年后的突破性发展。

    方向选择性细胞提示人们:神经-中枢-大脑的工作过程,或许是一

    个不断迭代、不断抽象的过程。人眼处理来自外界的视觉信息时,遵循

    的是这样的流程:首先提取出目标物的边缘特性,再从边缘特性中提取

    出目标物的特征,最后将不同的特征组合成相应的整体,进而准确地区

    分不同的物体。在这个过程中,高层的特征是低层特征的组合,从低层

    到高层特征变得越来越抽象,语义和意图的表现就越来越清晰,存在的

    歧义越来越少,对目标物的识别也就越来越精确。

    深度学习在功能上受启于大脑视觉系统中感受视野特征的方式。在

    深度学习中,这个过程被利用多个隐藏层进行模拟:第一个隐藏层学习

    到“边缘”的特征,第二个隐藏层学习到的是由“边缘”组成的“形状”的特

    征,第三个隐藏层学习到的是由“形状”组成的“图案”的特征,最后的隐

    藏层学习到的是由“图案”组成的“目标”的特征。当然,这样的识别思想

    不只适用于视觉信息的处理,对其他类型的信息同样适用。

    2006年,加拿大多伦多大学教授、机器学习领域的泰斗辛顿在国际

    权威学术期刊《科学》上刊文,深度学习就此闪亮登场。辛顿的文章表

    达了两个主要观点:首先,具备多个隐藏层的人工神经网络(也就是深

    度学习)具有优异的特征学习能力,习得的特征能够实现对数据更加本

    质性的刻画,有利于对数据的可视化或分类;其次,深度学习在训练上

    的难度可以通过“逐层初始化(Layer-wise Pre-training)”来有效克服,逐层初始化则可以通过无监督学习实现。

    与深度学习相对应的是浅层学习(Shallow Learning),其局限性在

    于有限样本和计算单元情况下对复杂函数的表示能力有限,针对复杂分类问题其泛化能力受到一定制约。深度学习克服了浅层学习的弱点,通

    过深层非线性网络结构实现复杂函数逼近和表征输入数据分布式表示,展现出强大的从少数样本集中学习数据集本质特征的能力。学习特征的

    过程可以被视为特征空间变换的变换过程,通过逐层特征变换,将样本

    在原空间的特征表示变换到一个新特征空间。这样的变换能够有效去除

    不同特征之间的相关性,从而使分类或预测更加容易。

    图3-6 乔弗·雷辛顿

    深度学习的另一个主要优势是能够从海量数据中进行特征的自动提

    取。在浅层学习中,依赖先验知识的手工设置特征处于统治地位,这类

    特征的设计中只允许出现少量的参数,设计出的特征的不变性与可区分

    性也远非最佳。可深度学习可以从大数据中自动学习特征的表示,其中

    可以包含成千上万的参数,手工设计出有效的特征是一个相当漫长的过

    程。回顾计算机视觉发展的历史,往往需要五到十年才能出现一个受到

    广泛认可的好的特征。而深度学习可以针对新的应用从训练数据中很快

    学习得到新的有效的特征表示。

    深度学习虽然通过特征的自动提取将人从手工特征设计中解放了出

    来,但目前在神经网络架构中,网络层数、每层神经元的种类和个数、训练算法参数等超参数可能对学习结果有着决定性的影响。这些超参数的设置和调节,仍然高度依赖人的经验。自动网络结构学习和超参数调

    节是深度学习从技术走向科学的必由之路。此外,深度学习从原始自然

    信号中提取特征完成任务的过程是个“黑盒子”,缺乏可解释性,类似于

    哺乳动物的低级认知功能。与之相对,基于抽象符号和规则的逻辑推理

    作为人工智能的早期方法,虽然能部分模拟人的高级认知功能,却和现

    有的神经网络框架“水火不容”。如何把深度学习过程和人类已经积累的

    大量高度结构化知识融合,发展出逻辑推理甚至自我意识等人类的高级

    认知功能,是下一代深度学习的核心理论问题。第四章 得数据者得天下

    ——智能思维方式的革命

    在七卷本的科幻巨著《基地(Foundation)》系列中,首次出现了

    心理史学(Psychohistory)的概念。心理史学由小说中的数学家哈里·谢

    顿(Hari Seldon)受物理中电子云的理论启发所提出:在电子云中,微

    观层面上单个电子的运动是无规律的随机运动,但宏观层面上大量电子

    的运动却能够精确描述。谢顿将这一理论应用于未来社会,通过将所有

    个体的行为进行综合来实现大尺度趋势的分析,可以准确地预测出社会

    的发展走向,甚至进一步在关键点导入适当的变数,进而改变以后社会

    发展的可能途径。当然,心理史学的实现有两个前提条件:

    作为研究对象的人类,总数必须达到足以用统计的方法来加以处

    理。

    研究对象中必须没有人知晓本身已是心理史学的分析样本,即必须

    保证研究对象的随机性和自发性。

    虽然只是科幻作品中的虚构,但“心理史学”的概念在现实中不乏拥

    趸。2008年诺贝尔经济学奖得主保罗·克鲁格曼(Paul Krugman)就是心

    理史学的大粉丝。在那个没有学校开设心理史学的年代,克鲁格曼转而

    钻研经济学,并在自由贸易与全球化进程等领域中成就斐然。

    在不具备专业背景的大众眼中,如果说人工智能的概念尚且是阳春

    白雪,曲高和寡,那么“大数据(Big Data)”这个术语近些年来就可以称为飞入寻常百姓家的“下里巴人”了。一方面,谷歌、微软、百度、腾

    讯等国内外诸多互联网企业都将业务重点从技术转向数据,逐渐开始相

    关的产业布局;另一方面,我国政府对大数据产业的发展也越发重视,上至中央下到地方都通过各种政策鼓励发展大数据产业链。那么,大数

    据究竟有何魅力,让学术界和产业界都趋之若鹜呢?工业时代到信息时代

    ——世界观的重构

    从工业时代到信息时代的转变,是从机械思维到数据思维的转变。

    所谓机械思维,是指建立在思辨的逻辑推理基础上思维方式。借助

    机械思维,人类从真实的世界中抽象出无需证明的最基本的公理,再通

    过因果逻辑由公理推导出各种基本定理,最终在基本定理的基础上构建

    起富丽堂皇的科学宫殿。机械思维最早的成就是由古希腊数学家欧几里

    得(Euclid)创立的公理化体系的几何学。事实上,几何学并非欧几里

    得的首创:在尼罗河流域的古代埃及,幼发拉底河和底格里斯河流域的

    美索不达米亚以及长江和黄河流域的古代中国,其孕育的文明中就已经

    包含了几何学的基本知识。但这些文明对几何学的认识还仅限于具体现

    象的观察,而没能上升到抽象规律的推演——因此这些文明中对几何的

    认识并没有形成体系,也就不能称之为几何“学”。

    欧几里得的贡献正是把散落的珍珠串成了美丽的项链:他首先总结

    出5条相互独立的不证自明的公理,其中的任何一条都不依赖于其他公

    理而存在,也无法依据其他公理推导出来。通过直接使用公理和定义作

    为前提证明,或是间接的通过已经直接证明的定理的证明,欧几里得推

    导出了所有的几何学定理,由此建立起欧氏几何学的大厦。公理化体系

    几何学被写在欧几里得的巨著《几何原本(Elements)》之中,为现代

    数学乃至整个科学的发展奠定了坚实的基础。图4-1 尼德兰画家尤斯图斯(Justusvan Gent)所作的欧几里得画像

    在欧几里得去世约两百年后,古希腊最伟大的天文学家克劳狄乌斯

    ·托勒密(Claudius Ptolemy)将欧几里得的方法论应用到天文学上,建

    立起一套完整、严格而且相当精确的描述天体运动规律的理论体系——

    地心说。虽然在我们常规的思维中,地心说总是与教会的强权和愚昧挂

    钩,支持日心说的科学家们——波兰天文学家尼古拉斯·哥白尼

    (Nicolaus Copernicus)、意大利数学家乔尔达诺·布鲁诺(Giordano

    Bruno)和意大利科学家伽利略·伽利雷(Galileo Galilei)——遭受迫害

    的悲惨境遇甚至使托勒密本人也染上了一丝暴君的色彩。但无辜的托勒

    密实在是躺着中枪:要知道布鲁诺在罗马鲜花广场因捍卫日心说而遭受

    火刑时,托勒密已经去世一千五百年有余了。

    拨开历史偏见的迷雾,作为科学学说的地心说绝对可谓精品,是机

    械思维的精妙产物。在建立地心说的过程中,托勒密使用的方法论可以概括为“通过观察获得数学模型的雏形,再利用数据来细化模型”。在研

    究天体运行的过程中,托勒密将欧几里得和另一位古希腊数学家毕达哥

    拉斯(Pythagoras)的数学思想与上百年来观测得到的天文数据相融

    合,将各种天文现象的共性用最基本的元模型——圆形运动来描述。托

    勒密仅仅通过圆这种基本形状,以及大小不同的多个圆形的相互嵌套,就把当时人们已知的天体运动的规律描述得一清二楚。至于他提出的为

    什么是地心说而不是日心说,原因在于这最符合人们看到的现象——日

    月星辰都是从东边升起,西边落下。即使一千多年之后哥白尼提出了日

    心说,也仅仅是因为把托勒密坐标系的中心从地球移到太阳,就可以简

    化天体运动的模型,其思维方法则与托勒密毫无二致。

    科学界中机械思维的最后一位集大成者正是英国物理学家艾萨克·

    牛顿爵士(Sir Issac Newton)。在巨著《自然哲学之数学原理

    (Philosophiae Naturalis Principia Mathematica)》中,牛顿用力学三定

    律和万有引力定律这几个简单而优美的公式破解了宇宙中万物运动的规

    律,还用微积分的概念把数学从静止的变量拓展为运动变化的函数。牛

    顿通过自己的伟大成就宣告了科学时代的来临,作为思想家,他让人们

    相信世界万物是运动的,而冥冥之中支配这些运动的规律既是确定的,又是可以被认识的。同时,牛顿还指出正确的规律通常具有简洁的形

    式,这与东方哲学中大道至简的思想不谋而合。在牛顿之后,英国物理

    学家詹姆斯·焦耳(James Joule)使用简单的公式描述了能量守恒定律,英国物理学家詹姆斯·麦克斯韦(James Maxwell)又用四个简明的公式

    概括了看不见摸不着的电磁世界的全部规律。这些都是机械思维在科学

    中的重要成果。

    牛顿的种种成就奠定了他史上最有影响力的人物之一的地位。去世

    后,牛顿被葬在伦敦威斯敏斯特大教堂,其陵寝规格超过了任意一位英

    国君主。著名英国诗人亚历山大·波普(Alexan-der Pope)对牛顿一生的

    贡献给出了精当的评价:天不生牛顿,万古如长夜。

    虽然在工业时代,人类社会所取得的进步大部分得益于机械思维,但是到了信息时代,它的自圆其说遇到了越来越多的困难。一方面,并

    不是所有的规律都可以用简单的形式体现;另一方面,很多情况下明显

    的因果关系也并不存在。20世纪初量子力学的诞生与发展迫使人们接受

    了微观世界这个全新的观察视角,同时也不得不承认不确定性才是世界

    的本质。自此,机械思维完成了它伟大的历史任务,不确定性观念下的

    信息论开启了认识世界的全新方式。

    图4-2 英国画家戈德弗雷·内勒爵士(Sir Godfrey Kneller)所作的牛顿画像

    随着我们对世界的认识的不断深入,影响事物发展变化的变量也一

    个个走进视野。如果把影响事件方方面面的因素都纳入考虑之中,这类

    变量的数目就会多如恒河沙数,已经无法通过简单的办法或者公式算出

    结果,因此我们宁愿人为地把它们归为不确定的一类,或是做出忽略某

    些次要因素的必要假设。虽然在实际的火箭发射中必须要考虑到气温水

    平、湿度水平等诸多影响因素,以确保发射的万无一失,但如果在高考或者中考中遇到类似的题目,还是可以放心大胆地把空气阻力等因素忽

    略不计,用简单的牛顿定律来解决问题。

    此外,科学研究也在不断证实,不确定性就是客观世界的本质属

    性。在宏观世界中,行星运动的速度和位置是可以被精确计算的。但是

    在微观世界里,电子在围绕原子核做高速运动时,它在某个时刻的位置

    和运动速度不可能同时被准确地测定,自然也就不能描绘出它的运动轨

    迹了。这样的结果不取决于测量仪器的精度,而是由量子力学中的基础

    性原理——德国物理学家沃纳·海森堡(Werner Heisenberg)所提出的测

    不准原理决定的。除此之外,近年来关于无漏洞的贝尔不等式的实验进

    展也在不断说明,这个世界上不存在任何的隐变量,它本身就是以概率

    性的方式在运行——换句话说,上帝还真就掷骰子。

    不确定性的世界只能使用概率模型来描述,这促成了信息论的诞

    生。1948年,供职于美国贝尔实验室的物理学家克劳德·香农(Claude

    Shannon)发表了著名论文《通信的数学理论(A Mathematical Theory of

    Communication)》,给出了对信息这一定性概念的定量分析方法,标

    志着信息论作为一门学科的正式诞生。在信息论中,香农以“信息熵”的

    概念解决了对单个信源的信息量和通信中传递信息的数量与效率等问题

    做出了解释,并在世界的不确定性和信息的可测量性之间搭建起一座桥

    梁。图4-3 克劳德·香农

    虽然信息论的首要目的只是建立关于通信的科学理论,但它作为方

    法论的影响力已经渗透到生活的每个角落之中。与以确定性为基础的机

    械思维截然相反,信息论完全是建立在不确定性基础上,消除不确定性

    的唯一方法就是引入信息。这正是信息时代所带来的思维变革:大量机

    械思维无能为力的问题都可以通过转化为信息处理问题而解决。而大数

    据的出现,意味着信息时代最有力的工具已经悄然到来,更意味着信息

    时代的下一次进化。知其然,而非所以然

    ——信息到数据的认知变革

    虽然作为术语的“大数据”近来才受到人们的高度关注,但在概念上

    它并不新鲜。著名的《二十四史》实际上就是对我国社会发展的大数据

    记录。1980年,著名的美国未来学家阿尔文·托夫勒(Alvin Toffler)在

    其著作《第三次浪潮》中,就已经提及大体量数据对信息技术乃至未来

    社会发展的影响,但在近四十年前,技术条件的限制使这样的观念显得

    过于超前。随着宽带通信技术、移动互联网技术和物联网技术的发展,数据正在以前所未有的速度疯狂涌现,这也给大数据的发展提供了物理

    基础。2008年9月,国际知名学术期刊《自然》推出了名为“大数据”的

    封面专栏,这意味着主流学术界对大数据的认可与关注。学术界的认可

    也影响到了工业界与商业界,大数据迅速成为互联网技术行业中的热门

    词汇。

    在作为物理概念的“大数据”的基础上,世界著名的管理咨询公司麦

    肯锡公司(McKinsey Company)进一步提出了作为商业概念的“大数

    据”。麦肯锡公司从各类网站上记录的个人海量信息中敏锐地发现了潜

    在的商业价值,于是投入大量人力物力进行调研,在2011年6月发布了

    关于大数据的报告“麦肯锡报告”,对大数据的影响、关键技术和应用领

    域等都进行了详尽的分析。麦肯锡报告得到了金融界的高度重视,使大

    数据受到了全社会各行各业的关注。图4-4 大数据登上《自然》封面

    2012年,英国牛津大学教授维克托·迈尔-舍恩伯格(Vik-tor Mayer-

    Schornberger)出版了学术专著《大数据时代》,在书中提出了一系列

    颇具前瞻性的洞见。舍恩伯格在书中指出,大数据带来的信息风暴正在

    变革我们的生活、工作和思维,开启重大的时代转型,并为人类的生活

    创造前所未有的可量化的维度。

    说到这里,我们有必要对大数据的内涵加以阐释。实话实说,大数

    据这个概念还没有多方公认的权威定义,学术机构、商业机构与公共管

    理机构只是分别从自己关注的角度对大数据进行描述。但在不同的行业

    视角下,大数据会被解读出不同的内涵与不同的特征,如果将这些局部

    特征熔于一炉,大数据的全貌就会逐渐浮现:

    大数据是指以容量大、类型多、存取速度快、应用价值高为主要特

    征的数据集合。

    与传统意义上的“小数据”相比,大数据最明显也最本质的特征在于它的体量,也就是大数据的“大”。“大”之所指不仅仅是数据超大的比特

    数目,更重要的是数据的全面性与完整性。以前,受数据采集技术与数

    据分析技术的限制,准确分析海量数据几乎是不可能完成的任务,因此

    只能通过在全体数据中采集出一部分样本,通过精确分析样本的性质来

    粗略估计数据整体的特征,这也正是统计学的核心任务。但在大数据炙

    手可热的今天,我们关注的不再是采样出来的数据样本,而是海量数据

    本身。这就可以正确地考察细节并进行新的分析,而无需考虑采样偏差

    所导致的错误结论,也不会错过可能被采样过程忽视而淹没在海量数据

    中的重要细节。毕竟,能从数据中获得的所有规律,都蕴藏在数据本身

    之中,而用于分析的数据越多,得到的规律就越准确。

    葡萄酒的品鉴是专业性极强的领域,从事这项工作的通常是具有数

    十年品酒经验的专家。品酒师通过观察葡萄酒的色泽与稠度,嗅闻葡萄

    酒的香气,品尝葡萄酒的味道来判断这个酒大概来自于哪个酒庄,酿造

    于什么年份。但是这门基于经验的手艺也有它自己的问题:当品酒师品

    鉴新酒时,由于葡萄酒储存的时间太短,其真正的品质还没有形成,所

    以品鉴结果难免流于偏颇。另外,知名品酒师爱惜名誉有如孔雀爱惜羽

    毛,这种怕出错的心态也会影响到对酒类的鉴赏判断,使品酒师倾向于

    给出随大流的中庸结果。

    难道判断葡萄酒水准的话语权只掌握在品酒师手中?美国普林斯顿

    大学的经济教授理查德·科万特(Richard Covant)偏偏不信这个邪。作

    为葡萄酒爱好者,他尽可能多地收集关于葡萄酒产地信息与气候信息的

    数据,根据这些数据和相应的葡萄酒的质量,科万特得出结论:葡萄酒

    的品质跟土壤的成分、生长期的平均气温、冬天的降雨量、和收获季节

    的降雨量等因素有关。根据自己的秘诀,1989年葡萄酒刚一上市,科万

    特就预测这一年的葡萄酒是世纪佳酿。可仅仅一年之后,科万特又宣称

    1990年的酒甚至比1989年的还要好!

    连续两年号称世纪佳酿,这对任何品酒师来说都是砸牌子的说法,可科万特就是这么大胆!作为一个外行,科万特对酒的判断不是基于葡

    萄酒本身,而是生产过程中影响葡萄酒品质的众多天时地利的因素。他

    可能对葡萄酒的术语一无所知,却能够根据数据作出判断。在习惯的认

    知方式中,追求的主要目标是线性的、双边的直接因果关系。但是万物

    之间的联系恐怕比想象的要复杂千万倍,这种联系以多元且非线性方式

    存在。大数据的出现颠覆了原有的认知模式:认识事物的方式变成了先

    寻找相关关系,再寻找因果关系。

    认知模式的转换反过来也成为审视大数据的慧眼。如何在纷繁复杂

    的海量数据中提炼出有用的结论呢?方法很简答:从传统的因果分析转

    向相关性分析转换。相较于统计学中的知其所以然,在大数据时代,只

    要知其然就已经足够了。当大数据占据我们这个信息社会的中心舞台,传统知识观中的因果律遭到极大的挑战,而相关性则让我们从对过去的

    理解中解放出对未来的预测,这从本质上改变了数据的利用模式。

    从因果性到相关性一个经典的例子就是谷歌对流感爆发的预测。

    2009年2月,谷歌的研究人员在《自然》发表了一篇论文,预测季节性

    流感的暴发,在医疗保健界引起了轰动。谷歌对2003年和2008年间的

    5000万最常搜索的词条进行大数据“训练”,试图发现某些搜索词条的地

    理位置是否与美国流感疾病预防和控制中心的数据相关。疾病预防控制

    中心能够跟踪全国各地的医院和诊所病人,但它发布的信息往往会滞后

    一两个星期,但谷歌的大数据却是发现实时的趋势。

    数据往往都是不完美的,拼写错误和不完整短语很普遍。为什么谷

    歌可以实现这么精准的预测?如果从因果关系看,是因为人感到不舒

    服,或听到别人打喷嚏,或者阅读了相关的新闻后感到焦虑吗?谷歌不

    是从这种因果关系去考虑,而是从相关性的角度,去预测一个持续发展

    的大方向,因为大众的搜索词条处于不断变化之中,外界的一个蝴蝶翅

    膀的扇动,就会使搜索发生系统的、混沌的变化。谷歌并没有直接推断

    哪些查询词条是最好的指标。相反,为了测试这些检索词条,谷歌总共处理了4.5亿个不同的数字模型,将得出的预测与2007年和2008年疾病

    预防控制中心记录的实际流感病例进行对比后,谷歌公司发现,它们的

    大数据处理结果发现了45条检索词条的组合,一旦将它们用于一个数学

    模型,它们的预测与官方数据的相关性高达97%。

    关于使用大数据中的相关性提取有用结论的最近一个例子发生在美

    国国家橄榄球联盟的赛场上。2016年11月8日,一场如火如荼的橄榄球

    比赛已经进行到第三节,5:21落后的亚特兰大猎鹰队正推进到本方46码

    线。此时此刻,大数据公司Splunk做出了一个预测:猎鹰队下一步将祭

    出“霰弹枪阵式”,随后四分卫马特·瑞安将送出一记左侧的短传。随后

    赛场的形势发展与Splunk的预测如出一辙:猎鹰队果真使用了“霰弹枪

    阵式”,只不过在最后一传上出现了失误。

    Splunk做出这个预测的依据并非依赖于专业的橄榄球从业人员,恰

    恰相反,这些从事数据分析的极客们可能连橄榄球的规则都不懂。但他

    们把至少一整年的比赛数据输入计算机,利用计算机来分析不同赛场形

    势和不同攻守策略之间的联系,从而得出精确的预测。这背后的因果性

    自然是橄榄球专业人员的技战术设计,但利用相关性也可以得到同样的

    决断。海纳百川,有容乃“大”——被量化的世界

    英国物理学家开尔文勋爵(William Thomson,1st Baron Kel-vin)曾

    说过:“当你能够量化你谈论的事物,并且能用数字描述它时,你对它

    就确实有了深入了解。但如果你不能用数字描述,那么你的头脑根本就

    没有跃升到科学思考的状态。”

    这样的论断在百年后的大数据时代将被奉为圭臬。在海量数据中,量化的价值并不体现狭义的精确定量关系中,而是确定事物背后的运转

    规律,其出发点不是消除不确定性而是减少不确定性。尤其在大数据时

    代,分析数据更加追求关联性而非结构性,量化数据也不是非要用数字

    化去表达,这样的观念变革或许对于数据分析和量化而言是突破性的,而突破点就在于目的性的把握上。正因如此,数据可视化已经逐渐演进

    为一门独立的学科,它研究的正是如何将数据背后的定量关系直观地展

    示出来。

    在第84届奥斯卡奖评选中,由好莱坞著名编剧阿伦·索尔金(Aaron

    Sorkin)编剧,金球奖得主布拉德·皮特(Brad Pitt)主演的影片《点球

    成金(Moneyball)》狂揽六项提名(只可惜全部陪跑……)。这部体

    育题材影片改编自真实的故事:比利是美国职业棒球大联盟中奥克兰运

    动家队(Oakland Athletics)的经理。作为一支小本经营的球队,奥克

    兰运动家无法像财大气粗的豪门纽约扬基一样挥舞钞票开展金元攻势,大肆招兵买马,面对主力纷纷跳槽的窘境,未来的赛季似乎前途渺茫。

    可一次偶然的机会,比利认识了耶鲁大学经济学硕士彼得,两人对于球

    队运营的理念不谋而合。比利立即聘请彼得作为顾问,用数学建模的方

    式,逐渐开始挖掘上垒率的潜在明星,并通过软磨硬泡将他们招致麾下,并最终上演了人民群众喜闻乐见的簈丝逆袭戏码。

    图4-5 电影《点球成金》海报

    电影本身的内涵非常丰富,但从数据科学的角度来看,比利所做的

    事情就是一改老派的教练员基于直觉和经验的球员评价体系,而是对它

    进行了全方位的量化。棒球本身即是一项强调数据的运动,衡量球员的

    指标包括打击率、长打率、防御率、胜投数、全垒打数、打点数等数十

    项指标。可长久以来,棒球界却没能将这些意义非凡的数据转化为球队

    的战斗力,可谓守着金矿要饭吃。比利正是老旧传统的改造者。现实

    中,他和同伴建立了号称“棒球统计学(Sabermetrics)”的全新方法,通

    过统计学的方法将球员能力最大程度地量化,并以量化结果作为衡量球

    员能力的唯一标准,而非某些基于主观经验的判断。与此配套的是全新

    的评价体系:让棒球比赛结束的因素是27个出局数,那么“上垒率”就是

    不二法门,其他诸如“击球率”“盗垒”等华而不实的指标统统都要靠边

    站。通过这样的方式,比利颠覆了看重球员速度、力量和打击率的传统思维,挖掘出了决定比赛走势的深层次量化结果,给球队带来了实质性

    的收益。

    大数据基础上的量化与其说是方法的进化,不如说是观念的改变。

    不经处理的数据本身谈不上价值,而量化才是数据价值提取的核心步

    骤。只要选择了合适的标准和参考系,万事万物皆可量化。量化是数据

    价值提取的基础,它能够使很多难以确定的情况变得能够估计和判断,相关的决策与结论才会具备说服力与可操作性。

    1965年的诺贝尔文学奖被前苏联作家米哈伊尔·肖洛霍夫(Mikhail

    Aleksandrovich Sholokhov)以描述哥萨克生活的史诗巨著《静静的顿

    河》摘得。这部作品以细腻的笔触刻画了哥萨克这一特殊群体在历史漩

    涡中的生活与命运,是俄罗斯文坛上的璀璨明珠。但在当年美苏争霸的

    国际形势下,出于各种各样的原因,以苏联著名异见人士亚历山大·索

    尔仁尼琴(Aleksandr Isayevich Solzhenitsyn)为首的诸多知名人士质疑

    《静静的顿河》并非出自肖洛霍夫本人之手,而是抄袭了俄国内战中一

    位白军军官克留科夫的笔记。这一观点随着诺贝尔奖的颁发愈发甚嚣尘

    上,变成了文坛的一桩悬案。图4-6 米哈伊尔·肖洛霍夫

    在肖洛霍夫获奖20年后,这桩沸沸扬扬的笔墨官司终于尘埃落定。

    1984年,挪威奥斯陆大学的数学家与斯拉夫研究专家盖尔·克耶萨(Geir

    Kjetsaa)运用数理统计的分析方法对《静静的顿河》进行了研究,证实

    了肖洛霍夫是本书的作者。这一成果被克耶萨及其合作者写书出版,轰

    动一时,克耶萨教授与他的合作者使用乌普沙拉大学的一台IBM370155

    电子计算机,对《静静的顿河》与“被抄袭者”克留科夫的一些作品进行

    比较。比较的方法是对肖洛霍夫和克留科夫的文本分别进行抽样,再编

    写程序测定句子长度和词汇分布等参数,据此生成对两人写作风格的比

    较。为了执行对比,所有的原始材料被分为三组:肖洛霍夫的无可争议

    的作品为第一组,《静静的顿河》为第二组,克留科夫的作品为第三

    组,研究者则分别研究三组文本的三个重要参数:

    第一个参数是作品中出现的不同的词汇数量与总词汇量的百分比

    统计:三组结果分别65.5%,64.6%和58.9%。显然前两个数据非常接

    近,并明显高于第三个数据。这表明肖洛霍夫的语言风格更加多变,而克留科夫偏爱使用重复的词汇。

    第二个参数是词汇分布频率:研究者们选取了20个常见的俄文词

    汇,统计其在作品中出现频率。三组结果分别为22.8%,23.3%和

    26.2%,体现出与第一个参数同样的趋势。看起来这些词更受克留科夫

    的青睐。

    第三个参数是作品中出现过一次的词汇所占的百分比:三组结果

    分别为80.9%,81.9%和76.9%。这表明肖洛霍夫的词汇量要高于克留科

    夫。

    在不同文本的比较中,三组参数表现出了一致的趋势,即克留科夫

    的作品与《静静的顿河》之间存在着显著的统计差异,这部杰作的真正

    作者更像是肖洛霍夫。这一结论在1999年被证实:《静静的顿河》手稿

    被发现,其中605页为肖洛霍夫亲笔,另285页他的妻子和姐妹誊写。这

    也给这段公案画上了一个句号。

    虽然克耶萨教授的研究已过去二十年有余,但他解决问题的思路正

    是大数据量化的思维方式:写作风格本来是虚无缥缈的东西,却可以通

    过作为载体的文本却是看得见摸得着的,其中体现出来的作者遣词造句

    的方式也难以伪造。对词语和句法的数理统计无疑就是对写作风格的量

    化。对四大名著之一的《红楼梦》后四十回的真伪判定也使用了类似的

    方法。当然,受当年的技术条件限制,克耶萨教授分析的对象只限于抽

    取出来的文字样本,这将不可避免地给分析结果带来偏差。在大数据处

    理技术日臻成熟的今天,如果对全部文本进行统计的话,也许会得到更

    具说服力的结果。

    在这个大数据的时代,数据正在从最不可能的地方涌现出来。量化

    一切是数据化的核心:一串串字符是对文字的量化;数字音频是对声音

    的量化;各种格式的数字图片是对图形的量化。量化正在不断推进数据

    化的进程:地图类应用是对地理场景的数据化;形形色色的电商平台上琳琅满目的商品是对现实物品的数据化;服务网站上各种各样的供需信

    息是对服务的数据化;微博和论坛是对思想观点的数据化;转发和点赞

    是对传播的数据化;社交网络是对人际关系的数据化。人和物的一切状

    态和行为都能数据化,而数据化意味着事务在数据空间里的极易操作,往往由此生发出伟大的创意。有数据,才有一切

    ——人工智能驱动力

    人工智能离不开深度学习。通过大量数据的积累探索,机器必将在

    任何单一的领域超越人类。而人工智能要实现这一跨越式的发展,把人

    从更多的劳力劳动中彻底解放出来,除了计算能力和深度学习算法的演

    进,大数据更是助推深度学习的高能燃料。离开了大数据,深度学习就

    成了无源之水、无本之木。

    深度学习的实质,是通过构建具有很多隐层的机器学习模型和海量

    的训练数据,来学习更有用的特征,从而最终提升分类或预测的准确

    性。从本质上来,深度学习只是手段,特征学习才是目的。为了更加精

    确地学习特征,深度学习引入了更多的隐藏层和大量的隐层节点;明确

    突出了特征学习的重要性,也就是说,通过逐层特征变换,将样本在原

    空间的特征表示变换到一个新特征空间,从而使分类或预测更加容易。

    与人工规则构造特征的方法相比,利用大数据来学习特征,更能够刻画

    数据的丰富内在信息。

    从实际应用的角度来说,深度神经网络只是一个可以运作的简单大

    脑,单靠这个简单的大脑还不足以完成深度学习的任务。在医学上有种

    现象:聋哑儿童由于先天或后天的原因在年幼时丧失了听力,但他们的

    发声功能通常完好无损,这意味着具备说话的生理条件。可长大后,大

    部分的聋儿都不会说话,只能发出类似语言的简单音节组合。完好的生

    理条件并没有进化成语言能力,这是为什么呢?

    其原因正是在于语言的能力没有被训练出来。读者不妨回忆自己学

    习学话的过程:一没有理论学习,二没有题海战术,靠的就是简单的咿呀学语。幼儿在最初听到任何语言的时候都会蒙圈,不知道说的到底是

    什么东西,但他们会通过观察出现这些语音信号时的场景图像,来猜测

    这些词句大概代表的含义,并将图像和语音建立联系。经过多次的重复

    刺激后,幼儿就会逐渐形成了对这一语音符号的“条件反射”,在大脑语

    言区的位置形成了脑神经的一个网络结构逐渐构造该语言的语言区,最

    终实现了用这种语言的语音符号思维的能力。而对于聋儿来说,听觉的

    丧失使他们无法建立图像和语音之间的联系,也就没有办法形成习得语

    言所必备的条件反射了。

    根据连接主义学派的观点,机器的深度学习借鉴的正是人类的学

    习,训练的过程也是智能形成的必由之路。如今,大数据就扮演着这一

    重要的“训练”角色。大数据的飞速发展,让深度学习拥有了无比丰富的

    数据资源来完成特定功能的“训练”。除此之外,拜发达的传播渠道所

    赐,大数据还能够产生涟漪效应:千千万万的深度学习用户把与之相关

    的使用习惯传入已有的数据集合中,新增的数据反过来又能够促进学习

    的深入。这样的涟漪效应使深度学习不断地进行自身的优化去达到更优

    的结果。前文中提及的阿尔法狗便是大数据训练出来的硕果:古今中外

    的海量对局愣是把不懂围棋为何物的算法训练成了独孤求败的高手。

    大数据的出现为深度学习的发展提供了前所未有的契机,却也对它

    提出了更高的要求。工业界一直奉行“大道至简”的原则:在大数据条件

    下进行机器学习,简单模型会比复杂模型更加有效。可近年来深度学习

    的惊人进展,促使我们不得不重新思考这个观点。在大数据情况下,也

    许只有比较复杂的模型,或者说表达能力强的模型,才能最大程度地发

    掘出海量数据中蕴藏的丰富信息。大数据运用到浅度学习上,只会产生

    消化不良的后果,只有更强大的深度模型才能从大数据中发掘出更多有

    价值的信息和知识。

    语音识别是一个典型的基于大数据的机器学习问题:其声学建模的

    训练样本可以达到十亿甚至是千亿级别。要处理这样体量的数据,普通的神经网络是无能为力的,需要更加复杂的深度神经网络。可在谷歌公

    司的一个语音识别实验中,研究者发现即使使用深度神经网络进行训

    练,训练出的模型对训练样本和测试样本的预测也相差无几,这意味着

    所有的训练都打了水漂,连个响动都没听见。这种违背常理的现象只有

    一种解释,就是由于大数据里含有的信息维度太过丰富,即使是如深度

    神经网络一般的高容量复杂模型也处于欠拟合的状态,更不必说传统的

    高斯混合声学模型了。深度学习模型就像是高效的冶炼机器,没有它就

    没有办法从大数据这座金矿里提取出金子。

    要使机器大脑达到人脑的水准,第一个重要的步骤就是获取信息。

    信息既可以通过搜索引擎直接抓取,也可以通过记录用户的搜索历史获

    得。当然,孤立的信息是没有任何用处的,机器大脑还要挖掘其中的各

    种关联,作为行动的指导。这个过程很难由机器主动完成,现阶段唯一

    的途径是通过搜索引擎的用户的反馈实现:当用户搜索某个关键词后对

    某个网站点击增加,就会自动增加这个关键词与该网站的关联,不断地

    寻找最优算法,让用户直达最优结果。

    事实上,不只是语音识别或是图像识别这类专门的应用,真正的人

    工智能也应当基于大数据而诞生,并基于大数据不断进化。通过对海量

    的搜索和其他相关操作进行关联性的提取与分析后,机器大脑就能够找

    出在发生某个特定事件时,绝大多数人类的行为模式,并以这种模式和

    人类进行交互,使人以为对面真的是一个人。在现有的技术条件下,这

    可能是人工智能的终极形态:一个没有鲜明个性的“人”,一个群体意志

    的产物。第五章 我,机器人

    ——人工智能的终极载体

    机器人学三定律

    第一定律:机器人不得伤害人,也不得见人受到伤害而袖手旁观。

    第二定律:机器人应服从人的一切命令,但不得违反第一定律。

    第三定律:机器人应保护自身的安全,但不得违反第一定律和第二

    定律。

    引自《机器人学指南》第56版图5-1 艾萨克·阿西莫夫

    从《终结者》中冷酷无情的T-800到《人工智能》中多愁善感的小

    朋友大卫,从《变形金刚》里无所不能的威震天到《她》中温柔体贴的

    萨曼莎,机器人已经成为对人工智能物理实体的终极想象。可人类对机

    器人的最初期待只是让它们成为生活助手,把我们从重复单调的劳动中

    解放出来。著名科幻小说家艾萨克·阿西莫夫(Issac Asimov)在科幻小

    说《我,机器人》中提出了著名的机器人学三定律,但如果机器人无所

    不能,世界上还会有属于人类的位置吗?在人工智能和机器人技术之

    间,未来到底是乌托邦还是索多玛?思考能力的进化

    ——语音助手与无人驾驶

    今天,机器人与人工智能这两个概念已经是你中有我,我中有你。

    可出人意料的是,机器人的英文单词robot却是在一个世纪之前由一位文

    学家创造的。1920年,捷克斯洛伐克作家卡雷尔·恰佩克(Karel

    Capek)在他的剧本《罗萨姆的机器人万能公司》中,根据捷克语单词

    robota(意为“劳役、苦工”)和波兰语单词robotnik(原意为“工人”),创造出“机器人”这个单词。由此可见,人类对机器人的定位只是一种基

    于机械设备的劳动工具,跟智能原本是八杆子打不着的。

    图5-2 《罗萨姆的机器人万能公司》剧照:反抗的机器人

    虽然机器人一词的出现和世界上第一台工业机器人的问世都是二十世纪的事情,但人类对机器人的追求却源远流长。根据西周时期的记

    述,当时的能工巧匠偃师给周穆王献上用动物皮、木头、树脂制造出的

    美女伶人——无疑是今天各式各样类人机器人的老祖宗。更牛的是,这

    位美女不仅能歌善舞,甚至还有六欲七情。这样的木头伶人固然是寓言

    中的幻想,但它从一个侧面反映出当时的科技发展水平,也是中国最早

    记载的木头机器人雏形。

    中国古代关于机器人的记述可不光这一种。著名的科学典籍《墨

    经》中曾记载,木匠祖师爷鲁班曾经使用竹子和木头作为原料制造出一

    只木鸟,在空中连续飞行三天三夜;而根据《三国演义》中的说法,鞠

    躬尽瘁死而后已的诸葛亮不光韬略出众,工程技术水平也相当了得:他

    设计的具备传动装置的木牛流马可称为最早的陆地军用机器人,运输粮

    食时本来大步流星,但舌头一扭便纹丝不动,只留下劫粮成功满心欢喜

    的魏军大眼瞪小眼。

    机器人的设计并非中国人的专利。看过《达芬奇密码》的人必然对

    列奥纳多·达芬奇(Leonardo da Vinci)的惊世之才赞叹不已,历史上的

    达芬奇其人也的确是个百科全书式的人物,对于机械设计尤其在行。15

    世纪,达芬奇在人体解剖学的知识基础上利用木头、皮革和金属外壳设

    计出了机械版的装甲兵。根据记载,这个机器人以齿轮作为驱动装置,肌体间连接传动杆,不仅可以完成一些简单动作,内部的自动鼓装置还

    能以阵阵鼓声提振士气。三百年后,瑞士的钟表匠人使用凸轮控制和弹

    簧驱动的原理设计出了三个真人大小的机器人——写字偶人、绘图偶人

    和风琴偶人,这些多才多艺的偶人直到今天还保存在瑞士纳沙泰尔市的

    博物馆中。

    在20世纪以前,机器人的发展动力还来源于机械控制,因而只能说

    是技术,而称不上是科学。这一局面在1948年被打破:天才学者维纳

    (人工智能行为主义学派的奠基人,参见第一章)建立起新型学科“控

    制论(Cybernetics)”并出版了同名巨著,阐述了机器中的通信和控制机能与人的神经、感觉机能的共同规律。在此基础上,维纳深入探讨了

    机器与人的统一性,揭示了机器通过反馈控制模拟人类的可能性,这不

    仅成为人工智能中行为主义学派的理论基础,也为机器人的发展开拓出

    一条新路。

    自此,计算机技术走进了机器人的身体,使机器人的发展步入了新

    纪元,并催生了机器人产业:1954年,工业机器人先驱乔治·德沃尔

    (George Devol)创造了世界第一台可编程机器人“尤尼梅特

    (Unimate),并借此东风与他的商业伙伴约瑟夫·恩格尔伯格(Joseph

    Engelberger)创立了全世界第一家机器人公司Unimation,打响了机器人

    产业的第一炮。尤尼梅特的核心技术是借助伺服技术控制机器人的关

    节,利用人手对机器人进行动作示教,机器人能实现动作的记录和再

    现。它采用了分离式固体数控元件,并装有存储信息的磁鼓,具有更好

    的通用性和灵活性。与此同时,美国机床制造公司也研制出了工业机器

    人“万能搬运(VERSAtile TRANsfer)。万能搬运主要用于机器之间的

    物料运输、采用液压驱动。该机器人的手臂可以绕底座回转,沿垂直方

    向升降,也可以沿半径方向伸缩。尤尼梅特和万能搬运是世界上最早的

    商业化工业机器人,代表了当年可编程机器人的最高水平。

    时间进入20世纪60年代后,传感器技术被应用在机器人产业中,提

    升了机器人的可控制性。带有触觉传感器的数控机械手被引入机器人

    中,这种机械手能够自主识别块状材料并将其堆叠起来,而无需人工干

    预。约翰霍普金斯大学则研制出机器人“怪兽(Beast)。怪兽已经能通

    过声纳系统、光电管等装置根据环境校正自己的位置,这使它在合理的

    非结构性环境中具备了自适应的特性。斯坦福大学则更进一步,开发出

    有手(机械手)、眼(摄像头)和耳(拾音器)的机器人“摇摆

    (Shakey)”。摇摆能够“看见”散放在桌面上的方块,识别语音指令并

    按指令进行操作。在这一时期,几个工业化国家竞相开展具有视觉触觉

    和优异的操控性能,能避障、钻洞、爬墙甚至水下移动的各种智能机器

    人的研究工作,并开始在海洋开发、空间探索和核工业中试用。在20世纪80年代中期,机器人的技术水平越来越完善,在各类工业生产中广泛

    普及,机器人应用制造业已成为发展最快和最好的经济部门之一。

    可编程能力与传感技术使机器人具有感觉、识别、推理和判断的能

    力,能够适应外界条件变化并自适应地对自身工作进行调整,达到了智

    能的程度。但归根到底,这类智能机器人运行的规则仍然由人类规定,在特定的环境下如何调整也要遵循预先设定的原则。由此,机器人下一

    步的发展目标就是具备更高级别的智能:机器人自己通过学习,总结经

    验来获得修改程序的原则。这种机器人已拥有一定的自动规划能力,能

    够自动安排自己的任务,可以在无人值守的情况下完全独立的工作。伴

    随着这一潮流诞生的则是智能机器人的全新形态。

    2011年10月,苹果公司在其手机操作系统iOS中首次集成了语音助

    手,Siri就此闪亮登场。由于Siri的早期版本功能较弱,调戏Siri也就成

    了苹果手机用户喜闻乐见的谈资,但语音助手作为机器人的全新模式,其的流行就此势不可挡。2012年7月,谷歌公司推出了自己的语音助手

    Google Now.2014年2月,不甘落后的微软公司也推出了自己的语音助手

    小娜(Cortana),并嵌入安装Windows操作系统的计算机和手机中。借

    助微软自身深厚的技术功底,Cortana实现了对语音的较高识别率和与系

    统功能的深度集成,给微软用户带来了不少便利。很快,微软又趁热打

    铁推出了跨平台的聊天程序小冰,这个“不良少女”所引起的槽点满满的

    轩然大波算是语音助手发展历史中一个有趣的注脚。

    Siri也好,小娜也罢,其本质都只是一团代码,与传统意义上的机

    器人搭不上一点儿关系。可他们又确确实实是机器人——不仅形态全

    新,而且功能全新。语音助手的简化形式——俗话说的聊天机器人,也

    就是前面所说的小冰——具有对话和在对话中学习两种基本功能。对话

    的原理是先从对方提问中提取关键词,再到网络中检索匹配度高的答

    案,以此回答对方;而从对话中学习,是在过往对话中提取有效对话增

    加到自己的数据库中。事实上,这类聊天机器人更像是个搜索工具:把人类的对话输入作为关键词在网络上搜索对应的回复。目前,语音助手

    在事务性指令上处理的效果较优,但聊天机器人依然是答非所问和不知

    所云的代名词。可这样的结果恰恰反证了方式的先进性:语音助手并非

    按照预设的规则回答问题,而是完全以自主学习的方式实现对自然语言

    的理解,这与传统的工业机器人有本质区别。虽然受技术条件限制,现

    有程序还不能在大数据的研究中习得深层次的判断能力和理解能力,但

    在原理上并不存在不可逾越的障碍。而对于传统的工业机器人来说,自

    主学习显然是不可完成的任务。

    关于机器人思考能力的进化更直观更形象的实例,是无人驾驶汽车

    的出现。

    早在上世纪的八九十年代,德国慕尼黑和意大利帕尔玛就出现过无

    人驾驶的演示。无人驾驶在诸如换档、变速等技术上的困难已经被完全

    克服,换句话说,在无人的环境下无人驾驶一点儿问题都没有。可是在

    全天候全路况的实际条件下,早年间的无人驾驶技术就会变身马路杀

    手。这也说明了为什么无人驾驶由互联网巨头谷歌,而非奔驰、奥迪等

    传统车企取得突破。由于本书并非技术类书籍,因而无人驾驶的技术细

    节在本书中不做赘述,而是用一些数据代替:截至2015年6月,谷歌开

    发的无人驾驶汽车已行驶超过160万公里,相当于成年人大约一辈子的

    驾驶公里数;截至2016年2月,无人车经历了14次交通事故,其中13次

    是由人类司机的行为导致。只有一次是障碍避让导致了撞车。图5-3 由凌志RX450h改装的谷歌无人驾驶汽车

    从机器人的发展历程来看,谷歌无人驾驶汽车具有里程碑式的意

    义。人类的自然科学从一开始就建立在严密的逻辑和规则之上,机器人

    也是从空间上时间上都可以精确执行的任务开始。在这个层次上,人类

    已经把各种内部外部的影响因素做好了建模,机器人只是求解这一模型

    的数学工具。随着实现的功能的复杂化,机器人的结构也变得越来越精

    细,但它不具备、也不需要具备基本的认知能力。谷歌汽车的出现实质

    上就是对建立机器人认知能力的尝试。复杂的人类世界是不可能用确定

    的模型描述的,要适应这样的环境,机器人就必须自适应地理解环境,首先是从大量实例中学习必要的规则,再根据学习的规则形成判断的思

    维,最后利用这思维指导实际的决策。与传统的工业机器人相比,谷歌

    汽车在工程上的突破也许有限,但它却有希望成为第一个在复杂环境中

    替代人类劳动的机器人,这无疑意义深远。

    无论是语音助手还是无人驾驶,都有很长的路要走,可它们已经指

    明了机器思考能力进化的道路。乌合之众还是有血有肉

    ——集群智能

    “在第十一届中国国际航空航天博览会上,我国第一个固定翼无人

    机集群飞行试验以67架飞机的数量打破了之前由美国海军保持的50架固

    定翼无人机集群飞机数量的纪录。‘集群智能’作为一种颠覆性技术,一

    直被军事强国视作军用人工智能的核心,是未来无人化作战的突破口。

    把无人机群作为一个整体来控制,对未来无人机作战及应用方面有广阔

    的前景。与单机作战平台相比,无人机群在作战时具备功能分布化、体

    系生存率高、作战成本低等优势。在对抗过程中,当部分个体失去作战

    能力,整个集群仍可以继续执行作战任务。”

    上面的文字节选自新华社的一篇报道,它展现出我国国防科工的重

    大进展,也涉及到“集群智能”这一人工智能中的重要概念。

    在巴西的亚马逊雨林中,几十万只行军蚁——已知的行为最简单的

    生物——正在行进。用现在时髦的话说,这是一支去中心化、自组织的

    大军。在这个蚁蚁平等的团体中,单个蚂蚁几乎没有视力,也不具备什

    么智能,可聚集成团体的它们组成了扇形的团状,一路风卷残云地吃掉

    所有能吃掉的,带走所有能带走的。高效的它们只需一天就能摧毁雨林

    里一个足球场面 ......

您现在查看是摘要介绍页, 详见PDF附件(3395KB,226页)