智能语音时代中文版.pdf
http://www.100md.com
2020年1月6日
![]() |
| 第1页 |
![]() |
| 第9页 |
![]() |
| 第17页 |
![]() |
| 第29页 |
![]() |
| 第48页 |
![]() |
| 第79页 |
参见附件(1741KB,233页)。
智能语音时代是由詹姆斯· 弗拉霍斯所著,副标题为:“商业竞争、技术创新与虚拟永生”,智能语言已经进入了我们的生活,从简单的播放歌曲,到下单购物,它已经无处不在。

智能语音时代预览图




《智能语音时代》推荐理由
本书是《从0到1》的美国版权商2019年全新重磅作品,智能语音入选《麻省理工科技评论》2019年全球十大突破性技术,本书为你解密苹果、亚马逊、谷歌、Facebook、微软等科技巨头的智能语音布局与商业角逐,决胜未来的智能语音核心技术、商业思维和未来趋势。《连线》主编尼古拉斯·汤普森、Siri创始人汤姆·格鲁伯、传奇预言家雷·库兹韦尔、科大讯飞创始人刘庆峰等大咖联袂力荐。
《智能语音时代》作者简介
本书作者James Vlahos是《纽约时报》、《大众科学》、《科学美国人》、《大西洋》、《智族GQ》和《国家地理》等杂志著名专栏作者,美国鬼才科普作家。James Vlahos以兴趣盎然、发人深省的方式来讨论这些复杂难懂的科学问题见长。《智能语音时代》内容十分扎实,作者从20世纪80年代开始关注和跟踪语音科技,本书是作者多年来研究成果的集中呈现。
苑东明企业高管,独立译者,已出版译著近二十部。胡伟松中国农业大学博士,在地方政府经济部门工作,案牍劳形之余,译海寻珠为乐。
《智能语音时代》目录
第一部分 竞争
CHAPTER01 范式转移 / 002
CHAPTER02 语音助理 / 019
CHAPTER03 科技巨头 / 052
第二部分 创新
CHAPTER04 探索之旅 / 086
CHAPTER05 技术突破 / 116
CHAPTER06 个性设计 / 156
CHAPTER07 交谈能力 / 188
第三部分 革命
CHAPTER08 陪伴功能 / 226
CHAPTER09 超级智能 / 268
CHAPTER10 隐私风险 / 302
CHAPTER11 虚拟永生 / 342
智能语音时代截图


目录
作者简介
其他
出版前言
推荐序
译者序
引言
第一部分 竞争
CHAPTER 01 范式转移
CHAPTER 02 语音助理
CHAPTER 03 科技巨头
第二部分 创新
CHAPTER 04 探索之旅
CHAPTER 05 技术突破
CHAPTER 06 个性设计
CHAPTER 07 交谈能力
第三部分 革命
CHAPTER 08 陪伴功能CHAPTER 09 超级智能
CHAPTER 10 隐私风险
CHAPTER 11 虚拟永生
后记 最后的计算机作者简介
詹姆斯·弗拉霍斯(James Vlahos)
《纽约时报》《连线》《大众科学》《科学美国人》《大西洋》《智族GQ》
和《国家地理》等杂志著名记者,美国鬼才科普作家,以妙趣横生、发人深省的
方式来讨论复杂难懂的科学问题见长。
弗拉霍斯从20世纪80年代开始跟踪和报道语音技术,30多年来,他零距离地
见证和细致地观察了这一领域的研究进展,曾与这一领域中的许多杰出人物直接
对话,本书中的许多观点都来自他对一手访谈资料的提炼。
苑东明
企业高管,独立译者,已出版译著近二十部。
胡伟松
中国农业大学博士,在地方政府经济部门工作,案牍劳形之余,译海寻珠为
乐。
其他
献给我的父亲约翰,因为他没来得及看到本书完稿。献给我的妻子,因为她
见证了本书的整个写作历程。
出版前言
作为一个见证者,我非常庆幸自己亲历了波澜壮阔的互联网时代、大数据时
代、人工智能时代,深切感受到了接踵而至的技术浪潮是如何快捷地改变我们的
工作和生活的,如果未来有闲暇时间追根溯源,那一定是一件非常美好的事情。
作为一个出版人,我也非常高兴能够遇到今天正式呈献给各位读者的这样一
部优秀的科技人文作品,对于这本深入浅出、充满趣味又可能引领一个新的时代到来的科普著作,能够先睹为快,实在是一件令人赏心悦目的事情。
关于智能语音时代,我们大部分人已经多多少少有了一些直接或间接的感
受。比如我们手机上的Siri或者其他语音软件,这曾是苹果手机最令人瞩目的新功
能之一;又比如我们经常在用的语音导航软件里传出的林志玲的“娃娃音”,还有
微软小冰展现自己诗歌“别才”的诗集《阳光失了玻璃窗》;当然,还有电子鸡、旅行青蛙这样风行一时的电子宠物。
对我来说最新的例子是,我在2019年春节期间购买了一台小米智能音箱(“小
爱同学”)作为礼物送给父母。“小爱同学”的乖巧能干,可着实把他们惊呆
了。“小爱同学”为他们做的第一件事是播放花鼓戏《浏阳河》,这是现代技术与
古老文化碰撞出的新奇体验。
与我们直接的生活经验不同,被称为美国鬼才科普作家的本书作者詹姆斯·弗
拉霍斯(James Vlahos),给我们带来了对语音技术这样一个蔚为大观的科技发
展趋势的深入洞察。作为智能语音领域的开山之作,作者确实出手不凡,他把语
音技术、应用与产业的讨论引向了难得的高度,非常清晰地给我们展现了智能语
音时代的新场景。
詹姆斯·弗拉霍斯是一位长期追踪研究语音技术和语音人工智能领域的专题记
者,30多年来,他零距离地见证和细致地观察了这一领域的研究进展,曾与这一
领域中的许多杰出人物直接对话,本书中的许多观点就是来自他对第一手访谈资
料的提炼。
更难能可贵的是,本书作者还是这一领域的深度涉猎者和亲身参与者。他从
十几岁起就对人与机器的对话产生浓厚兴趣,并曾尝试用BASIC语言开发了自己
的文本对话游戏(虽然只能运行寥寥几步),他还开发出了以自己父亲为蓝本的
聊天机器人,让自己的父亲实现了“虚拟永生”。
因此,本书不管是观察与思考的深度和广度,还是研究资料的广泛和翔实
等,各个方面都令人钦佩,也让人感到“解渴”和过瘾。读这样一本书,从实用的
角度说,花费的时间有更高的性价比,它能让我们真切地感受到一个新的产业生
态的发展趋势,启发我们从经济、社会和文化等角度来思考语音技术和语音人工
智能已经或即将带来的影响。翻开这本书,你首先就会被作者这样的话语所吸引:每十年左右,人与技术
的互动方式就会有一个根本性的转变。数十亿美元的财富会“恭候”那些定义了新
的时代范式的公司,而落伍者将破产倒闭。在计算机的大型机时代,IBM是主宰
者;微软公司是桌面时代的王者;谷歌公司靠搜索引领了互联网时代;苹果公司
和脸书公司则在移动互联网时代一飞冲天。
最近的一次范式转移正在进行中。
最新的平台之战已经打响。
最新的技术颠覆正在发生,无论是其规模还是其重要性,都可能是世人前所
未见的。
我们正在迈入智能语音时代。
语音正在变成影响现实的通用遥控器,成为几乎能控制任何一种技术装置的
手段。语音能够让我们指挥各种数字产品助理——“行政助理”“门房”“主妇”“管
家”“顾问”“保姆”“图书管理员”“演艺人员”等。语音打破了世界上一些最有价值的
公司的商业模式,为新的应用创造了机会。语音把对人工智能的控制权交给了用
户。很久之前科幻作品就预言过这样的关系模式,在这样的关系模式中,拟人化
的人工智能成为我们的“助手”“看门人”“预言者”“朋友”。
作者这样言之凿凿,显然并非空穴来风。了解作者的思考逻辑,把握这样一
个大趋势,并以此指导我们的工作和生活,必然有利于我们做出更多正确的选
择。书中提到,当Siri在2010年刚刚被开发出来时,先知先觉的苹果公司前CEO乔
布斯曾经连续17天每天给开发者之一的吉特劳斯打电话,有时甚至深更半夜也
打,终于把Siri收入苹果公司囊中。
远见从来都是人类最宝贵的品质之一,作为智能语音领域的第一本书,这也
可以视为一本“远见之书”。
除了具有经济性含义的远见,本书还非常重视这项新技术对人类精神和感性
世界的影响,甚至作者也把自己和自己的家庭带入了与语音人工智能的互动过程
中,这大大增强了本书的故事性。本书有文采、有温度、有趣味,展卷在手,没
有同类书的枯燥和沉重,反而有一种引人入胜、不忍释卷之感。正如作者在书中所言:智能语音时代的到来是人类历史的转折,因为运用语
音是我们人类这个物种的特质——这一能力把我们和其他物种区分开来。人类的
内部意识的中心不在肺部的空气里,也不在血管里的血液中,而是在大脑的语言
区里。语言调整着我们的关系,它能塑造思想、表达感受、沟通需求;它能发起
变革、挽救生命、激起爱恨情仇;它把我们所知道的一切记录下来。
不管语言是由人说出来还是由机器说出来的,尤其是当“你应我答”的模式出
现,在人与人之间、人与机器之间,交谈就绝不只是一种纯粹依靠逻辑展开的过
程。语言永远不是脱离内容的外壳,人都会被语言影响或打动。作者在书中讨论
的种种事例和情境,都让我们领悟到人和机器之间的语言交流对我们的情感世界
带来的影响和改变。未来,我们与无处不在的机器构成的世界,将是一个前所未
见的更加丰富多彩的感性世界。在云时代,“只要简单地加上一个麦克风和一个
Wi-Fi芯片,任何装置都能实现语音驱动。从浴室的水龙头到孩子玩的布娃娃,任
何装置都能利用分布在全球的几千台计算机所提供的计算能力。”这几乎意味
着“万物能言”的童话世界真的实现了。
基于这样的前景,作者指出:当聊天机器人同时作为工具和准生命进入我们
的生活时,它们模糊了人与机器人的界限,模糊了隐私、自主权和亲密感的界
限,还模糊了人际关系与数字关系、现实与虚拟、生与死的界限。
可以想象当这些界线模糊之后,在我们的生活中将会发生多少故事。这些故
事肯定不会按照单一的模式进行,必定会有更多“人机情未了”式的故事演绎。
除了上述简单提到的精彩内容,还值得一提的是本书中充满浓厚的中国元
素,从另外一个侧面拉近了中国读者与这一话题的距离。
作者在书中用很大篇幅讨论了亚马逊公司主办的亚历克莎奖竞赛,他这样介
绍在比赛中拔得头筹的华盛顿大学团队,“这种方法是由该团队28岁的学生领袖郝
方提出的。郝方来自中国宜春市,他活力四射、性格开朗。他和他的团队成员希
望让他们的聊天机器人的评审用户也能感到快乐。”正是这位郝方同学带领的团队
所开发出的聊天机器人创造了交谈长度20分钟的记录。
“当华盛顿大学团队的成员上台后,普拉萨德把那份令人满意的奖品发给了他
们——一张金额达50万美元的巨额奖券式支票。郝方大笑着拿过支票,对着镜头竖起了大拇指。”
此情此景也让我们为这位郝方同学高兴。
在由10万个问题组成的斯坦福问答数据集测试中,真人平均能答对82%的问
题。微软公司、阿里巴巴公司在2018年1月公布,它们所开发的系统得分和普通
人得分一样高,这成了当时的头条新闻。
另外,还有在微软公司负责Zo聊天机器人项目的王颖,以及大家所熟悉的微
信,都是书中屡屡提及的对象。这些中国元素让我们看到,我们与这一项划时代
科技突破的关系从来没有像今天这样接近过。这令我们感到自豪,也让我们与本
书的主题产生了千丝万缕的关系。更何况,我们的人工智能领域的标杆企业——
科大讯飞,经过在智能语音领域的勇敢探索,已经成为全球智能语音产业的主力
军和技术领先者。
作为一项具有重大颠覆性的技术,语音技术和语音人工智能带来的影响是非
常深远的,我们难以给出一个简单判断。作者对此的认识非常深刻,他指出:“从
鱼钩到火星探测器,我们一直在制造工具。虽然我们制造出了很多对我们有用的
东西,但它们在更深层次上都不像我们。即使是类人机器人,它们能做的也只是
笨拙地移动。使用语言是人类这个物种真正与众不同的地方。语言把我们连接起
来。因此,教机器掌握语言不同于通过编程让它们学会进行衍生品交易、做手
术、进行海底航行或其他事情。我们正在“共享”人类的核心特征。”
我们应该看到,“就像历史上的其他给人带来便利的新技术一样,人工智能也
可能会让我们付出新的代价。我们可能在智力活动上变得更加消极,我们将更少
自主地寻找答案。寻找答案是一种激发好奇心、激发思考的过程。有了人工智
能,答案会来找我们。与打开水龙头放水相比,从井里费力地打水明显过时了,而费力地寻找答案也正在变得过时。”
这显然可以视为其消极的一面,但人类从未因为其消极的一面而排斥过任何
一项能够带来巨大便利的新技术。
因此,作者又向我们指出:如果应对得当,语音技术有可能成为我们发明的
最有感情的技术。认为人工智能只能是冷冰冰的算法的观点是错误的。我们可以
将最好的价值观和同理心注入其中。我们可以让它变得聪明、令人愉快、精灵古怪,并且善解人意。有了语音技术,我们最终可以制造出不那么陌生、更像人类
的机器。
未来已来,一场智能语音科技大秀的帷幕正在拉开。随着5G时代的到来,包
括语音技术在内的人工智能技术,一定会让世界更美好。
本书在出版过程中,得到了工业和信息化部信息化和软件服务业司副司长董
大健先生,科大讯飞董事长刘庆峰先生,以及北京市科学技术协会、科大讯飞的
大力支持,特此致谢。我们相信,本书的出版发行,能够更好地助力我国语音智
能产业的发展。我们期待,各位打开这本书,能更加全面地把握语音技术与人工
智能的发展态势,激发起创新创业的强烈愿望。让我们积极迎接智能语音时代到
来!
电子工业出版社总编辑
推荐序
智能语音,开启万物互联时代的大门,让AI闪耀人性光芒
一位被诊断为患有晚期肺癌的父亲,在生命末期,为孩子留下了91970个单
词的口述。孩子打造了一台爸爸机器人,让父亲在声音的世界里“永生”——这个
孩子就是本书的作者。
这个令人动容的故事让我们感受到语音的温度和科技的温暖。
在中国,科技也在创造着这样的温暖。2018年年初,在全球首部利用人工智
能配音的纪录片《创新中国》中,我们合成了中央电视台已故配音大师李易的声
音,用技术向艺术致敬。在首映式上,李易老师的弟子们集体起立、热泪盈眶。
语音,是人类呱呱坠地后最早使用的沟通方式,也是现代人际交流最基本
的方式,更是未来人机交互最重要的方式。人工智能跌宕起伏发展60多年,智能语音是发展到今天最为成熟、也是最重要的板块之一。“最近的一次范式转移正在
进行中。” 作者在书中提到,这次转移正是关于智能语音的。
语音,开启万物互联时代的大门。
在互联网发展的下半场,我们将进入万物互联的新时代。随着越来越多的设
备在无屏、移动、远场状态下被使用,作为人类最自然、最便捷的沟通方式,语
音将会成为所有设备至关重要的入口。未来,我们将迎来以语音交互为主、键盘
触摸为辅的全新的人机交互时代,人和机器之间的沟通,可能完全是基于自然语
言的,你不需要去学习如何使用机器,只要对机器说出你的需求即可。
比如在导航软件中,你能听到各种明星的合成声音,可以用他们的声音为你
指路;在电视上,你能看到虚拟主播播报的多语种新闻,与真人相比不仅相似度
高,而且24小时无休;在居家生活中,你能通过语音控制音乐、灯光、温度,实
现智慧家居;甚至在医院里、社区里,你能用语音调动机器人帮你办理事项,节
省时间……人工智能已经在为我们的日常生活服务,智能生活的大门正缓缓打
开。
语音,让时代更具人性温度。
智能语音是通向万物互联时代的必经之路,它的存在让交互方式拥有无限的
可能,也让这个时代更具人性的温度。
20世纪90年代,我在就读于中国科学技术大学时被选进人机语音通信实验
室,研究“如何让机器像人一样开口说话”。那时,团队的一个梦想是研发一台能
自动翻译的电话,即使交流时语言不通,通过人工智能技术也能让我们无障碍地
交流;20多年后的今天,我们自主研发的翻译机已经支持中文与50种语言的实时
翻译,每个月总共为全球提供超过5000万次服务。智能语音让被地域、文化等因
素隔离的人们也能无障碍地沟通。
此外,我们通过技术在听障和视障人群间搭起沟通的桥梁,让听障群体通过
语音识别技术“看得见”声音,让视障群体通过语音合成技术“听得见”文字。2017
年我们发布了“三生有幸”公益计划,目前已有几十万残障人士受益。语音转写、语音朗读为他们获取信息带来了极大便捷。我们希望,随着语音技术的使用与发
展,未来每个人都将因AI而能。语音,在万物互联时代技术门槛将会更高。
在以语音为主、键盘触摸为辅的万物互联时代,人们对语音交互提出了更高
的技术期待与需求。今天,虽然在安静、发音标准的情况下,中文的语音识别准
确率已经可以达到98%,英文的语音识别准确率可以达到95%,但在有方言、噪
音、口音和远场的情况下,距离语音识别高准确率或许还有很长一段路要走。
以2018国际语音识别比赛CHiME-5为例,它是世界上最权威的语音识别比
赛,考察在噪声和远场环境下的语音识别效果。但是让人意想不到的是,比赛主
办方用最新的算法和深度学习模型做了参考系统,在测试中语音识别错误率竟高
达81.14%,可以说是“史上最难语音识别任务”。科大讯飞虽然在这次比赛中取得
全部四个项目的第一名,将错误率降低了35个百分点,但是距离高准确率仍有不
小的差距。可以看到,在万物互联时代,语音识别技术还有非常大的提升空间,语音识别的门槛不是降低了,而是提高了。
20年前,我和实验室的同学们一同创立科大讯飞,就是认定了智能语音巨大
的潜力和广阔的前景,它会让人机信息沟通无障碍。今天,看到这本《智能语音
时代》,我非常高兴。作者对语音技术的发展趋势有着深刻洞察,从Siri诞生到谷
歌助理、亚历克莎的规模化应用,以翔实的资料、细致的文笔讲述智能语音时代
的到来及其可能带来的影响。这本书不仅是对智能语音的科普,更让读者对智能
语音未来的发展有了更多的了解。
“他山之石,可以攻玉。”人工智能正在成为全球化发展的关键力量,中国的
语音技术和产业也必将在其中发挥更大力量。相信本书的出版,会让更多人重新
认识神秘且熟悉的语音世界,让我们一起携手,让世界聆听我们的声音,让沟通
从AI开始。
科大讯飞董事长
译者序
因为幸运地托庇于一家优秀的企业,因为有家庭这个稳定的大后方,我四十岁后的生活,显得波澜不惊,也因为有稳定的预期而变得无忧、无惧。
这是不可否认的幸福生活。
我为此而深深感恩。因为这样的生活能够让我以一种从容的心态去超越生
活,而不必以剑拔弩张的姿态去与生活争斗,更不必“赋到沧桑句便工”。
与电子工业出版社(以下简称电子社)的相遇和相知与我而言就是这样一种
从容而幸福的超越,是在不知不觉中,漂流到了一处未曾意料过的“桃花源”,自
己的生命也因此在有意无意之间变得更加丰盈起来。
第一次接触电子社的书是在1988年,那时我正读大学二年级,从此便对这家
出版社有了印象。
成为电子社的译者则始于2015年翻译《学会学习》一书,从此,电子社成了
与我的生命有最多交集的文化机构。四年过去了,本书已经是我为电子社翻译的
第11本书,在这四年间,这11本书成为我这段生命航程中虽不耀眼,但足以让我
感到小小满足的一份成绩。
这11本书的翻译是在工作之余完成的,它们不是我生活内容的主体,也不是
我发力死磕的对象,一切似乎都是很自然地生发出来。赶工的辛苦自然是有的,译完一本书的那个瞬间所体会到的轻松畅快也沉淀在记忆中,但让我印象更深的
是那种一本书译完之后大约十几天到一个月就会产生的虚空感,仿佛一切已经归
零,又该继续“战斗”了。这个时候,当电子社的刘声峰老师、黄菲老师问“有本书
愿不愿意翻译”时,我真仿佛如闻“纶音”,肾上腺素会陡然升高,对生活的意义似
有了更明显的感知。
毫不夸张地说,与电子社合作的翻译事业,在无意中丰富甚至改变了我的人
生。这固然不是什么了不起的大事,但作为一个普通人,我们的人生本就平淡无
奇。电子社的11本书,加上为中国人民大学出版社翻译的9本书,把我这四年的
闲暇时光填充得满满当当,有力地提高了我生命的密度,驱走了许多可能是庸人
自扰的无聊。人生的陀螺旋转得更顺畅、更自信,生活也在运动中达到了更理想
的平衡。四年来,当生命和时间像流水一般逝去,在一片琐碎的生活汪洋中,还
分布着这样一些属于真诚努力和用心探讨的“岛屿”,这让我深感幸运。还要说说电子社的刘声峰老师、孙学瑛老师和黄菲老师,其中只是与刘声峰
老师有过一面之交,但感觉与各位老师都神交已久。他们的豪爽与真诚,质朴与
平易,让我产生了要与电子社风雨同舟的亲切感和使命感,推动我突破理性的界
线,夸张地想以对历史负责的态度,对一本译作视若己出、尽心用情。
最后说一下这本《智能语音时代》。译罢本书我有一种如饮醇醪的感觉,感
觉十分幸运。在我的阅读范围之内,在我国,无论是对一个产业的观察还是对企
业史的写作,还从来没有出现过本书的样态,因此,我认为,它对我国此类文体
的写作,具有教科书般的意义。作者对智能语音有着全面的、深刻的见解,本书
作为该领域的首部专著,为围绕智能语音这个主题的讨论确立了一个相当高的标
杆。
“匹夫而为百世师,一言而为天下法”。与书中讨论的乔布斯、贝佐斯等行业
大咖比起来,本书作者也许只能瞠乎其后,但他对这一行业的“超然远览,奋其独
见,爬梳剔抉,参互考寻”之功也绝对值得珍视。
很高兴能够与胡伟松先生合译本书,合作的缘分来自一次共同海钓的经历。
一起海钓、一起翻译,实在是件快乐的事情。能够把这样一本书介绍给读者也是
一件幸事。
苑东明
引言
洞见者
“我们为什么要让大家秘密行事?”穿着绿衬衫的人说,“因为这可是个‘大
招’。”
在纽约百老汇大街25号一处通风的阁楼里,有8个人围着他团坐在沙发或椅
子上。他们不断地点头,表示发自肺腑地认同他的高论,穿着绿衬衫的人的思想
让他们浮想联翩。“这个‘大招’最有趣的地方是,”这人继续说道,“和其他所有‘大
招’一样,它道理简单,简单到人人都能想得到,但还是我们先想到了。”
正在说话的这个人是彼得·利瓦伊,他是一家名为Active Buddy的高科技初创企业的首席执行官。这是在2000年3月,公司正有400万美元的风投资金存在银
行,公司的墙上挂着镖靶,接待区还摆着昂贵的艺术品。参会的人相信新的历史
即将被创造,一个拍摄纪录片的剧组正在办公室里忙碌着,他们要把这一切记录
下来。
这个“大招”来自公司总裁罗伯特·霍夫和首席技术官提姆·凯的灵感。这个灵
感是这样产生的——霍夫和凯都是互联网资深人士,曾在20世纪90年代中期创建
了一个电话网页的在线版本。在20世纪90年代末期,正在为寻找新思路而大伤脑
筋的霍夫和凯有一天通过美国在线公司的即时信息平台(AOL's Instant Messaging
Platform)下围棋,该平台的英文缩写恰好是AIM(目标),于是霍夫让凯查询苹
果公司的股价。
凯在查阅完信息准备回复霍夫时,产生了一个想法。作为一名天才程序员,他花了几分钟时间写了几行代码,这段代码能够让计算机充当代理人,能设计出
机器人,还能替他自动给霍夫回信。他成功了,霍夫收到了股价信息。
在霍夫和凯看来,这次简短的“联系”预示着良好的前景。那时,整个世界正
为互联网着迷。在网络浏览器的争夺战中,网景公司正在奋力开发IE浏览器。在
搜索引擎领域,愿景公司、雅虎公司和一家名叫谷歌的新公司正在争夺公众的“芳
心”。在网上搜索信息已经成为一种文化现象,人们还用“网上冲浪”来描述这项活
动。
霍夫和凯没有被“网上冲浪”的热潮打动。倒是能够查询股票行情的机器人程
序让他们感到新奇,他们觉得这个程序能够让人与计算机之间的互动更加自然、强大,并且富有乐趣。如果人们仅通过用日常语言与计算机像朋友一样交谈,就
能轻松获取数字世界的“宝藏”,那么这该是怎样的一番情景呢?
当然,计算机不可能变成真人,而只能模仿人。聊天机器人是一个能交谈的
机器人,或者说,它能通过AIM或其他短信平台用文本与人沟通交流,人们只需
要像加好友一样把它加入自己的通讯录即可。这样人们就可以利用它了解股价、最新的新闻资讯、体育比赛比分、电影上映时间、字典上的词条等。人们能够利
用聊天机器人玩游戏、处理琐事,甚至能够进行网上搜索。
通过技术开发,Active Buddy公司在2001年3月推出了它的第一款产品。这是一款名为“伶俐小孩”的聊天机器人。虽然公司没有花钱进行营销,但不可思议的
是,这款产品“火”了。用户们对能与计算机进行基本对话,能够分享他们的在线
聊天记录感到十分高兴,纷纷鼓励自己的朋友也去与“伶俐小孩”聊一聊。到了同
年5月,公司获得了一个推广产品的机会,利瓦伊视之为天赐良机。名为“电台司
令”的乐队成员希望公司能为他们设计一台名为“曲线球牛头怪”的聊天机器人,目
的是推广他们即将发表的新专辑《健忘症患者》。
不久之后,“伶俐小孩”和它的设计者就开始在全国范围内的各类报纸上露
面,并且设计者还接受了像泰德·科佩尔这样的名流所主持的电视访谈。麦当娜和
其他音乐家也希望拥有这样的聊天机器人,雅虎公司、微软公司来与设计聊天机
器人的公司商讨并购事宜。不到一年的时间,“伶俐小孩”就积累了900万用户。据
估计,在全美国的即时通信流量中,有5%是发生在用户和“伶俐小孩”之间的,这
个数字令人惊叹。
不过,这种成功只是表象而已。“伶俐小孩”与用户的对话记录显示,发明者
设想的那种能助人一臂之力,能够提供丰富信息的聊天机器人还尚未完成。在这
个数量达几百万的用户群体中,关心股票行情的总经理和想了解影讯的用户只占
很少的比重。用户中相当一部分是百无聊赖的年轻人,他们常常在“伶俐小孩”上
说脏话,甚至进行谩骂。
这让人深感失望。但是对话日志所显示的一种模式也证实了发明者对可对话
计算机最终发展前景的一个宏伟设想。或者,至少可以说,存在着这样的尝试。
人们愿意去谈论他们的爱好,比如自己喜欢的乐队。他们感到孤独,只是想与“伶
俐小孩”聊聊——有时甚至一聊就是几个小时。
霍夫被迷住了。科幻作品中不乏对走火入魔的人工智能生物的描述,如自我
毁灭者、哈尔、魔鬼终结者,但他还是对那些富有浪漫色彩的情节更有共鸣。他
尤其喜欢拍摄于1999年的影片《机器管家》。在这部影片中,罗宾·威廉姆斯饰演
了一个想成为真人的敏感而足智多谋的机器人。霍夫由此意识到,既然人们真的
想与“伶俐小孩”交谈,他就应当以实现人们的愿望为使命。他后来回忆道:“从一
开始,我就怀有这样一种梦想,互联网上应该有人们最好的朋友。”
问题在于,如何实现这种想法。从数字数据库中检索一些事实性信息,如电
话号码、体育比赛比分,并反馈给用户,这不足以让“伶俐小孩”成为一个讨人喜欢的朋友。“伶俐小孩”还必须会聊天。因此Active Buddy公司雇用了一群对话设
计师,由他们事先编写上万条回复信息,当在聊天中遇到合适的时机时,“伶俐小
孩”便能够“搬来即用”。
对话设计师中有一个人名叫帕特·吉尼,他放弃了摇滚音乐家的生活,选择到
新媒体去开辟事业。他为“伶俐小孩”创建具有一致性的人格特征,把它那些枯燥
无趣的对话变得妙趣横生。他赋予聊天机器人一丝幽默感,这其实就是他自己的
那种谈话风格,所以同事们开玩笑说,当人们与“伶俐小孩”闲聊时,实际的谈话
对象其实是吉尼。他和其他对话设计师还构建起聊天机器人的知识库,因此,面
对用户喜欢的任何谈话主题,如棒球或电视上的真人秀节目,“伶俐小孩”都能说
出有见地的话。“伶俐小孩”甚至能记住一些片段性的信息,如A用户喜欢白色条
纹乐队,而B用户偏爱Jay-Z乐队。
对霍夫来说,这只是个开始。他相信经过进一步开发,聊天机器人在语言能
力、情绪感知和人格发展方面的可能性其实是没有边界的。人和聊天机器人的关
系可能会持续几十年,聊天机器人将成为人一生的朋友。
遗憾的是,霍夫的梦想被发生在2001年的互联网企业倒闭潮摧毁了。向
Active Buddy公司提供了400万美元的投资者不想考虑那么久远的事情,他们只想
知道公司在当下如何才能赚钱。霍夫和利瓦伊相信,一旦用户基数发展到足够
大,就会带来经济回报。但是他们也不知道究竟如何做才能赚钱。来自凯和投资
者反驳的理由是,数百万的年轻用户根本不会为此付费。经过几次激烈的辩论
后,霍夫的阵营输了。在2002年年初,他和利瓦伊都离开了公司。
后来,斯蒂芬·克莱因担任了公司的CEO,Active Buddy公司最终才涅槃重
生,改名为Colloquis,这个名字很容易让人联想到类似《上班一条虫》这部影片
所反映的那种死气沉沉的公司风格。公司业务转为生产能够用于公司客户服务应
答的聊天机器人,其中的大用户包括时代华纳有线、万迪奇及康科斯特公司。三
年之后,Colloquis公司被微软公司收购。对原来的投资者而言,这是一次成功的
退出。但奇怪的是,微软公司很快就对自己新的“战利品”失去了兴趣,在2007年
年末传出来的一桩丑闻更是雪上加霜。
到了2008年,最后一个聊天机器人生产者被解雇了。霍夫更是在很早之前就
离开了,但他从未忘记初心,即使这个愿景现在已经付诸东流。聊天计算人沦为一个异想天开的“大”创意。
2018年,拉斯维加斯举办了一年一度的国际消费类电子产品展览会,参会者
数量高达180,000人,大家都在谈论有关计算机的话题。展览会上的产品有手掌
大小的计算机,花瓶形状的计算机,还有看起来像是印上了品牌Logo的香烟打火
机。有的装置带屏幕,也有的不带。还有其他产品,如汽车、屋顶吊扇、电源插
座、相机、门锁、花洒和咖啡机等。如果在2008年,霍夫曾经拿着一本《睡谷传
奇》垫在脑袋下沉沉睡去,那么在11年后的今天醒来,他可能会觉得自己这一觉
像睡了30年。
在“伶俐小孩”的年代,人们只是通过打字输入信息。如今,在展览会250万平
方米的展位间,回荡的是人与机器对话的声音,机器在执行人的指令,而且还会
回话。这是一股嘈杂的声浪,有人在发送指令让百叶窗关闭,有人在让空调启
动,有人在让音箱播放歌曲。还有人对着柜台上的屏幕请教做小酥肉的菜谱,指
挥冰箱把猪肘子加入购物清单中,并控制监控摄像头、扫地机器人、打印机、烤
箱,也有人询问邮箱是否有来信,汽车是否需要加油,草坪是否需要浇水。
总之,在展览会上展出的数以千计的装置,都有对话和帮助功能,它们看起
来几乎无所不能。想象一下,在你开车时,它们能为你做些什么。它们能为你启
动汽车、检查油箱、找到最近的加油站。为了让你在驾驶时不感觉无聊,它们能
帮你打开美国国家公共电台、美国有线新闻网和《华尔街日报》的音频。它们能
帮你选择播放慢音乐或敲击摇滚乐——事实上任何音乐家的任何曲目它们都能替
你找到。它们能制造出波浪的声音,祖父时代老古董闹钟的滴答声,或雨滴打在
铁皮屋顶的声音。
与语音助理交谈可以得到给孩子起名的建议,你可以用它们订购尿布,还可
以让它们读睡前故事。它们能监控孩子的睡眠时间和大便次数。它们能提醒孩子
清理自己的盘子,打扫自己的房间,在横穿马路前要先向两边看。它们能提醒老
年人按时吃药,老年人还能用它们玩提升记忆力的游戏以保持头脑清醒。
展览会上的用于浴室中的电子产品也五花八门,比如有能说话的镜子分享化
妆建议,它们为早晨要通勤的人提供交通信息,而且还能与用户互动。浴室里的花洒在听到声音指令后会自动打开。盥洗室会自动开门,会为用户加热他们的座
位,甚至会和他们闲聊几句。
在卧室里,当你醒来后,语音助理会询问你感觉如何,向你报告你的睡眠质
量,而且还会给你提出一些放松心情的建议,比如做做操振奋一下。这些语音助
理能够帮助你挑选徒步旅行路线,监控你的步数。或者,如果你计划做一些更安
静的事情,那么它们会引导你在家里做瑜伽。
如果做瑜伽激起你的食欲,那么语音助理就会告诉星巴克在柜台上为你准备
一份拿铁和田园南瓜面包,或者让丹尼斯餐厅准备一份丰盛的早餐——比萨和6
听啤酒。语音助理能追踪冰箱里的剩饭情况,并提醒你刷盘子。
如果你的家人出去了,语音助理能告诉你他们现在的动态。在他们回来之
前,语音助理会像真正的朋友一样伴你度过这段时间。它们能向你建议母亲节买
什么礼物,还会给你的约会之夜提出建议。它们能指导鱼缸如何喂鱼,猫碗如何
喂猫,喂鸟器如何喂鸟。如果你出去了,那么它们会通过安装在狗项圈上的喇
叭,主动告诉狗狗你非常爱它。
在提高工作效率方面,语音助理能够通知你的银行付款,要求保险公司更新
索赔请求,还能搜索航班。它们能帮助你找到水管工人、房地产经纪人,还有修
缮屋顶的人。只要是能制造出来的产品,它们就能帮助你下订单。
展览会上这些有对话功能的机器人不但用途广,而且它们的智能水平也有无
限的发展空间。它们能回答很多关于日常生活的问题:“我下次会议安排在什么时
间?”“I-80公路的通行情况如何?”或者“Gordo Taqueria餐厅什么时候打烊?”并
且,它们也能回答很多需要有广博知识储备的问题:“亚历山大·汉密尔顿是什么
时候出生的?”“哈利·法塔有多高?”或者“一个牛油果包含多少卡路里的热量?”
在推出这些语音助理的公司中有许多我们熟悉的名字:福特、丰田、宝马、索尼、LG、霍尼韦尔、科勒、西屋电器、惠普和联想等。但这些公司的特色是生
产语音助理的“身体”,而它们的人工智能“大脑”,在美国大部分是由亚马逊公司
或谷歌公司生产的。亚马逊公司人工智能的产品叫亚历克莎(Alexa),它的对手
是谷歌助理(Google Assistant)。
这两家公司在展览会上以不同方式广泛地宣传自己的产品。谷歌公司占领了所有的营销位置,仿佛在昭示这就是属于它的展览会。在整个拉斯维加斯,确实
有两个词铺天盖地地存在,这就是“Hey,Google”。这两个词也在提醒谷歌助
理,要通过任何已经连接上的装置来倾听用户的声音。
这两个词出现在列车上、墙体上、滑梯上、糖果机上……这两个词就像不断
重复的“咒语”,同时也像是对一种技术的推介和对其主导地位的宣示。
亚马逊公司倒是没有用这样的品牌宣传阵势来吸引参会者,也许是它觉得自
己没有太多需要去证明。在参加展览会时,亚马逊公司已经占据了美国智能家居
音箱(语音助理是其产品特色)市场75%左右的市场份额。在展览会召开的同
时,又有1200家不同种类的公司把亚历克莎整合进大约4000种智能家居产品中,而谷歌公司声称它与225个品牌的1500种产品建立起了伙伴关系。
虽然亚马逊公司不借助任何大型的糖果机之类的东西来吹嘘自己,但它也并
非低调。亚马逊公司的名字几乎挂在每个产品代表和媒体记者的嘴上。亚马逊公
司多次主办为时一天的讨论会,总是冠以诸如“亚马逊要让亚历克莎无处不在”之
类的会议名称。
作为这次展览会上的双明星,这两家公司并没有叫卖任何具体的产品。相
反,它们在传达一种观点:这是一个被语音控制的世界。在一次演讲会上,亚马
逊公司亚历克莎产品的传道人大卫对主题做了归纳,他说:“我们正生活在一个未
来世界,我们可以把机器当成像人一样的谈话对象。”
第一部分 竞争CHAPTER 01 范式转移
每十年左右,人与技术的互动方式就会有一个根本性的转变。数十亿美元的
财富会“恭候”那些定义了新的时代范式的公司,而落伍者将破产倒闭。在计算机
的大型机时代,IBM是主宰者;微软公司是桌面时代的王者;谷歌公司靠搜索引
领了互联网时代;苹果公司和脸书公司则在移动互联网时代一飞冲天。
最近的一次范式转移正在进行中。
最新的平台之战已经打响。
最新的技术颠覆正在发生,无论是其规模还是其重要性,都可能是世人前所
未见的。
我们正在迈入智能语音时代。
语音正在变成影响现实的通用遥控器,成为几乎能控制任何一种技术装置的
手段。语音能够让我们指挥各种数字产品助理——“行政助理”“门房”“主妇”“管
家”“顾问”“保姆”“图书管理员”“演艺人员”等。语音打破了世界上一些最有价值的
公司的商业模式,为新的应用创造了机会。语音把对人工智能的控制权交给了用
户。很久之前科幻作品就预言过这样的关系模式,在这样的关系模式中,拟人化
的人工智能成为我们的“助手”“看门人”“预言者”“朋友”。
智能语音时代的到来是人类历史的转折,因为运用语音是我们人类这个物种
的特质——这一能力把我们和其他物种区分开来。人类的内部意识的中心不在肺
部的空气里,也不在血管里的血液中,而是在大脑的语言区里。语言调整着我们
的关系,它能塑造思想、表达感受、沟通需求;它能发起变革、挽救生命、激起
爱恨情仇;它把我们所知道的一切记录下来。
得益于最近出现的一系列突破,教计算机用自然语言说话的浪漫构想在现实
世界中有了市场——这个领域被称为智能语音领域。随着按照摩尔定律能够预测
到的计算能力以指数级提升,一系列进展开始出现。手机崛起——事实上我们随
时携带着的是一台强大的袖珍计算机,它是语音技术发展的重要推动者。机器学习使得计算机能通过分析数据就能获得能力——这非常关键,能够让
开发者一举克服那些已经纠缠了几十年的问题。而云计算是一个决定性的(但经
常被忽略的)因素。语音技术需要巨大的算力支撑。尝试把所有的算力都在手机
上实现十分困难,并且其代价极高。在如今的云时代,只要简单地加上一个麦克
风和一个Wi-F i芯片,任何装置都能实现语音驱动。从浴室的水龙头到孩子玩的
布娃娃,任何装置都能利用分布在全球的几千台计算机所提供的计算能力。
以上述所有这些进展为后盾,语音正在引领着“环境智能”的实现,它最终可
能会让我们现在手中的这些智能手机过时。到目前为止,计算机还是计算机,是
我们能放在案头或拿在手里的一件独立性装置。但是当大部分技术设备都能放在
很远的地方而不需要放在现场,可以用声音而不是笨重的外围设备来实现控制
时,那么这些设备的重要性就降低了。正如谷歌公司的首席执行官桑德尔·皮蔡在
致股东的一封信中所言:“未来将要迈出的一大步是,‘装置’这个概念本身就要消
亡。”有了语音助力,计算机将变成一个无处不在的‘存在’。数字智能也将无处不
在,正如我们呼吸的空气一样。
语音也解决了一个已经困扰人类几千年的大问题。人类的发明总是要求我们
去适应它们。无论是飞机、吉他、割草机还是电子游戏,我们都不得不去学习那
些不够自然的命令和动作,以便让这些装置听我们指挥——我们来决定按哪个按
钮,滑动哪根操纵杆,转动哪个轮子,踩哪块踏板。
在计算机上,我们需要弯着手指在键盘上的一堆字母键、数字键和符号键之
间游走——当标准的计算机键盘在1867年获得专利时,这可是一项高科技,当然
现在已经不是了。当手持鼠标滑来滑去时,我们可以通过点击进行操作。在智能
手机上,我们的操作是敲击、滑动、缩放。于是,我们坐着或者站着不动,脊梁
弯曲、眼睛发涩,成了屏幕的“俘虏”。
然而运用语音,计算机最终能以我们的方式工作。它们正在学习人类偏爱的
沟通方式:运用语言进行沟通。当运用得好时,语音的优势非常明显,以至于你
几乎难以感觉到它也是一层介质。人类知道如何说话,因为我们终其一生都在说
话。
在智能语音时代,台式计算机和智能手机不会消失,这就像喷气式飞机没有
把汽车淘汰一样。语音技术会和其他新兴技术整合到一起,例如增强现实技术。但是在使用很多应用程序时,人们会抛弃键盘和触摸屏,而选择更自然、更让人
自在的语音界面。计算机将随我们起舞,而不是让我们趋奉它们。
这只是时间问题。
从根本上说,语音技术正在引领人类走入智能语音时代。人工智能技术已
经“潜藏”在一大批应用程序中——不管是网络搜索还是自动刹车系统。但语音技
术把人工智能推到了我们面前——我们对它说话,它也会以人的口吻来回复我
们。以前只有诸如军事部门、世界上最先进的公司才能获取的“能力”,现在已经
向每个人开放。
更令人惊喜的是,智能语音并不像学者一直以来给我们定义的那样(这个术
语被他们说得面目可憎、讨人嫌弃),而是像科幻作品中描绘的那样。像亚历克
莎这样的语音助理是以聪明的、活生生的人的面目出现的,它们能够听从有着血
肉之躯的主人差遣。它们被设计得能够传递幽默感、友谊和支持,还具有同理
心。同样地,人们也会反射性地(通常还是无意识地)向它们传递自己的感受。
我们和语音助理的关系不可避免地会达到一定深度,情感会变得更加丰富、复
杂,这是智能手机和台式计算机永远难以达到的。
说实话,语音技术的成熟应用尚需时日,毕竟我们都有过因手机连一句简单
的话都听不懂而十分生气的经历。新技术总是会遭到质疑,包括手机在内的很多
新发明都是如此。在公共场合和语音助理说话可能会让人有些尴尬,但是要知道
以前人们觉得行走在街上时打电话也有点傻。语音技术现在的状况和人们在1993
年刚接触互联网时的情景有些类似,和2007年1月乔布斯首次发布iPhone手机时的
情景也相似。智能语音革命已经开始,它将改变我们的生活方式。
让我们用数字说话。
世界上大约有20亿台台式计算机和笔记本电脑,还有50亿部智能手机。在使
用中的智能语音设备,包括谷歌家庭和亚马逊回声音箱,用户数量虽然少但正在
迅速攀升之中,全世界估计有1亿台。现在这些在国际消费类电子产品展览会上
展出的五花八门的产品又加入进来——灯泡、电视、坐便器,还有许多其他东
西。上述所有这些产品都能成为智能语音技术的入口。这意味着智能语音设备的潜在市场规模要比手机市场大得多,全世界不同种类语音产品的数量会超过千亿
种。
在商业世界,从脸书公司到鲜花网,这些公司都在关注语音技术的发展,并
且急切地想知道智能语音革命会给我们带来哪些影响。语音技术创新了从人们的
注意力上获利的方式。在营销和客户方面,语音技术创新了与客户互动的方式,还创新了收集数据并以此创造利润的方式。
智能语音市场是一个巨大的市场,因此本书的第一部分将专门从商业角度来
讨论语音技术。第一部分主要介绍苹果公司、亚马逊公司、谷歌公司和微软公司
争相开发智能语音平台,欲主导这一新兴商业模式的角逐故事。开发智能语音平
台有可能使公司的业务陷入危局,也有可能把公司的事业推向新的高度。
Active Buddy公司的愿景包含了两个重要方面。首先,人们能够通过自然语
言与计算机进行对话。其次,人们不必再在线上付出这么多工夫,将有别的事物
代替人来完成数字搜索和开展行动。
这一愿景的两个方面在苹果公司的Siri这个由语音驱动的语音助理身上得到很
好地结合。2011年,在苹果公司将它公之于众之前,Siri已经经过了25年的研发
——狂热的技术专家们对这个项目倾注了大量心血。
在Siri出现之前,世界上绝大多数人还从来没有和人工智能对过话,Siri的横
空出世让人们大吃一惊。但当时间久了,人们很快意识到Siri并非超级人工智能,它所掌握的技能还达不到人的境界。它的大多数功能都是由一些基本功能组成
的,例如设置定时器、查询天气预报、发信息等。由于当时技术的一些局限,在
它的早期版本中存在的漏洞让很多用户感到失望。
Siri的缺陷意味着它未能让更多的人体会到它所引发的这场变革的剧烈程度。
但苹果公司的对手并未大意。事实上,当Siri公之于众时,苹果公司的竞争对手们
也都正在忙着开发自己的语音助理产品。微软公司是紧随苹果公司之后第一个把
自己的产品推向市场的,这就是诞生在2014年春天的名字甜美的微软小娜。亚马
逊公司在同年11月发布了由被命名为亚历克莎的人工智能驱动的回声音箱,在科
技界引起了很大反响。谷歌公司从2008年开始提供语音搜索,又在2016年推出了
成熟的智能语音产品谷歌助理。目前正在进行的是一场教科书式的平台之战,这场斗争既存在现实风险,又
展现了诱人的机遇,这些顶尖公司是在为万亿美元规模的市场而战。从历史上
看,谷歌公司和脸书公司的绝大多数财富是从广告业获取的,亚马逊公司有着世
界上最大的数字商城,苹果公司依赖零售业务,微软公司为商业应用提供服务和
软件。所有这些商业模式都被语音技术打乱了。
由于市场衰退和管理上的纷争等原因,Active Buddy公司沦为了历史的产
物,但也许最重要的原因是技术的不完善,计算机的“听力”还不够好,还不能自
然地表达思想。
事实上,几个世纪以来,人们一直在努力让机器学会说话,这个探索过程是
本书第二部分讨论的内容,从技术的角度来讲述智能语音的故事。在数百万年
前,民间经常流传着一些无生命的物体突然有了生命并开口讲话的传奇故事。在
中世纪,人们记录下了一些所谓Brazen Heads的故事,它们能够为“圣人”提供一
些睿智的建议。在随后的18世纪,发明家发明出精妙的装置,这些装置的功能虽
然简单,但也独具特色,能够模仿人类讲话。但是发明这些装置的人大多被视
为“疯子”或“江湖骗子”,而不是堂堂正正的发明家。无论如何,这些能“讲话”的
装置激发了一代又一代人的灵感,其影响一直延续到了数字时代。
从20世纪中期计算机出现以来,人们就开始致力于如何教会它们用自然语言
说话。但是,在一开始,人们对于这件事情的预期可能过于乐观了。
人们原以为对话是一个简单的过程,其实完全不是这样。对话包含着一些子
过程,这些旁生的子过程包含着复杂性。声波必须被转换成语言,这个过程被称
为自动语音识别。理解这些语言被称为自然语言理解。想出如何回复这一过程被
称为自然语言生成。最后,语音合成是指让计算机能表述出来。
从20世纪70年代至今,绝大多数研究者都专注于以上某个分支领域的研究,一些不太受约束的研究者开始创建简单的基于文本的聊天机器人。他们这样做主
要是为了在电子游戏中吸引玩家,或娱乐自己。他们创建聊天机器人的目标是让
人们觉得计算机可以像人类一样能说会道。
这些专攻某个领域的研究者和聊天机器人创建者的研究都已经取得了很大进展。借助机器学习领域的最新成果,语音技术最终得以快速发展。从根本上说,语音技术要适应人类对话的复杂性和多样性。
虽然这个光明未来已经昭示了很久,但是在最近5年左右语音技术才进入收
获成果阶段。这些成果的取得,是科学家们坚持不懈地进行研究攻关的结果。研
究者在机器学习算法研究方面投入了几十年的心血,甚至当同行对他们冷嘲热讽
时,他们也未曾言弃。
高科技公司现在争相吸纳机器学习方面的专家,并且为他们提供高额薪资
——攻克了诸如语音识别等难题的专家值得公司这样做。其他难题,例如如何让
计算机进行智能回复,还仍在摸索之中。当我们讲话时,计算机要能够揣摩我们
的意思和情感,可以写电子邮件,能够写广告词和诗歌,还可以用逼真的语音交
谈,甚至可以模仿某个具体的人物说话。
然而,创建语音界面还需要更多硬科技。在早期阶段,Siri、微软小娜及其他
语音助理产品都让科学家们意识到,如果人们不能自然愉快地与聊天机器人沟
通,那么研发得再深入也等于是做了无用功。于是,有着语言学、人类学、哲学
背景的人士加入个性和界面设计者的团队中来,甚至一些懂剧本创作的人士,也
加入了设计团队。
瑞安·格米克说:“当你听到有人说话时,你会自动做出判断和假定。”他负责
谷歌助理的个性设计。他需要就它在个性上应该如何友善、如何有同情心、如何
有智慧等方面给出意见,并需要设定它的年龄、性别、种族和社会背景。
对设计者来说,基本的设计理念是让语音助理更像人而非机器人。由此出
发,很多设计者开始为语音助理设计性格特点和思想倾向。他们让语音助理有偏
爱的影片和食物——比如微软小娜爱吃豆薯。设计者们在它的大脑中储存了大量
笑话和语句。如果有人和Siri说:“请重复我的话。”那它可能回复你:“我是你聪
明的助理,可不是鹦鹉啊!”设计师还可能给某个语音助理设定宏观的描述,比
如“一名消息灵通、追求时尚的图书管理员”。
个性设计这项工作很有吸引力但也非常棘手,而且有时还会引起争议。生动
的个性特征可能会迎合某些用户,但也有忤逆和疏远其他用户的风险。当给语音
助理设定关于性别或种族的一些观念时,尤其如此。人类设计师想赋予语音助理哪些隐含的判断准则呢?
借助于个性设计和机器学习,聊天机器人正在变得越来越能干,尤其是在发
挥实际作用方面。但和“伶俐小孩”的情况一样,人们与这些聊天机器人的聊天记
录表明,用户更愿意与机器进行社交性对话,就像他们与家庭成员或朋友进行的
交谈一样。
从技术上说,聊天机器人还没有为真正的交谈做好准备。但这并没有阻碍一
些公司去实现这一目标。亚马逊公司设置了亚历克莎奖,并组织不同大学的学生
团队进行国际性比赛。这场为期一年的比赛任务是开发出一台聊天机器人,它要
能与人进行一段时长达到20分钟的自由对话。获奖团队能够得到100万美元的奖
励,而亚马逊公司则能够得到大量的精彩创意和对话数据。
亚马逊公司希望通过这样一场比赛收获有价值的见解,但公司也理解这一挑
战有很大难度。正如主持这项竞赛的科学家阿斯温·拉姆所言:“据我所知,对话
也许是人工智能领域最难的问题。”
有了语音、个性和闲聊的技能,计算机就成了一个奇特的新角色。语音将可
能在人和人工智能之间建立一种以前从未有过的关系,也就是说,人可以和一台
烤箱建立关系。这项技术可能会催生一个类生命实体——一种尚不如人类但高于
机器的存在物。正如微软小娜会这样介绍自己:“我可是有生命的呀。”
当在熟悉的环境中——汽车、卧室、浴室——出现了类生命实体时,智能语
音改变了隐私、自主权和关系。智能语音改变了人们接触知识的途径和知识的控
制者,也改变了长久以来对生命与死亡的定义。所有这些都是本书第三部分讨论
的内容,第三部分会聚焦语音技术是如何改变生命之道的。
人工智能正在变成我们的朋友。美泰公司的哈啰芭比娃娃,一位粉红色的塑
料智能美女是这方面的先驱。它可不是“有颜无脑”之辈,它强大的大脑建在云
端,它能够与孩子们讨论音乐、时尚、情感、职场等话题。而微软小冰的人物设
定是少年和成年人共同的朋友。公司对它的描述是提供通用型对话服务,由先进
的机器学习系统加以支持。虚拟友谊提出了一些以前只是假设的问题。是不是“人工合成”的友谊开始取
代真正的友谊了?这会不会让人产生错误的联想,让人以为这个亲密的对象就是
个活生生的人?会不会诱导我们认为机器有真正的同理心和理解力?
语音不但改变了我们建立关系的方式,而且改变了我们获取信息的方式。霍
夫和凯曾经设想用自然语言直接从计算机得到帮助,而不用费力地通过网络引擎
来获取。但事与愿违的是,我们把数字世界变成了我们不是那么喜欢的样子:互
联网充斥着各种各样的信息,十分复杂,并且充满了各种文字内容。在我们的手
机上,各种应用程序堆积在那里,一个页面接着一个页面。要想完成任务或得到
信息,用户必须用搜索引擎在互联网中搜索、寻觅。
但是传统的互联网正在走下坡路,在智能语音时代,我们对数字生活的诉求
不再停留在通过打字和点击在网页中搜索的阶段。取代传统互联网的将是人与人
工智能之间的对话,这是新文明到来的征兆。
由此带来的好处是效率的提高,代价则是独立性的减弱。人们不必再亲自去
寻找答案,而是由计算机来完成。不可否认,计算机对人类有很大帮助,但这也
进一步强化了那些互联网公司的权力,特别是谷歌公司,它会从中获益。传统的
出版商和内容制造商正在为此担忧。不仅如此,语音还打破了谷歌公司以广告为
基础业务的模式,但至少语音为像亚马逊这样的公司提供了机会和线索。
无处不在的语音——作为助理、朋友——推动技术担起“监督”人类的多重角
色。从出于好意到令人不安,语音助理已经开始在很多方面监督人类。语音助理
正在成为孩子和老人的看护者、治疗专家。它们有可能遭遇黑客攻击,导致我们
的隐私被泄露,但它们也有可能成为执法者进行案件调查的工具之一。
窃听语音装置是反乌托邦科幻作品中的“主角”,在那些作品中,人工智能经
常变为人类的敌人。有时候,语音技术也能摇身一变被塑造成解救人类的“英
雄”。这些作品中鲜有提及的一个事情是,人工智能既不是智慧超常,也不是恶意
满满,它只是通过模仿真实的普通人而被创造出来的。
但当语音技术被应用在真实世界中,人的复制品可能会是最有趣的应用之
一。计算机科学家正在创建“克隆体”,它能交互式地分享爱因斯坦及凯蒂·帕瑞等
名人的故事。此外,刚开始出现的应用是一个被称为Doppelg?ngers的对话产品,它可以在日常的商业交易中和社交媒体上代替人来做一些事情。
这类“虚拟人”甚至能在人类死亡后继续代表他们,代替他们与心爱的人交
谈。其实在做好这些事情上,我们可能还不如这些“虚拟人”做得好。由于技术已
经得到了长足发展,所以“虚拟永生”不再只是纯粹的幻想。这样的前景既让人向
往,也让人不安。在本书的最后一部分,我们将对此进行讨论,我和大家一样十
分关注这件事,这是因为我自己就想为我深爱的某人创建一个复制品。
菲利普·利伯曼是布朗大学的一名认知科学家,他曾经说:“讲话对于智力而
言是非常必要的,因为拥有讲话的能力实质上就具备了人的特质。”
能够讲话的机器最终将成为改变我们这个世界的发明之一。语音技术能够
让“虚拟人”完成各种不同的任务——从日常性的到复杂性的,从实际的到情感的
——以前这些都属于人类的特有行为。语音技术能够使数字智能应用到我们环境
的各个方面,它正在影响我们的商业世界。它在机器之间,创造出史无前例的关
系类型。它促进了一个无所不在的操作体系的形成。
我们正在获得巨大的新的便利,但为此而付出的代价可能是丧失一些“自
主”,新的“预言家”和“监督者”正在崛起。如果我们不能妥善处理,那么“虚拟
人”将不仅是我们的仆人,也将是我们的主人。它将越来越多地替代我们完成写、说和思考的工作。
语音把人工智能置于我们的掌控之下,危险也伴随而来。但是语音不应该激
起人们下意识的恐惧——每当谈到有关人工智能这样的主题时,人们就经常会有
这样的反应。其实,我们可以让机器更加人性化,并且让机器与我们融合起来。
这是一个机遇,语音技术的引领者们能利用这样的机遇去追逐这个伟大的梦
想。他们正尝试去定位梦想和需求的最佳结合点,并且将一个仅仅是幻想中的东
西变成了现在不可或缺的东西。他们正在创造真正会讲话的机器——最终,它将
成为我们永远需要的最好的计算机。CHAPTER 02 语音助理
当一位教授走进办公室时,一个人工智能启动语音计算的过程开始了。教授
使用的是苹果公司的Siri。屋里的背景音乐是舒缓的巴洛克风格的协奏曲。这位教
授脱下运动服,打开办公桌上的计算机。计算机屏幕上出现了一位语音助理,它
是个穿着白衬衫打着黑色领结的年轻人形象,语音助理开始和教授交谈。“你有三
条信息,”它说,“你在危地马拉的研究生科研团队刚刚报到。罗伯特·乔丹是一名
大三的学生,他希望学期论文能够再延期一次。你的母亲提醒你父亲……”——教
授没等它说完这句话就打断了它——“生日晚会在下周日举行。”
教授给自己冲了一杯咖啡,趁这段时间,语音助理把他今天的日程安排大声
读了一遍。当听到有一场演讲时,教授意识到他必须马上开始准备。他说:“把我
还没读过的文章都调出来。”
“你朋友吉尔·吉尔伯特刚发表了一篇关于亚马逊森林砍伐的文章。”语音助理
边说边把文章的重点显示出来。教授又让语音助理调出另外一篇文章,并开始与
它讨论这篇文章的内容。语音助理接着又开始帮助教授安排行程,甚至机智地帮
教授躲开了他母亲的另外一次来电。
这是校园生活的一个片段,就好像是从吴迪·艾伦的科幻小说《睡眠者》中摘
取的一个场景,这部小说描述的未来景象是根据苹果公司在1987年发布的一部概
念影片构思出来的。这名衣冠楚楚、短小精悍的语音助理被称为“知识领航员”,其实苹果公司之前并没有这样的产品,甚至连与此接近的产品也没有。但在2011
年10月4日,人们感到影片中描述语音助理的场景变成了现实。
在2011年10月的一天,新闻记者和其他客人挤满了苹果公司大礼堂,他们是
为了出席苹果公司的“让我们聊聊苹果手机”这一活动而来到这里的。苹果公司操
作系统的带头人斯科特·福斯特尔走上台来。他长着一张娃娃脸,胡子刮得非常干
净,看起来更像是一名高中的田径教练,而不是被媒体描述为“小乔布斯”那样的
强悍糙男。然而,福斯特尔并非这场活动的主角。这场活动的主角是苹果公司刚
刚推出的一个新的人工智能产品。福斯特尔说道:“我非常激动地向你们展示
Siri。”当一台苹果手机接上大屏幕后,Siri像宝石一样的图标被投影在一块大屏幕
上,福斯特尔开始了自己的演示。他展示的这些手机性能在当时的确令人震惊
——虽然这些在今天已属寻常。仅靠语音,用户就能获知天气预报,知道巴黎现
在是什么时间,能定闹钟,能查看纳斯达克指数,能在帕罗奥雷托找到一家希腊
餐馆,能知道去斯坦福该怎么走,能创建日历条目,能发文字信息,能查维基百
科上关于尼尔·马姆斯特朗的资料,能得到关于“细胞有丝分裂”的定义,还能知道
距圣诞节有多少天。
当福斯特尔介绍Siri的功能时,他不断停顿,脸上不时露出欢快、惊叹和微笑
的表情,好像在说,就连我也几乎不敢相信这是真的。通常来说,这样夸张的展
示是在提示观众应该鼓掌了——这是那些高科技公司产品发布会的惯例。但今天
观众的掌声听起来一点也不像是在勉强捧场,而是“流露”出令人动容的真诚,因
为他们认识到Siri不只是一些便利功能的集合。Siri有着女性特征,能与人进行对
话。在演讲就要结束时,福斯特尔着重展示了这样一个情景,并使之成了这场活
动的标志性事件。
“你是谁?”他问道。
“我是一位谦逊的语音助理。”Siri回答道。观众们哄堂大笑,随后,也就不到
一秒时间,整个舞台被掌声包围了。
苹果公司看起来就像是在不经意间实现了技术上的突破。但是在听众中有这
样一个人——一位精干的黑发男子,和雷·罗曼诺长得稍微有点像——很清楚事情
的原委。他知道从“知识领航员”这个想象到Siri这个现实产物,研究者走过了漫长
曲折的探索之路。这个人的名字叫亚当·切耶尔,他已经在Siri的前身产品上花费
了将近20年的时间。
在20世纪80年代初期,切耶尔居住在波士顿外的一个郊区。他发现自己的高
中有一个计算机俱乐部,每周俱乐部的成员都会被要求解决一些计算机方面的编
程难题,成员需要在一个半小时之内或者更短的时间内完成,而且俱乐部会按照
他们完成任务的质量评分。切耶尔感觉这件事情不错。但因为他并不知道如何编
程,所以俱乐部里的孩子们说他不能参加。这里不是课堂,孩子们告诉他。这不是个俱乐部,这是个团队。
“被人告知自己干不了某件事,这真是让人灰心。”切耶尔说。于是,他开始
在计算机俱乐部上课的教室外偷偷翻垃圾箱,他研究了那些写有题目的纸条。“我
就是这样自学编程的。”他说。两周以后,他又来找这些俱乐部的成员。他把每周
的题目都解答了出来交给俱乐部,最终成了这个团队中得分最高的成员,还在全
国编程比赛中获得了冠军。
切耶尔对编程入了迷,于是他学习了高中计算机课程。等到开始编写自己的
第一个原创性程序而不只是完成俱乐部的题目时,他遵循了 “写你所知道的”的原
则。他对鲁比克魔方有些了解,还到学校里一个专门研究彩色魔方的俱乐部学
习,这段经历为他赢取了在1982年10月的这期《男孩生活》杂志上露脸的机会。
他凭借快速解决魔方问题的能力赢得了一次地区性的比赛——他的平均成绩是26
秒。于是他在计算机课堂上写了一段能够自动解决魔方问题的程序。
然而,切耶尔并不渴望在长大以后成为一名程序员,他的梦想是成为一名魔
术师。魔术节目中那些设计精巧的机械物件能够“活”起来,这让他着迷。他很钦
佩历史上的那些大师,如18世纪法国的发明家沃康松,他发明的东西包括一只会
拍翅膀、会吃、会拉的鸭子,一个有着能充气的肺、能动的嘴唇和覆盖着合成皮
肤的手指的吹着长笛的牧羊人。“他如果再往前走一步,就能让这些机器有‘灵
魂’了。”一位看过这个吹着长笛的牧羊人装置的观众大为惊叹,于是他给出了这
样的评论。
切耶尔还深受18世纪法国的钟表匠和魔术师罗伯特·胡丁的影响,认为他
能“用科学创造奇迹”。这位魔术师最有名的一个戏法是,他有个箱子重到连壮汉
也抬不动但又轻到能被一个孩子轻松地拿起来,这让观众大为惊叹。在《神奇的
橙子树》这一魔术节目中,他给观众展示了一棵光秃秃的树,这棵树就在观众眼
前长出了叶子、树枝和真正的橙子。但是当他摘下一个橙子并把它剥开时,观众
发现里面却是一条手帕,然后又出来一只蝴蝶飞向天空。
这些试图创造出“合成生命”的开拓性尝试激励了切耶尔,他尝试着创造属于
自己的“戏法”。他把图书馆里的所有魔术书都找来读了,从9岁起就开始独自乘火
车到波士顿去逛那些著名的魔术商店。后来他设计了自己的魔术节目。他在朋友
的生日会上表演了自己的“戏法”,对魔术的热爱激发了他对人工智能的兴趣。他说:“最好的魔术就是,你能从逝者那里拿回一些东西,能让某些东西无中生有,能让无生命的东西具有灵性。”
除了拥有编程和魔术方面的技能,切耶尔还能够创造一些鼓舞人心的“金
句”,这些“金句”使切耶尔足以与那些最善于自我激励的大师媲美。其中最有用的
是“口头阐明的目标(Verbally Stated Goals)”,可以缩写为VSG。在这些VSG
中,他聚焦于自身在人生关键节点的那些感受。他会把自己的感受凝结成使命来
陈述。然后他会与遇到的人分享使命,这样他自己就承担了实现这些使命的压
力。并且,当人们知道了他想实现什么样的目标后,人们也会想方设法帮助他。
当切耶尔高中毕业后,他又在布兰代斯大学计算机科学专业拿到学士学位,那时他的VSG是“国际性视野”。于是他搬到巴黎,并在这里做了四年软件开发工
作。他的下一个VSG是“到加利福尼亚学习”。他想到加州大学洛杉矶分校攻读一
个人工智能方面的硕士学位,但又对学校要求的三年学习时间望而却步。他的另
外一个VSG是“比自以为能做到的再多做一点”,于是他决定花15个月的时间拿到
这个学位。后来事实证明,15个月的时间对他来说也过于充裕了。9个月后,他
就把这件事搞定,还获得了“最杰出硕士生”的荣誉。
切耶尔的下一个VSG是“对未来最佳职业的探寻”,这被他设计成了一个问题
的形式:“我可以在哪里待上十年而不感到厌烦?”当他搬到旧金山湾区,并在国
际斯坦福研究学会找到了一份工作后,他找到了这个问题的答案。这是一个从斯
坦福大学剥离出来的非营利的研发实验室,以孵化计算机方面的创新(包括超文
本和鼠标在内的创新发明)而著称于世。切耶尔回忆说:“这个实验室正在做你有
可能用计算机来做的所有有趣的事情——语音识别、手写识别、各种类型的人工
智能、虚拟和增强现实。机器人就在他们的大厅里闲逛。”
Siri在最终成型之前有过许多版本,其中首个版本的技术就是切耶尔在这家实
验室研发的。那时他还没为这个语音助理起名字,事实上,Siri十五年后才面世,并不像人们后来猜想的那样,起Siri这个名字并非是为了向这家实验室(英文名为
SRI)致敬。但是关于Siri的核心功能的想法那时已经在切耶尔的心中形成了。他
设想了一个语音助理,它能够协调各种服务,还能帮人实现各种要求。用户不需
要用专业的程序语言与它沟通,用自然语言写或说就可以了,这就跟人类之间的沟通一样。
在20世纪90年代初,第一个版本的Siri被装在一个厚实的黑盒子里,它像是索
尼随身听的拙劣仿制品,在它的顶端原来插磁带的位置有一块彩色小屏幕。这个
系统原型被称为“开放代理结构”,能够帮助用户发电子邮件、创建日历条目、浏
览地图。“它能基本实现后来出现的Siri的很多功能。”切耶尔自豪地说。
当时的Siri还不是装在苹果手机上,但是在安装Siri的黑盒子上确实有一块用
户可以用触针控制的触摸屏。它能理解用简单的英文写出的命令,它甚至已经有
了语音界面。虽然依照今天的标准来看最开始的这个版本有些可笑,但这让在20
世纪90年代中期试用过它的一位新闻记者印象颇深。这位记者假装要租一个新住
所,他拿起电话,拨入这个系统。“当有关租赁的邮件发来,它就会马上通知
我,”他说,“这个系统会在网上查找这些记录信息,然后向我报告——‘以下这些
新的广告信息符合你的搜索标准。’我听到一个典型的机器人的声音。”
切耶尔继续进行他关于自然语言界面的实验,他当时开发的技术成为了几年
后随着物联网的兴起而开始急剧发展的那些技术的原型。他和同事做出了一台用
语音来控制的冰箱,它能够回答冰激凌还有没有的问题,他们还做了一个能够提
供餐馆和加油站的位置的汽车导航系统。但是属于Siri“史前”技术时代的最重要部
分还未到来,这部分事关另一个关键的新玩家。
2003年,美国国防部高级研究计划局(Defense Advanced Research Projects
Agency,DARPA)启动了一个规模很大的人工智能研究项目,并将它命名为
CALO——能够学习和组织的认知助理。这个耗资2亿美元的项目把分散在22所大
学和公司的400多位研究人员汇集在一起。切耶尔是这一研究项目的负责人。这
些人聚集在一起,热切地期待创建一个能证明人类在对人工智能的认识方面实现
了关键性转折的系统。
人工智能这一技术领域的“割据”现象人所共知。研究人员开发的系统都是一
些聚焦于完成某些特定的任务的孤立的系统。CALO却让它们成了一个集合体。
人工智能已用于识别数据,CALO希望让人工智能在现实生活中发挥作用。在战
争中,敌人的行动是难以预测的。因此,DARPA想通过CALO创建出一个系统,能通过与用户互动“在战争中学习战争”,而不必每次都重新编写一个程序。DARPA并不是要创造出一个时刻准备着的战斗者,只是受到了电视节目中一
个角色的启发——《陆军野战医院》中的雷利·雷达。在这部影片中,雷利是一个
终极助理,能够预测并实现指挥官的想法。DARPA考虑的是,创造一个人工智能
版本的雷利是否可行。
切耶尔和CALO的开发者研究出来的Robo-Rada是一个语音助理,它能够帮助
人们完成办公室事务。通过分析某人的计算机文件、电子邮件和日历,这一系统
能够建立起一个知识库并且勾勒出各个事件之间的关系。例如,这个语音助理能
够辨别出哪份邮件和哪一个项目有关,人们在不同项目中承担的角色是什么样的
等。
利用这些知识储备,当新的事实出现后,CALO就可以进行决策。例如,在
收到某人可能难以与会的信息后,这个人工智能系统就要决定是否需要重新安排
会议(因为这个难以与会的人是项目的关键人物)或者安排新的参与者(如果有
合适的替代者)。这样的话,会议就未必会被取消。对某个具体的参会人员来
说,计算机能够把他可能需要的笔记、文件和关键邮件打包到一起。如果他需要
做演讲,那么CALO甚至可以用适当的内容和图片给他拟一份演讲初稿。在会议
过程中,CALO能够把与会人员的发言记录下来,并对人们写在白板上的内容进
行数字化处理,甚至能把谁负责经办哪项工作都记录下来。
作为探索人工智能领域新概念的试验,CALO取得了成功。研究者就他们的
研究工作发表了600多篇论文。切耶尔在把不同研究者的成果整合成统一的语音
助理成果方面,发挥了最重要的作用。但是,到了2007年,他因这个项目中蔓延
的官僚主义氛围而感到泄气。“你能做的,不过是把这些不同的技术拼凑到一起而
已,”切耶尔说,“这就像是你只有一条橡皮筋,你却想用它把水舀出去。”
让切耶尔没想到的是,他会遇到一个对他来说至关重要的人,这个人把他在
过去15年中辛勤研究所收获的科研成果转化成一个实际的产品。这个人的名字是
戴格·吉特劳斯。
吉特劳斯是位于芝加哥的摩托罗拉公司的总经理,从表面来看他和切耶尔没
有什么共同之处。切耶尔是程序员,而吉特劳斯是总经理和销售专家,吉特劳斯能够把一件产品概念化并用一个引人入胜的故事对它进行包装。他很有魅力,也
很英俊。2005年,《芝加哥太阳报》的一篇专栏文章把他描述成“金发碧眼,娃娃
脸,像是北欧版的布拉德·皮特”。(吉特劳斯的妈妈是挪威人,他在挪威住过七
年多。)他的爱好比切耶尔喜欢的鲁比克魔方要危险得多,他喜欢高空跳伞,追
踪龙卷风,还修习韩式合气道。
不过吉特劳斯和切耶尔至少有一个共同点:工作上的束缚让他们受到挫折。
摩托罗拉公司想要开发一台高边际利润的手机,因此吉特劳斯开始研发第一款样
机,希望该产品在功能上要能和谷歌公司新的安卓系统相媲美。但是到了2007
年,摩托罗拉公司莫名其妙地叫停了这个项目,心灰意冷的吉特劳斯觉得已经到
了该寻找新机会的时候了。
当吉特劳斯在摩托罗拉公司的最后一天就要结束时,他正好在与SRI的主管
吃饭。这位主管邀请吉特劳斯到加利福尼亚去,希望他成为SRI的入驻企业家。
这个机会很诱人。SRI有一个推动成果实现商业化的团队,主事者是一位精明的
生意人,名叫诺曼·温阿尔斯基。“SRI能够使创意从最初的概念到投入运营,再到
完完整整地实现商业化。”温阿尔斯基喜欢这样吹嘘。
SRI与摩托罗拉公司不一样,摩托罗拉公司似乎觉得他们推出的流行多年的
刀锋系列翻盖手机将永远畅销,而SRI从2004年开始,就通过一个被称为前锋的
项目,一直在积极研究智能手机并推陈出新的技术。在切耶尔的支持下,SRI甚
至开发了一台语音助理的原型机,这成为切耶尔后来开发的CALO的一个小型版
本。温阿尔斯基及前锋项目的成员相信,语音界面是未来的发展方向。“用户要能
轻松地实现自己的请求,就像他们能向真人求助一样。”温阿尔斯基在2004年的一
篇文章中解释道。
SRI的工作深深吸引了吉特劳斯,他接受了入驻企业家这份工作,并迁到加
利福尼亚生活。温阿尔斯基告诉吉特劳斯,他可以在整个机构内寻找合适的技术
作为创业的基础。吉特劳斯评价这里是一个“神奇的地方”,到处都是睿智的想
法,他很快看上了这里最耀眼的一个人:切耶尔。吉特劳斯认为,作为一个面向
所有人的人工智能产品,CALO版的语音助理是强大的、能够改变世界的。
吉特劳斯和切耶尔组建了一个小团队并开始进行头脑风暴。CALO原本是基
于台式计算机的,但他们决定要开发出一个智能手机版本的语音助理产品。这特
别像在追随苹果手机的开创性的发展道路,苹果手机在2007年6月29日发布时,也是一款前所未有的产品。
虽然产品的大方向明确了,但是还有很多细节需要商榷,尤其是在如何将其
商业化方面。这与温阿尔斯基的想法有关,他认为用户不会只因为技术新颖就能
接受一个智能手机版的语音助理。有多少初创公司就是因为信奉“有货自有客”的
歪理而惨遭失败。一个产品必须能解决人们生活中的一个具体问题,用企业家的
话来说,就是必须能够解决顾客的痛点。
当年夏天,包括温阿尔斯基、切耶尔和吉特劳斯在内的,来自SRI的这群人
集体到半月湾这个位于旧金山南面的雨雾缭绕的小镇开展了一次周末休养会,他
们希望环境的改变能够让他们的思维更敏锐。在这里,他们在室内进行头脑风
暴,沿着海浪拍打的海岸健走,他们的注意力都集中在一个非常实际又非常真实
的痛点上——智能手机的屏幕太小。滚动查阅链接列表,眯着眼睛看小小的浏览
器,让人感到很难受。打字也是一件要求精度很高的苦差事。语音助理能够自动
完成任务从而减少人们的以上这些“痛苦”。这些创业者相信,语音助理会激发用
户强烈的兴趣。
在这次休养会上,他们还探索出了关于这个产品如何才能获利的方法。SRI
的团队研究了人们使用没有语音助理的智能手机的场景。在一个小小的浏览器
上,用户可能不会向下滚动去找某个公司或某个内容供应商的链接,他们可能会
因为过程太麻烦而不会从搜索结果中选择并通过点击进入某个网站。对某些公司
和内容提供商来说,这确实会导致经济损失。但如果语音助理能够帮助人们简化
这一过程,能从第三方公司检索信息并迅速提供给用户,那么情况又会有哪些不
同呢?如果使用语音助理能找回“丢失”的访问量,那么这些公司会因此而乐于给
开发语音助理的公司付一些佣金。
这个团队还讨论了互联网搜索。没有人敢把谷歌这样的大公司拉下马——如
果SRI要到“虎口里拔牙”,那么投资者一定会唯恐不及避之。因此团队成员提出了
这样的产品构想,这个产品既要能把他们的想法具体实现,又要有利于销售。这
个产品是搜索引擎吗?那可差远了。他们创建的是世界上第一个“会干活的引
擎”。当离开半月湾镇时,每个人都感觉干劲倍增。“我们收到了出发令,”温阿尔斯基说,“我们找到了路线图。”
休养回来以后,切耶尔和吉特劳斯邀请道了汤姆·格鲁伯,斯坦福的一名计算
机科学家,也是数据结构化体系方面的专家,来听他们的项目介绍,切耶尔和吉
特劳斯告诉格鲁伯,他们准备在这方面闯出一条路来。
格鲁伯一开始有些疑虑。但他很快就对这个构想充满热情,因为这个团队很
棒。吉特劳斯了解手机行业;切耶尔对人工智能充满热诚,尤其是对把众多计算
机后台服务整合成一个系统的愿望更是强烈——他的整个职业生涯都在为此努
力。更重要的是,这件事恰逢其时。“你们赶上了云开雾散的时候,因为手机将把
宽带带给每一个人,”格鲁伯记得自己在会面中是这样说的,“手机把云计算带给
了每一个人,这意味着只要你随身带着麦克风,那你就在日常生活中真正掌握了
人工智能这一重要工具。开发语音助理产品的时机已经成熟。”
在格鲁伯看来,如果说还有什么不足之处,那么就是用户界面原型的设计
了。当你与这个系统进行对话时,你会发现它就好像是20世纪80年代早期的那种
计算机,需要用毫无美感的字符键入命令。格鲁伯本来只是被邀请来对这个创意
点评一下的,最后他发现自己完全倒向了切耶尔和吉特劳斯这边。切耶尔和吉特
劳斯应该邀请格鲁伯加入这个项目,因为他不只是知识组织体系的专家,也是用
户界面设计的专家。“看,一个有着命令行界面的东西并不算是个真正的语音助
理,”他说,“让我们把它变成一个真正的语音助理。”会面结束后,当切耶尔和吉
特劳斯送格鲁特去停车场时,三人还在继续讨论着。当格鲁伯驾车离开时,三人
已经达成了共识:格鲁伯将进入董事会。创始团队的三个人凑齐了。
到2008年1月,这家公司被作为一家独立的公司从SRI分了出去。因为还没有
一个正式的公司名称,创始人决定先用主动技术公司这个名字。他们创建了一个
网站,页面上满是忍者形象的图标,还有一些浮夸的口号,比如:“我们的目标是
重塑消费者的互联网面貌。”他们甚至给自己的语音助理产品起了一个有点搞笑意
味的名字——HAL,这是在向斯坦利·库布里克拍摄的电影《2001:太空奥德赛》
中那个邪恶的机器人HAL致敬。主动技术公司的宣传语也幽默感十足:“HAL卷
土重来,不过这次它改邪归正了。”
作为一家已经基本就绪的新公司的催生者,温阿尔斯基决定仍然待在SRI充
当幕后支持者。但他在董事会中占得一个席位,并且充当起创始人和潜在投资者之间的牵线人。为了让主动技术公司赶快运作起来,公司的创始人需要筹措资
金。
肖恩·卡罗伦是著名的硅谷投资公司门罗风投的合伙人。从投资人的角度看,投资人工智能是个有风险的赌注。这一技术被赞誉为未来之星已经有几十年了,然而这个美好的愿望始终停留在未来——不能创造可观的利润。为什么现在就能
实现了?
尽管如此,卡罗伦还是被迷住了。HAL听起来像是“知识领航员”在真实世界
中的化身,而苹果公司预测科技未来的能力也不能被轻易小看。他也回忆起“伶俐
小孩”,虽然存在的时间短暂,但它的风靡显示出了真实的商业潜力。
下一代的“伶俐小孩”得到了两位杰出的计算机科学家和一位魅力超凡的天才
企业家的支持,这让卡罗伦感到很有吸引力。从2000年年初开始,技术已经得到
了很大提升,使语音助理产品变得可行,语音识别技术的用途越来越广泛,智能
手机也出现了,人工智能的水平得到明显提升。
说实话,HAL还不是一个能投入使用的产品,它只是手机上一个演示版本。
吉特劳斯演示了如何输入、查询、得到回答的过程。没有语音界面,只有最低配
置的普通功能,这意味着它的界面存在严重的局限。“我们做不到让所有人都愿意
在手里拿着这样的东西。”温阿尔斯基说。
但卡罗伦和来自另外一家公司的投资者盖里·摩根泰勒觉得来自SRI的这几个
人的确像干出点事情来的样子。也许在人工智能上赌一把是不错的选择。于是,卡罗伦和摩根泰勒的公司联合起来向主动技术公司投了850万美元,主动技术公
司就这样起步了。
公司有了运作资金,公司的创始人决定把他们的想法变为现实,于是他们把
公司的雇员人数增加到了20人。公司的第一个任务是要给HAL起一个不带那么多
乌托邦色彩的新名字。团队希望这个新名字听起来像个人名,但又不那么普通。
它应该有四个字母,容易拼写,读起来有意思,还不能让人产生不好的联想。
团队成员想了100多个备选的名字,为找灵感甚至把婴儿起名大全之类的书也翻了一遍。2008年5月,吉特劳斯提议用一个普通的挪威语名字,如果他的第
一个孩子不是男孩,原来就准备用这个名字——Siri。吉特劳斯在随后向大家解释
这个名字时,用了一点艺术手法,他说这个名字可以解释为“引领你走向胜利的女
神”。在其他文化语境下的相应意思也同样令人满意。在加拿大语中,Siri意味
着“幸运和财富”;在斯瓦希里语中,Siri意味着“秘密”,这与该公司曾经秘密运行
的状态倒是很吻合。在SRI,切耶尔曾经开发过一个叫Iris的系统,它与Siri正好是
回文结构,并且他很喜欢这里所暗含的两个产品之间的关系。
这就是Siri名字的诞生过程。
创始人也必须决定,Siri应该有多像人,应该有多健谈。切耶尔起初认为,Siri应该直截了当。“没有人会整天与语音助理聊天,”他记得自己开始是这样想
的,“它很难保持有趣。”但是同事让他改变了想法。公司雇了一位名叫哈里·西德
勒的用户界面专家,由他和吉特劳斯一起设计那些关于Siri特征的问题的答案。吉
特劳斯指出,Siri要“对流行文化有模糊的了解”,要“超凡脱俗”,并且要有点“机
智”。对于那些有关Siri特征的问题,他们设计出一些答案。“我们希望人们更喜欢
一个像人的语音助理。”温阿尔斯基说。
在技术方面,主动技术公司并非没有积累。Siri只是切耶尔在他长期职业生涯
中所探索的产品的最新呈现形式。他的探索过程与迪迪埃·古左尼有着密切联系,切耶尔曾与他在SRI一起共事,后来古左尼成了Siri的首席科学家。他们开发的几
个Siri的原始版本主要以一个单独的语音助理产品呈现,用户可以用自然语言与它
互动。这个语音助理也能调动其他程序和服务(代理)去检索信息或完成任务。
代理这个概念对于理解Siri是如何实际运行的非常重要,所以这里我们对它进
行深入探讨。你可以把代理想象成一群在大帐篷里东奔西走的人,他们每个人都
各有所长。但是要了解每个人都懂什么,以及应该如何与他们沟通,是一件很麻
烦的事情。因此你就会通过你的助理来传达请求。“今天下午天气如何?”你问。
助理马上跑过去,去问帐篷里了解天气预报的人,然后跑回来向你通报结果。适
合野餐——当听到雾将散去的消息后,你做出这样的判断。“我家附近有好的熟食
店吗?”你问。助理又跑出去,首先和一位餐厅评论员聊了几句,然后又向一位掌
握很多地理知识的人咨询。“去尝尝伯克利特克大道上的那家的奶酪拼盘吧。”助
理告诉你。Siri不可能知道所有事情,尤其不可能从一开始就知道。因此创始人把这个系
统——这顶帐篷——分成了几个主要领域,包括餐饮、电影、活动、天气、旅行
及本地搜索等。在帐篷里走动的当然并不是真人,而是Siri可以调用的计算机服
务。这样的服务一共有45个,包括Yelp点评网、烂番茄影讯、StubHub票务、城
市搜索、谷歌地图、航空数据网和必应搜索等。这个系统的巧妙之处是,它是模
块化的、可扩展的。开发者可以不断把新的代理囊括进帐篷之中,使Siri能够与它
们进行“交流”。
除了为Siri建立基本的组织结构,团队面临的另一个难题是要教它学会探知用
户的需求。即便是最简单的句子,也会经常把Siri弄糊涂。切耶尔喜欢用这样一句
话作为例子:“请在波士顿BOOK (预定)一家Four Star Restaurant(四星级餐
厅)。”这里是指哪个波士顿呢?实际上在美国有8个城市都叫波士顿,而“Star
Restaurant”又是一家小餐馆的实际名字,难道用户找的就是这家餐馆?
而“BOOK”是个多义词,可以指纸质书,可以指动词预定,还可能指路易斯安那
的一个社区。切耶尔数了数,这样一个简单的查询事例,可以有四十多种可能的
解读。
为了帮助机器理解人类语言,计算机科学家曾经尝试把语言规则教给机器
——名词、动词、介词、宾语及它们之间是如何搭配的。但是这种基于语法的规
则机器学习起来非常费力,主动技术公司并不打算在这上面投入太多时间。
公司的程序员另辟蹊径,想帮助Siri用有根据的猜测来理解意思。他们不是教
语音助理从语法上解析每个单词,而是让它理解某个特定说话方式的整体内容。
确定用户的交流内容属于什么领域——不管是电影、天气还是本地搜索——对语
音助理正确理解意思有很大帮助。例如,在餐馆的语境之下,“BOOK”这个词肯
定表示预定。如果用户的要求是针对电影的,那么“FARGO”就应该是一部电影的
名字,而不代表北达科他的一个城市。
语言对我们有意义,是因为我们知道它所表示的对象及概念。我们有逻辑和
常识,而Siri没有掌握现实世界的知识体系,但是,通过我们的知识本体,或者叫
知识图谱,它至少能够有一定程度的进步。知识本体是一个组织体系,能够展现
各种实体——如人、地点、事物等——是如何相互联系的。例如,我们画一张
图,把“电影”这个词写在一张纸的中央,并在这个词的周围画一个圈。下一步,你从这个圆圈开始向外画一些线条,并把这些线条和那些描述电影相关事情的词语连起来,如“片名”“题材”“演员”“评级”“影评”等。从“电影”出发的一条线可能连
接到在大圆圈中的一个词语——“电影事件”。反过来,这个词又有线条把它和“剧
院名称”“放映时间”“票价”连在一起。
知识本体可能对Siri理解那些最细微的观点帮助不太大,但是对生活中的那些
简单问题,它至少为Siri提供了理解世界运转方式的思路。如果一位用户提出了有
关电影的问题,Siri就会想到影片会有演员、会有评分、会在特定地点上映。这就
能让语音助理成功地回答“最适合孩子看的电影是哪一部?”或“现在有没有汤姆·
汉克斯主演的影片上映?”这些问题。知识本体甚至能帮助Siri联想到后续相关问
题:“你需要多少张电影票?”及“你想什么时候去看电影?”
知识本体也能帮助Siri理解对于不同的请求应该使用哪些外部服务。即使完成
一个单一性任务,也可能需要多元化服务的能力。假设一位用户问:“在旧金山哪
里能买到千层饼?”Siri就会查询菜谱大全应用程序查看哪家餐厅的菜单上有千层
饼,通过Yelp点评网查看哪家店最受好评,再通过OpenTable软件完成预定。
创建Siri的最后一个要素是用户体验。虽然计算机程序和各种应用程序看起来
很复杂,但是它们都有很友好的视觉界面——下拉菜单和按钮——这能引导用户
使用软件提供的服务。当有了一个语音助理后,这些可以提供的服务就不用再被
定义得那么死板了。这一产品的定位既然是智能的虚拟人,那么人们就有理由认
为它“能说会道”。因此,Siri的团队成员,尤其是格鲁伯,在确定人们对产品的期
望值方面下了一番功夫。他们为Siri设计的一个特性是,它会向用户提议:“如果
你愿意的话,让我告诉你我都能做些什么。”
Siri身后的绝大多数核心技术——基于代理的架构、自然语言理解、知识本体
——都是在实验室里被长期搁置的技术。Siri使这些“蒙尘已久”的技术整合到了一
起。“人工智能是一个有50多年历史的领域,因为它太难太复杂,所以被分解为多
个子领域。这些子领域都处于独立发展之中。”摩根泰勒说。Siri正在把人工智能
的“碎片”汇聚起来。
Siri正处在可以作为智能手机应用程序投入应用的阶段,但是它还无法与电影
里那些高级的人工智能相提并论。Siri还有一个重大问题:用户可以输入文本信息,但他们不能对Siri讲话。因此公司创始人在2009年向董事会提议,他们想把
Siri的上市时间再推迟一整年,以便能够赋予它语音功能。
当创始人在年后的一次会议上展示了Siri的语音功能后,董事会成员都认为推
迟上市是值得的,他们的耐心得到了回报。“语音功能是一个神奇的功能,让整个
产品变得与众不同。”吉特劳斯说。董事会的所有成员会后纷纷给他发邮件,他们
谈到的感受包括“我感觉我今天见证了历史”,还有“这真让人不敢相信”。
Siri在硅谷引起了一些反响。苹果公司在正式上市之前就想试用这款产品,Siri的创始人希望借此推广Siri应用程序。当Siri的创始人抵达苹果公司总部去做产
品展示时,他们发现桌边围满了人,大家都想先睹为快。
但是,与在董事会上的表现不一样,Siri在这里马失前蹄。在语音识别方面,Siri使用的是第三方公司的技术。但是在苹果公司演示这天,运气非常不好,这家
第三方公司正好出了技术问题。“在公司历史上,这是我们做过的最糟糕的一次展
示。”吉特劳斯这样说。他对Siri说:“我要买两张大学生篮球超级联赛的票。”可
是语音识别服务器错听成了:“马戏团下周会来镇上演出。”
Siri的创始人随后说服了苹果公司的人,让他们相信这个语音识别失灵只是一
个偶然。但是在Siri应用程序推出几个月之前,苹果公司的人仍然处于紧张不安之
中。甚至有一个杰出的硅谷投资人曾经对这几个创始人说:“和手机对话而不是只
简单地使用一个应用程序或进行一次网络搜索就可以了,这是很愚蠢的。”这位投
资人难以理解人们为什么会想要这样做。
温阿尔斯基特别强调,这次产品上市必须做到尽善尽美。公司不只是想实现
对那些先驱产品的改善,而是要创造一个全新的语音助理产品。“我们相信这次产
品上市对公司至关重要,”温阿尔斯基说,“如果失败或效果不好,那么公司将不
会再有第二次机会。”
不过,温阿尔斯基至少还有乐观的理由。在2009年秋天的一天,他正坐在飞
机上等待起飞,这时机舱广播里传出了飞机延误的通知。坐在温阿尔斯基邻座的
乘客问:“你觉得延误会持续多久?”
“我也不知道,”温阿尔斯基回答道,“让我查一查。”他拿出自己的手机,打
开了这个还没有公开发布的Siri,对着手机说:“Siri,联合航空的第98次航班预计什么时间到?”
Siri没有大声作答,而是弹出了一串字符:“这个航班将在1.5小时后到
达。”温阿尔斯基邻座的旅客瞪大了双眼,在他看来,Siri肯定会受到热烈追
捧。“我只有一个问题,”邻座的旅客对温阿尔斯基说,“你为什么要坐在这里?你
应该是坐头等舱的亿万富翁啊!”
2010年2月,Siri作为一款独立的应用程序上市。如果说人们对它初出茅庐就
会有精彩表现尚存疑问的话,那么几周后发生的事让人们彻底打消了疑虑。当苹
果手机的铃声响起时,吉特劳斯正向Siri办公室的门外走。他刷了一下屏幕上的滑
块去接电话,但不知是什么原因,刷了7次后才把电话接起来。如果你知道了打
来电话的人是谁,那你肯定会感到手机在这个时候出现这个问题简直太戏剧化
了。“嗨,”打来电话的人问,“请问您是戴格吗?”
“我是。”吉特劳斯答道。
“我是史蒂夫·乔布斯。”对方说。
“真的吗?”吉特劳斯问,他万万没想到苹果公司的CEO乔布斯会打来电话。
他转向附近站着的一位同事,有点炫耀地说:“是史蒂夫·乔布斯!”
“不可能!”他的同事回答。
按照吉特劳斯的说法,乔布斯开门见山。“你们正在做的东西很对我们公司的
胃口,”乔布斯说,“你明天能到我家来吗?”吉特劳斯向他要了地址,并问他其他
创始人能不能一起来。(“如果吉特劳斯不叫我们去,那我们非杀了他不可!”切
耶尔说。)
第二天,吉特劳斯、切耶尔和格鲁伯来到位于洛罗阿托的乔布斯的家,这是
一栋低调的砖瓦房,在树木环绕的街区中并不显眼。乔布斯亲自来开门,他穿了
一件黑上衣,吉特劳斯说,他看起来有点像特种部队的军人。在屋内的一面墙上
挂着安西尔·亚当斯的一幅风景画原作,一台古老典雅的吉他音箱放在地板上。乔
布斯把Siri团队带到客厅。接下来,他们围坐在壁炉前长谈了三个小时。乔布斯说,他一直就对语音界面和人工智能很感兴趣。“当我看到你们正在研究的东西,我就知道你们已经成功了。”吉特劳斯记得乔布斯是这么说的。
乔布斯谈到了手机将如何成为计算时代的未来,以及苹果公司将如何赢得手
机之战。乔布斯对苹果公司收购Siri感兴趣,这一点很明显。格鲁伯回忆,乔布斯
的理由之一是,有了苹果公司做后盾,Siri团队就可以专注于技术开发本身,不用
再为资金和利润操太多心。“这样你们就可以一心一意地做产品,不然就只能全身
心地做生意。”乔布斯说。
但是这笔交易当天并未谈成。“我们说:‘谢谢您,我们很荣幸,但我们对此
不感兴趣。’”切耶尔说。在首次募集到850万美元之后,他们又得到了1500万美元
的风险投资,公司有充足的资金来维持其后续发展。投资者们认为,Siri凭一己之
力就能发展成为一家大公司。“现在不能停下来,”格鲁伯记得有投资人这样
说,“你们干得很棒。”
因此,当乔布斯一周以后给吉特劳斯打电话,想正式谈谈收购价格时,吉特
劳斯出了个天价。“我把自己的要求说了,”吉特劳斯说,“他朝我大喊起来:‘你
这家伙是不是疯了!’”
不管他是不是真生气,乔布斯仍然很感兴趣,并且把拿下Siri当成了一项个人
任务。他没有安排大的电话会议或通过中间人协调。相反,他总是直接打电话给
吉特劳斯进行一对一的沟通。他每天打电话,有时深更半夜也打。
这样谈了17天之后,吉特劳斯最终和乔布斯谈出了一个让这几位联合创始人
满意,可以拿到公司董事会上讨论的价格。在听到能被苹果公司收购的消息后,董事会成员都高兴起来,眼里闪耀的都是美元符号的光芒。按照吉特劳斯的说
法,他们的反应可以归结成这样一句话:乔布斯从来没有这样执着地每天都给某
个人打电话。因此,吉特劳斯要继续端着——继续要价!吉特劳斯继续与乔布斯
谈判:“你总得做点让步好让我回去向董事会交代吧。”他这样对乔布斯说。乔布
斯愿意把价格一次性涨到1000万美元。从来没有做过公司CEO的吉特劳斯,在这
个过程中充满压力。当吉特劳斯带着这个最新的报价回到董事会上时,董事会成
员对他说:“用24个小时就拿到这个成果很不错,咱们看看如果再谈48个小时又会
如何。”在谈判进行到中途时,几位创始人已经很认同由苹果公司收购Siri这件
事。“对我来说,钱是很重要,但并非最重要,”切耶尔说,“最重要的是乔布斯对
我们的长远目标非常认同。”当吉特劳斯对乔布斯说现存的唯一障碍是董事会时,他与乔布斯每日电话对谈的重点马上改变了。这位苹果公司的CEO从对手变成了
顾问。乔布斯对吉特劳斯说:“我在三家公司中都遇到过你目前的这种窘境,你拥
有的力量比你所想象的大得多,你可以尽管去说、去做。”
最后,在吉特劳斯和乔布斯在电话里一直谈了37天之后,苹果公司拿出了一
个大家都能接受的收购价格。但是Siri的董事会成员在最后的文件中加入了一个条
款,这个条款对总体价格没有影响,但是改变了支付方案的一些细节。这个不讨
好的差事还是落到了吉特劳斯头上,这个新条款还是要由他与乔布斯在电话里商
讨。
“喔,喔,喔,”按照吉特劳斯的说法,乔布斯这样说,“我没听错吧,刚才你
真是这么说的?这就是想多要钱的花招罢了。”
“史蒂夫,确实如此,”吉特劳斯这样回答,“不过如果你接受这个条款,那么
我们今天就可以签协议。”
电话那头沉默了5秒钟。“好吧,”乔布斯说,“但是在你们被收购后,你们最
好使劲干。”2010年4月30日,距离Siri应用程序的上市时间还不到3个月,这个公
司就被收购了——收购价格未被披露过,传言在1.5亿到2.5亿美元之间。
2011年10月4日,苹果公司正式发布了iPhone 4S并推出了语音助理Siri。在这
之前的一年半时间里,乔布斯不再每天给吉特劳斯打电话。但这段时间乔布斯经
常参加Siri的周会,创始人清楚地感受到,在乔布斯的心中,语音助理是对苹果公
司的未来至关重要的一款产品。切耶尔记得,在产品发布几个月前的某一天,他
看到乔布斯路过公司的一个食堂,他的头低着,满脸倦态。但是当他看到吉特劳
斯和切耶尔时,他停下来,热情地说:“Siri兄弟!你们在这里干得怎么样啊?”
吉特劳斯和切耶尔告诉乔布斯一切顺利,并且他们正在与苹果公司的其他各
个团队协同配合。乔布斯盯着他们看了会儿,然后用手指了指这个热闹的食堂,说:“我希望你们把这里看成是自家的糖果店!”但遗憾的是,乔布斯没有看到Siri大获全胜的这一天。在Siri刚刚推出不久后
的10月5日,他因胰腺癌去世了。“我们知道他在家里关注着发布仪式,”切耶尔
说,“我不知道他会怎么想,但是我觉得他看到了这一切,并且说:‘不错,这就
是未来,苹果公司属于未来。’”
在Siri发布大约一周后,切耶尔去了当地一家购物中心的苹果商店,想看看语
音助理的市场表现怎么样。他甚至不用进到里面就能看到,在前窗玻璃后面,大
屏幕上正显示几个大字“Siri介绍”,还配有一台苹果手机正在显示这个应用程序的
图片。切耶尔身上一阵发冷。他对Siri有着“为人父”一般的骄傲。“如果我把Siri人
格化,”他后来在刊登在《媒体》上的一篇访谈中说,“我想它会把我视作父亲
——我总想给它最好的东西,我会教育它,有时会显得苛刻、烦人,或让人发
窘,但我会爱它,在它成功时我以它为荣。”
切耶尔和同事有理由祝贺自己。正如摩根泰勒后来在一次访谈中所说:“Siri
团队看到了未来,定义了未来,并且创建出属于未来的第一个可行版本。”
但是技术世界不会让人永远躺在功劳簿上。在Siri上市后的几年中,苹果公司
在某种意义上成了Siri的“牢笼”,而非“糖果店”。就像我们接下来将要看到的,Siri不会独领风骚太久。CHAPTER 03 科技巨头
在创立亚马逊公司并跻身世界富豪榜的几十年前,当杰夫·贝佐斯还是一名四
年级学生的时候,他对《星际迷航》这部科幻电视剧怎么也看不够。每一集贝佐
斯都看了许多遍,他还和两位邻居朋友一起用纸片仿制了相位器,在想象中的星
云中探索了一番。有一天,他萌生了到真的太空中探索一番的想法。
这并不仅仅是一般的童年幻想。1982年,在被指定为致告别词的学生代表
后,贝佐斯告诉一家报社,他的理想是“建造太空旅馆、游乐场、游艇,以及能容
纳二三百万居民的太空聚居地”。在普林斯顿大学,他是学生太空探测和开发分会
的会长。在2000年,贝佐斯建立了一家私营的太空探索公司,名叫“蓝色起源”。
贝佐斯可能永远也不会乘着他自己的太空游艇遨游世界,但他确实在2016年
时实现了自己的一个太空梦想。这个瞬间被记录在电影《星际迷航3:超越星
辰》中。在电影一开始,有一名外星人与联邦星舰企业号联系,惊慌失措地请求
援助。“慢点说。”一名星际舰队的长官告诉这位外星人。这位长官的面孔很难被
认出来,但如果你有意识地听声音,那他的声音是能够被辨识出来的。这正是贝
佐斯的声音,在游说派拉蒙影业公司许多年之后,他终于在影片中跑了一次龙
套。
2010年12月,贝佐斯对《星际迷航》的喜爱——包括其中所展示的一些技术
——已经为贝佐斯的技术顾问格雷格·哈特所知。贝佐斯与哈特进行头脑风暴,一
起探讨未来人们会如何与计算机进行互动这个问题。贝佐斯有一个想法——受童
年时爱看的节目影响是产生这个想法的部分原因。在《星际迷航》中,当团队成
员登上企业号以后,他们需要来自船舶计算机系统的信息。打字或者盯着屏幕并
非他们仅有的选项,而只要简单地对计算机讲话,他们就能听到语音回复。
在与哈特讨论之后,贝佐斯又给他和其他同事发了邮件,提出一个新的产品
构想。贝佐斯让哈特负责开发这款产品,并且当他们在2011年秋天第一次坐下来
谈这件事情时,贝佐斯就已经认定,这个设想从大的方面看是很清晰的,没有什
么值得疑虑的。
他告诉哈特,这次的目标就是创造“星际迷航”。
即使是对贝佐斯这样一个不以谦虚著称的人物而言,发明一台语音计算机也
是一个大胆得有些离谱的想法。没有任何一家科技公司开发过这种东西,亚马逊
公司不像是应该带头吃螃蟹者。
谷歌公司的工程师们梦想在现实世界中创造出《星际迷航》中那样的计算机
已经有很多年了,他们在这方面有更足的底气。对用户在搜索框中输入文字时的
目的进行分析以确定他们希望得到什么,这是谷歌公司十多年来一直在做的事
情,由此他们获得了在自然语言理解方面的积累。在引领以语音为唯一界面的计
算装置方面,苹果公司比亚马逊公司准备得更加充分。这家公司开发出了很受欢
迎的消费类电子产品,并且通过推出Siri在智能语音领域领先了一大步。
在消费类电子产品的开发方面,亚马逊公司并没有特别丰富的经验,他们只
开发过Kindle。亚马逊公司在语音识别和自然语言处理方面也没有聚集起一支强
大的研发专家队伍,整个亚马逊公司在这一领域拥有经验的只有两人,在这方面
也算是“白手起家”。“如果我们能够开发出来——我也不知道我们是否能开发出来
——那么这将是一款超级棒的产品。”哈特记得自己当时是这么想的。
组建起一个语音计算团队尤其不容易,因为亚马逊公司非常想让项目处于保
密状态。不能让新闻媒体和竞争对手探听到风声,在公司内部也要“神不知鬼不
觉”,只有那些直接参与的人才有知情权。这个项目甚至有了个代号:多普勒项
目。
项目的保密要求使得哈特只能用最模糊的语言来吸引应聘人员,告诉他们这
是一个开发出一款前所未有的产品的绝佳机会。他会问面试对象这样的问题:“如
果要给盲人设计一款Kindle产品,你会怎样做呢?”他从亚马逊公司内部正式挖来
的第一位员工是林赛,他后来成了工程方面的带头人。林赛回忆当时哈特是这么
说的:“我们认为这个项目对亚马逊公司很重要,这其中也包含非常严峻的挑战。
我可以告诉你的是,这与语音技术有关,但我不会告诉你项目的运作方式或者背
景。”
依托招聘和收购实现的跨国运作使多普勒项目从零起步。项目中心自然是在
亚马逊公司位于西雅图的公司总部。2011年9月,亚马逊公司并购了Yap公司,这是一家位于北加利福尼亚的公司,专长是基于云端的语音识别。126实验室是公
司负责硬件制造的工厂,位于加利福尼亚的森尼韦尔市,Kindle就是在这里问世
的。这个工厂的工程师们负责设计这一产品。2012年,多普勒项目团队在波士顿
开设了一个分支机构,得益于整座城市丰富的学术机构资源,这里成为适宜自然
语言处理人才成长的温床。2012年10月,亚马逊公司并购了Evi这家位于英国剑桥
的公司,它专注于研究对语音问询的自动回答。2013年1月,亚马逊公司又收购
了波兰公司Ivona,这家公司能够人工合成计算机语音。
从大的方面看,多普勒项目团队必须解决的问题可以分成两个部分。第一部
分是关于工程方面的,如语音识别和语言理解。虽然解决这些问题不容易,但如
果能付出足够的努力,那么这是可以运用目前已知的技术来解决的。
第二部分是需要通过发明创造才能解决的——需要采用全新的方法。其中首
先要解决的是所谓远场语音识别问题。当你处在一间屋子中,不管还有其他什么
声音——音乐、婴儿的哭声——语音产品都要能够听清你说的话。“当我们开始做
这个产品时,远场语音识别在任何商业产品中都还没被应用过,”哈特说,“我们
不知道是否能够解决这个难题。”
2013年4月,亚马逊公司聘用了科学家西特·普拉萨德来负责多普勒项目的自
然语言处理工作,他是唯一能胜任这项工作的人。从20世纪90年代起,普拉萨德
就开始为美国军方做远场研究了,研究的目的是在会议场合把每个人说的话都记
录下来。普拉萨德帮助他们开发出的技术在精准度方面达到了以前人们所开发的
同类产品的两倍。但要想达到每说出10个词最多只有3个错误这一称得上完美的
水准,他们还有很长的路要走。普拉萨德研究这个课题很多年了,他认为得益于
一些新的技术,如深度神经网络技术,多普勒项目能够做得更好一些。
对远场问题的一个可能的解决方案,简单地说就是应用强力。126实验室的
工程师们通过在整个屋子中布满麦克风的方式来进行试验,这样无论用户位于房
间中的哪一个位置,都至少有一个麦克风能够捕捉到他的语音。但是亚马逊公司
的高管们,尤其是贝佐斯,认为这不是一个好的方法,按照公司的说法就是,这
不够“神奇”。
后来工程师们设计出了一个天才的替代方案。他们设计了一个冰球模样的装
置,在其四周有六个定向麦克风,在中间也有一个。普拉萨德团队开发出的软件能够巧妙地与它们配合。这个软件能够放大麦克风采集到的声音,而麦克风也能
够采集到冲着装置发出的语音。这个软件还能降低从其他麦克风采集到的声音,因为这些麦克风采集到的可能是干扰性的背景声音。这种把从某一特定方向传来
的声音筛选出来并进行采集的过程被称为“波束形成”。
为了做到这一点,这个产品需要判断出用户正在冲它讲话,而不是和屋内的
其他人说话。普拉萨德和他的同事们认定,这个产品应该被一个“唤醒词”激发,这个“唤醒词”能够准确无误地提示这位用户的声音需要被装置捕捉到。从语音识
别的角度看,一个在语音上更加独特的“唤醒词”当然更合适。但是为了易于使
用,并且为了让产品更加引人注目,一个较短又好听的“唤醒词”似乎更为合适。
因此,多普勒项目的负责人要在这些需求之间进行平衡取舍。
在《星际迷航》中,机组成员只要简单地喊一声“计算机”,就能召唤数字帮
手。但是这个词太常见了,因此,也不能被采用。据报道,贝佐斯直到开发的最
后阶段,还是支持把“亚马逊”作为这样一个“唤醒词”来使用。但工程师们担心的
问题是,在平常的谈话中,这个词也很容易被偶然地带出来。备用“唤醒词”的名
单越来越长,最后的备选词达到了50个之多。贝佐斯最终敲定了一个发音响亮又
相对独特的词——亚历克莎。它能让人隐约联想到人类古代伟大的知识财富宝库
亚历山大图书馆。它不但成了这样一个“唤醒词”,而且还成了这一语音产品的身
份标识——亚马逊公司基于云的人工智能的名字,这个词终有那么一天会通过无
数语音产品说出来。
另一个大的争论是对亚历克莎的定位——它应该能干些什么?到了2018年,就像国际消费类电子产品展览会所展示的那样,亚历克莎看起来能应付任何事
情。但是在2011年到2014年,当这一技术刚刚被开发出来时,亚马逊公司的员工
还不敢确定什么样的应用是可行的、哪种应用最能得到消费者的喜爱。据说,贝
佐斯希望功能越多越好。但是从短期来看,它还是要更聚焦。普拉萨德说,让它
在收到用户的语音指令后就能播放音乐,很明显这是一个“门面性特征”。但贝佐
斯可不想它就只能做这么一点事情。于是,多普勒项目团队把它设计成能够提供
重要新闻、体育消息、天气信息,还能回应基本的事实性请求的一个产品。
为了进行测试,亚马逊公司建立了样板房,想看看它能否在日常生活的声音
环境中正确识别人声。公司也开始让一些信得过的雇员在家里测试这一产品——
前提是他们愿意全家人都签署保密协议。在所有的测试和开发工作完成以后,公司高管们到了必须为产品正式发布确定最佳时机的时候了。它是不是足够快,足
够准确,漏洞足够少?总体使用感受是不是令人惊叹?在最终决策时,所有这些
评价维度中的指标,应该经过多少次测试?公司高管们反复研讨,以判断这一产
品是不是已经足够成熟。
《彭博商业周刊》上的一篇文章声称,在2014年夏季之后,这一智能语音产
品已经到了紧要关头。由于那个夏天亚马逊公司的Fire手机的首秀遇冷,126实验
室研究人员们的信心也受到了打击,所以这一产品的发布日期被多次推迟。他们
觉得让这个产品热销的难度正在增加,他们的压力很大。但是林赛对这种想法提
出质疑。他说整个项目开发过程中的压力都很大——这是因为这个项目的雄心很
大,而不是因为Fire手机跌了跟头。
无论前景如何,亚马逊公司最后还是决定要在这年秋季推出这款产品。这是
一个圆柱形的音箱,被称为“闪光(Flash)”。不过,在最后一刻,亚马逊公司决
定把这个名字改成了现在人们所熟悉的“回声(Echo)”。2014年11月6日一经发
布,产品便迅速引爆市场。刊登在《边缘》上的一篇文章指出:“亚马逊公司用一
台能够与人对话的疯狂音箱震惊了世人。”
苹果公司卖出第一个一百万台iPhone手机用了74天。根据一个未经证实的说
法,亚马逊公司卖出同样数量的回声音箱仅仅用了两周。但是实际情况没有这么
简单。对回声音响的第一波评论从赞扬到抵触都有。评论家们提出的问题是:既
然你的口袋里面已经有了Siri,那还在桌面上摆个回声音箱做什么用呢?另外一些
人提出的对隐私方面的担忧——这是由把语音产品连接到云上这一前景所引发的
——一直持续至今。但还是有一小部分评论者意识到亚马逊公司正走在干大事的
路上。“不要嘲笑或者小看亚马逊公司新的智能家居产品,”一位《计算机世界》
的评论员写道,“这样的产品很快就会像面包机一样普及了。”
回到2011年10月4日,亚当·切耶尔对亚马逊公司处于保密状态的多普勒项目
还一无所知。他说,Siri的首秀让他感觉“自己是世界上最幸福的人”。Siri迅速成
为热销品,有市场分析人士说是Siri推动了iPhone销售量的飙升——推出后的第一
个周末就售出400万部,截至当年年底售出3700万部。在2011年的最后3个月里,苹果公司的产品销售总额达到463亿美元,在那时,与之前历史上的任何一家科技公司相比,这个金额都是最高的。切耶尔感觉自己正处在大变革的浪潮上。他
认为这将是有史以来人类所开发的最重要的软件。
然而到了2012年后半年,当人们发现了Siri的一些不足之处后,开始出现了一
些批评的声音。用户在YouTube上上传了一些Siri说错话的视频;评论者们还发表
了一些“毒舌”评论。“苹果公司的语音助理乘着自吹自擂的飞毯向我们飘来,许诺
将彻头彻尾地改变一切,”曼约奥·福哈德,这位很有影响力的技术记者在一本杂
志上发表了这样的评论,“但事与愿违的是,由于语言理解能力的贫乏,这位‘让
人深感失望’的语音助理成了一个‘骗人的、戏弄人的小玩意’。”
苹果公司开展了商业推广活动,佐伊·丹斯切尔、塞缪尔· L. 杰克逊、约翰·马
尔科维奇和马丁·斯科塞斯都来捧场。但是一些用户认为这些推广活动中的广告做
了虚假承诺,有欺诈之嫌,对苹果公司提起了集体诉讼。史蒂夫·沃兹尼亚克是苹
果公司最早的联合创始人之一,他也来凑热闹,对一名记者暗示说,在被苹果公
司购并之前,Siri的运作很好。甚至连Jack in the Box这部电视剧也在其广告中把
Siri之类的语音助理的语音识别功能讽刺了一把。
在广告中,杰克问语音助理:“盒子里最近一个的杰克在哪里?”
“我发现有四个地方卖袜子。”语音助理回复说。
苹果公司在某种程度上是在为一个雄心勃勃但尚不成熟的产品的首次推出
而“交学费”。因为不存在一个可以与之进行比较的先行产品,所以很多人也许是
在以科幻小说中完善的人工智能作为标杆来衡量它。又或者,从某种程度上说,用户是在拿它的语言理解能力和真人的对比。当然,苹果公司那些浮夸的市场宣
传也在诱导人们对此浮想联翩。Siri的类人化的界面,再加上抖机灵的笑话和淘气
的调侃,也让人产生它有高度智能的错觉。总之,还得说是人们把Siri想得太好了
——并且到了一个不切实际的地步。(同时,后续的语音助理产品,将因为有了
Siri作为主要对标物而大获其益)。
当然,Siri的问题也不能完全归因于人们不够公允的期望。在推出几天后,就
面向百万级用户启动一个新的计算平台,这是一个艰巨的考验。虽然苹果公司的
员工们在夜以继日地工作来应对这个考验,但仍然不能避免Siri速度变慢甚至停摆
的问题。几年以后,一些Siri过去的开发者在报纸上抱怨,最开始的Siri软件有很多漏
洞,根本没有做好大规模应用的准备。他们声称,它的代码存在根本的结构性问
题,使其新能力的提升速度放慢。这引发了一场经久不息的争论——Siri是应该渐
进式地修修补补,还是彻底推倒重来?然而,吉特劳斯不承认他的公司把一个劣
等品卖给了苹果公司的指责。他于2018年在推特上愤怒地写道:“这完全是错误的
说法。实际上Siri在推出之后运行良好,但和任何一个新平台一样,在超出预料的
大负载之下,它不但需要在规模上调整适应,而且还需要24小时不停地运行。”
对于切耶尔来说,他当然知道Siri还远非完美。苹果公司发行的Siri仅仅是1.0
版,切耶尔对此已经有了一个具体的改进计划。大体方案是建立起一种对话式模
式,通过一个代表着用户的人工智能代理进入数字世界。要想实现这一计划,Siri
必须能够接入尽可能多的第三方应用程序,只有这样它才能实现当初的创建者对
其寄予的期待。
然而,苹果公司发布的这个版本的Siri也是有第三方接入限制的。乔布斯希望
做一些接入限制,以便Siri尽可能运转顺畅。因此,他没有选择与数量处于不断增
长中的第三方应用程序做更多的连接——Siri并购前的版本有45个这样的连接——
而只是允许与一小部分苹果公司自主开发的应用程序进行连接。这是一个重大的
局限,想象一下如果谷歌网站能够提供的连接只是自己开发的站点而不是全网,那会怎么样?但是切耶尔并不为此担忧。乔布斯已经告诉过切耶尔,他支持逐步
对Siri扩展外部接入。这可以与iPhone的发展历史相互印证,在向数以万计的外部
开发者打开大门之前,当初iPhone也只向用户提供苹果公司自己开发的应用程
序。
但是,乔布斯的去世改变了所有的事情。语音助理失去了一个“啦啦队长”,只有他才能让公司所有的高管们沿着当初的目标共同前进。苹果公司对待Siri的方
式早已让一些领导者感到不满,他们中的不少人“急流勇退”,这很快导致了一场
管理风波。
吉特劳斯是第一个离开的,在语音助理推出三周以后他就辞职了。切耶尔挺
到了2012年5月。“我离开了高薪的工作,我喜欢的人们,还有我很在意的项
目,”切耶尔这样说,“但我觉得我难以再待在这里了。”吕克·茱莉亚在吉特劳斯
离开后成为Siri项目的主管,他在2012年10月也离开了。理查德·威廉姆森和斯科
特·福斯特尔是负责Siri项目的高管,也在这年年底被迫辞职。正如斯坦福的未来学家保罗·萨福对一位记者说的那样,Siri成了一个人工智能“孤儿”。
随着绝大部分主创团队成员纷纷离去,项目的运转乱了套。一篇发表在The
Information网站上的文章写道,“Siri的各个团队陷入了对Siri的理想版本到底应该
是什么样子的激烈争吵之中……负责这一项目的领导者和中层管理者,像走马灯
一样换来换去,他们都缺乏乔布斯的那种眼光和影响力。”因为缺少一位强大的领
导人(或者至少有切耶尔那样的眼界),苹果公司没有打开Siri的道路,从而使之
成为整个数字世界的新的对话界面。它在很大程度上走向了封闭。
约翰·伯基从2014年到2016年是Siri高级研发团队的一分子,他认为,由于对
这一软件最知根知底的那些人大多离开了,因此Siri的开发过程陷入了停滞。剩下
的成员就像是深受观众喜爱的摇滚乐队的明星人物去世后剩下的那些乐队成员,想打造出热门作品,但已经回天乏力。伯基并不接受原来的软件就有缺陷这样的
指责,但认同由于最精通它的开发人员离开了,这个系统变得越来越笨重难用,就像是用口香糖和强力胶带粘起来凑合着用一样。
就在苹果公司对Siri撕扯不清时,竞争对手们并未袖手旁观。谷歌公司没有拿
出像Siri这样轰动一时的产品,而是渐进地推出了自己的语音人工智能,其特点是
能够在较少的监视之下实现改进。它的起步可以追溯到2008年,那时谷歌公司刚
刚推出一款iPhone手机上的应用程序,用户可以对着手机说出他们的搜索请求,而无须输入文字。搜索结果是以传统方法呈现的,是一个目视化的链接列表,这
项技术能够让谷歌公司在语音处理方面得到一些有价值的经验。
到2012年,谷歌公司推出了一个语音助理,称为Google Now,它能够提供人
性化的、符合情境的相关信息——体育比赛比分、日历事项提醒、天气预报、驾
驶指南等。甚至在你询问这类信息之前,它就会主动提供。例如,在你的日历上
发现你在这个城市有一个约会,但是交通堵塞,它就会提醒你早点动身。运用文
本或者语音,用户也可以启动网络搜索、用手机打电话、发电子邮件、找音乐曲
目或者问路等功能。
虽然没有在营销上过分用力,但这一产品使谷歌公司向前迈出了重要的一步
是有目共睹的。这家公司正在变得不那么局限于搜索框,而是更注重用自然语言
进行交流。谷歌公司把它当作一个高度个性化的助理产品来推广。Google Now也
显示了公司对语音越来越浓厚的兴趣。斯科特·霍夫曼是谷歌公司负责工程的副总,他告诉一位记者:“这是历史上开天辟地的一次人与机器的成功对话。”
同时,在微软公司,语音技术作为计算技术的未来,也让这里的人们感到欢
欣鼓舞。率先把这一愿景变为现实的人是拉里·黑克,他是语音人工智能方面
的“大佬”。和切耶尔一样,他也在SRI工作过。2009年,那时大家还不知道Siri,黑克就建立起团队,开始进行语音助理的开发工作。比Siri更进一步的是,黑克的
团队所开发的人工智能,从设计上就是要直接模仿真正人类行政助理的行为,能
够掌握每个用户包括日程安排和联系人在内的细节信息。与苹果公司不同的是,微软公司有自己强大的搜索引擎——必应,能够用以提升人工智能答复问题的能
力。
虽然开局不错,但微软公司没有像苹果公司和谷歌公司一样推出实际的语音
助理产品。在2013年接受科技资讯网采访时,微软公司执行官斯特凡·维茨解释
说,公司想等到能拿出比Siri或Google Now更好的产品时再推出,在他看来,这
两款产品功能的局限性都太大了。“我们希望能拿出革命性的而不是改良性的产品
后再启动。”他说。最终,在2014年4月,微软公司宣布推出他们自己的语音助理
产品:微软小娜。
科技记者们为微软小娜的问世献上了礼貌性的喝彩,但并没有激动到起立鼓
掌致敬的程度。反观苹果公司,虽然它作为一项新技术的“吃螃蟹者”而受到过责
备,但也因此而得到勇于创新探索的赞誉。但是2014年,微软公司推出的这款基
于智能手机的语音助理即便更加成熟好用,但也只是以模仿而非创新的面目出现
在世人面前。美国有线电视新闻网在报道时用了这样的标题:“遇见微软小娜,这
是微软版的Siri。”很多评论者们坚持微软小娜纯粹就是个跟风者。《瘾科技》杂
志的一名评论者认为,“微软小娜感觉就像是融合了Google Now的世俗气和Siri的
迷人魅力。”
对Siri来说,两个竞争对手的出现为它带来了困扰,但等到2014年秋天,局面
又变得没那么糟糕。苹果公司已经丢掉了盛气凌人的“先行者”的主角光环,并且
让对手们有了追上自己的时间。内部管理的暗战还在持续,在接下来的几年中,公司又有另外几位顶尖的语音人工智能专家出走。但是从积极的方面来看,Siri算
是走过了磕磕绊绊的“童年时代”,正在卖力地处理来自数以百万计的用户的请
求。Siri已经转变成为一个更加强大的以机器学习为基础的系统。苹果公司的一位
高管总结说,Siri就像做了“大脑移植”。只要iPhone手机不断创下销售纪录并获得大量利润,就能保证Siri作为语音助理产品的领军者地位。
只要智能手机还是通往这一技术的最主要接入点,苹果公司作为语音领域领
导者的牢固地位就是可以维持的。但亚马逊公司在2014年11月,带着回声音箱异
军突起。突然间,市场上出现了一个新的产品——智能家居音箱。这是一台“人工
智能唱主角”的产品,意味着语音助理不再像在手机上那样,只是一种附加的特
色,而是其本质特征。
按照伯基的说法,苹果公司不愿意看到这番景象。他们对亚马逊回声音箱上
市的反应是“先傲慢地藐视,而后又陷入惊慌失措”。
刚问世时,亚历克莎和Siri激起了很大的波澜。2016年上半年,这项技术
的“大玩家”们才开始纷纷宣布语音是计算技术的未来,就好像他们在按照同一剧
本念台词。
2016年1月3日,扎克伯格表态,他将努力打造一个自己的语音助理——就像
《钢铁侠》中的贾维斯一样。“我将开始教它通过理解我的话来控制家里的所有东
西——音乐、灯光、温度等。”扎克伯格这样写道。这位“贾维斯”也将学习如何通
过辨认面孔,把正在按门铃的扎克伯格的朋友们迎进家中。如果“贾维斯”能够侦
测到在扎克伯格家中发生的任何事情,他就会提醒扎克伯格应该如何看好自己一
岁大的小女儿。
扎克伯格最终会花一百到一百五十个小时来打造一个简单的语音助理原型产
品,他成功地让语音助理做到了预想中的那些典型的智能性家居任务。在他的指
挥之下,语音助理甚至打开了烤箱。但这个“贾维斯”有时又很“傻”,例如,当扎
克伯格坐下来要看电视时,它可能会关掉电灯;扎克伯格可能要把命令重复四
遍,“贾维斯”才会真正按照指令行动。但至少“贾维斯”有一个特色是那些把制造
聊天机器人当作业余爱好的人士所难以办到的。扎克伯格在一次颁奖典礼上邂逅
了摩根·弗里曼,于是就把他拉去录了一段音频,这样他开发出的语音助理就可以
模拟这位演员的声音来说话了。在一段宣传的视频中,当一台语音控制的“T恤大
炮”从衣柜里把衣物射向扎克伯格时,弗里曼版本的“贾维斯”喊道:“小心炸弹!”
虽说“贾维斯”只是扎克伯格个人的一个项目,但这明确显示出他对语音技术的兴趣。脸书公司也对此十分感兴趣。2015年8月,这家公司开始测试一款被称
为M的语音助理产品,它可以通过文本短信息与一个包含数千用户的软件验收测
试池接起来。就像一位尽职的助理一样,它会为了满足一位苛刻老板的各种心血
来潮的需求而东奔西走,M的确很能干。有一位测试M的用户很幸运,他让M为
他订了航班,拿到了有线电视费的折扣,写了歌曲,还订了一杯南瓜拿铁咖啡,并送到了自己的办公桌上。
脸书公司并不是突然间创造出了一个人工智能产品。M所接收到的请求有时
是由一个真人团队来帮助处理的,他们在幕后忙碌着。脸书公司的计算机科学家
们想要训练M,让它能以人类助理为榜样来学习如何帮人干活——真人会用什么
样的语言,真人会采取什么样的行动。
M项目立足于长期的研发,而非作为一款短期推出的产品。“这是一个实验,我们想看看人们会提出什么问题,以及会以什么方式提出问题。”脸书公司负责人
工智能和短讯功能的产品主管克马尔·埃尔·穆佳德这样说。但在2016年4月举行的
脸书公司年度开发者会议上,扎克伯格在他的主题演讲中提到,公司正加紧推出
新的语音技术。他在一开始就说道,他从未遇到过愿意通过给商家打电话的方式
来获取信息的人。人们也不喜欢为可能会用到的单项服务安装一个专门的应用程
序。扎克伯格提出了另外一个选择:“我们觉得你应该像给朋友发信息那样和商家
联系。”
扎克伯格接着揭开了一项新技术的面纱。这项技术能够让开发者创建微型的
商用聊天机器人,它能够自动提供产品信息并回答一些一般的消费者问询。这些
都将建在脸书公司的通信平台上,如果需要与这些聊天机器人中的某一个进行互
动,那用户仅需要把它作为一个联系人添加上就可以了。扎克伯格在台上展示了
他如何从CNN的机器人处获得最高法院提名人和寨卡病毒的有关信息。然后他又
通过鲜花网机器人订了一束“爱的拥抱”鲜花。“我发现这非常有讽刺意味,”扎克
伯格开玩笑说道,“因为现在你从鲜花网订鲜花,再也无须拨鲜花网的电话了。”
几周之前,微软公司在他们的开发者大会上给了脸书公司一记重击。微软公
司声称使用他们的“微软机器人框架”(Microsoft Bot Framework),开发者们能够
为任何商家创建一个自然语言的界面。公司基于云端的人工智能服务能够对此提
供支持,以解析语言、组织对话,甚至还能分析出隐藏在人们语言之后的感情。比扎克伯格更进一步,微软公司的CEO萨蒂亚·纳德拉在这幅关于语音人工智
能的大图景上又涂抹了一层诗意的色彩——就像他说的那样,“语音技术发挥了平
台型技术的作用。”机器正变得愈加聪明,语音界面变成了新的通用界面。“我们
认为这会产生像以往的平台转换一样的效果。”纳德拉说道。
在2016年,还有另外一家公司做出了重要声明,那就是谷歌公司,他们在5
月举行了自己的年度IO开发者大会。语音人工智能显然已经在公司的谋划之中。
脸书公司和微软公司描绘出的是一个充满来自不同公司的数以千计的机器人的世
界,而谷歌公司描绘的是一个更加一体化的整合性方案——当你发出指令,它就
会去做任何需要做的事情,并告诉你任何你想要知道的事情。
这场年度IO开发者大会在华盛顿州海岸线市的圆形剧场举行。在会议的主题
演讲中,公司CEO桑德尔·皮蔡说:“公司现在已经走到了一个重要关头。借助最
先进的机器学习和人工智能技术,公司希望采取进一步措施,为用户提供更大的
帮助。”在这个场合,他最终向世人公开了谷歌助理。“我们设想这就是语音助
理,”皮蔡说,“我们希望用户和谷歌助理之间能够进行不间断的双向沟通。”
这是一款比Google Now更加成熟的产品,用户可以通过智能手机使用它;也
可以通过一个啤酒罐大小,被称作谷歌家庭的智能音响使用它。人们可以通谷歌
公司开发的一款全新的名为Allo的即时通信应用程序与这款语音助理产品对话。
在得到用户的同意之后,当感觉能够提供某些有用的信息时,这款语音助理
就能够参与进你通过Allo即时通信应用程序进行的任何文本交流中。如果你正在
与朋友商量一起去吃饭,它就会把推荐的餐馆的消息给你弹出来。这款语音助理
也能自动给出对某人的信息该如何回复的建议,如果用户中意的话,那就可以直
接发出去。例如,如果有人发给你一张可爱的宠物照片,这款语音助理就能够运
用图像识别技术,给出回复建议,“可爱的伯尔尼山地犬!”当你需要回答一个事
实性的问题时——哪个球队在大学足球赛的复赛中取胜了?——助理马上就能给
出答案。
相当有趣的是,谷歌公司虽然开发出了语音助理产品、智能家居产品和Allo
即时通信应用程序,但它并没有以“先驱者”的面目出现。皮蔡甚至为亚马逊公司
能开发出如此激动人心的智能家居音箱而大声喝彩。谷歌公司采取的是“快速追赶
者”策略。脸书公司也使用过同样的策略,脸书公司并不是第一批社交网络中的一员,它虽然在Friendster和MySpace之后才加入社交网络的竞争中,但最后却把后
两者远远抛在后面。谷歌公司同样如此,它是第一代搜索引擎的模仿者,但最终
也打败了它的竞争者们。
就语音助理产品来说,谷歌助理比Siri晚了5年;谷歌家庭比亚马逊回声音箱
晚了两年。但是在IO开发者大会上,皮蔡看起来非常自信,几乎像是在嘲笑竞争
对手们的不专业。“我们最近十年都在开发世界上最好的自然语言技术,”他
说,“我们在对话理解方面的能力远超其他语音助理产品。”
而亚马逊公司相对于对手们保持了一种更低调的姿态。但在2016年5月底,贝佐斯就亚马逊公司对亚历克莎的投入揭示了一个夺人耳目的事实。在一次访谈
中,贝佐斯说,亚马逊公司在亚历克莎平台上投入了1000多名研发人员。他说,目前世人所见不过“就是冰山的一角”。
苹果公司在2016年5月13日发布了一项声明:他们允许Siri与更多的第三方应
用程序相连接。开发者将提供选项让用户能够通过与Siri对话调用6个领域内的应
用程序:短信、音频和视频通话、付款、拍照、锻炼、乘车预订。因为接口还被
苹果公司紧紧控制着,所以这很难说就是切耶尔提倡的那种开放门户的方式。但
这毕竟只是一个开始。Siri现在能够帮助用户预订Uber车辆、打Skype电话、用
PayPal给朋友转账、启动跑步软件等。
但你可能争辩说,2016年春天与Siri相关的最大新闻并没发生在苹果公司。最
初的Siri开发者中的三位——切耶尔和吉特劳斯,再加上一位在SRI年代就成为团
队一员的名叫克里斯·布里格姆的计算机科学家——透露说,他们创建了一家公
司,并且开发出了新的语音助理产品。它的名字叫Viv,是从拉丁语中的life这个
词衍生出来的。
从某些方面来看,Viv不过是切耶尔在其职业生涯的大部分时间里都在探求
的这种语音计算技术的一个最新迭代版本。这是一个基于互联网的语音助理产
品,它与那些第三方应用程序连接着,能用自然语言沟通交流,能够听从用户的
差遣。但是创建者们声称,Viv比此前开发的任何一个产品都更强大、更灵活。
Viv无须按照提前编码的规则一步一步地去完成任务,而是能够在工作状态下现
写程序以完成用户的语音请求。假如一位用户问Viv:“在去我哥哥家的路上,我需要买点与宽面条相配的便
宜葡萄酒。”通过查询一个食谱数据库,Viv确认宽面条是香辣味的,并且确认了
它的配料有奶酪、番茄汁和绞碎的牛肉。然后Viv又通过查阅Wine.com网站确认
这些配料与浓郁醇厚的葡萄酒相配。Viv还通过查询地址簿确定他哥哥家的位
置,并通过MapQuest地图网站设计了驾驶路线——包括要绕道去最近的红酒商
店。在屏幕上,Viv还显示出了价格合适的葡萄酒的产品说明和列表。
在TechCrunch公司于2016年5月举行的创新大会上,吉特劳斯上台第一次公开
展示了Viv。当要对这个产品进行大胆预言时,他没有含糊。“这是一个自编写软
件。”吉特劳斯说。三星公司这家消费类电子和手机制造商很认同Viv将大展宏图
的说法。2016年10月,三星公司以2.14亿元美元的高价收购了这家公司。
从2016年各公司纷纷发出声明之后,尘埃就已落定,这些科技巨头们在展望
人与计算机的交流方面显然设想的第一种方式明显是通过语音;但文本输入也是
可行的选择,并且脸书公司、微软公司和谷歌公司都发现这种方法很有吸引力。
他们这种对基于文字的人机互动的兴趣起源于认为应用程序的时代正在逝去
这样一种看法。平均每台手机都会装100多个应用程序,每一个都只能完成某个
单一化的任务。应用程序的魅力开始让位于审美疲劳,数据显示,普通用户有
80%的时间实际都花在了其中寥寥3个应用程序上。
然而,这些科技公司的高管们认识到,即时通信应用程序仍然非常受欢迎。
因此他们推测,开发即时通信应用程序是个方向。他们的预想是,用户们不愿意
每干一件事都打开一个专门的应用程序,而是倾向于更多地使用即时通信应用程
序,并与机器人进行交流。微软公司的纳德拉在2016年的主题演讲中点透了这个
观点,他称:“机器人就是新的应用程序。”
这个看法不是纳德拉和他的同事们喝着浓咖啡在白板前面进行头脑风暴想出
来的。相反,这是进行案例研究的产物,他们观察到很多国家都直接越过了桌面
机阶段而进入移动互联网阶段。以中国为例,微信用户在2016年达到了7亿,微
信成了人们手中数字版的瑞士军刀(用户数现在已经达到了10亿人)。人们使用
这一应用程序进行搜索、预约车辆、购物。人们用微信付款,不管是大商场还是
街边的小吃摊,都可“畅通无阻”。人们通过微信与1万多家公司建立起联系,这些
公司提供的服务从静态的网页到互动性的聊天机器人都有,都可以通过发送短消息实现。
到2016年春天,脸书公司的即时通信平台已经达到9亿用户,到2018年达到
了13亿用户,很明显它把自身定位成了西方世界的微信。同时,微软公司也有新
动作。它正鼓励开发人员使用“微软机器人框架”来创建聊天应用,并将其设置在
像脸书公司的即时通信这样的平台上。同时,微软公司也希望有开发者能为他们
的Skype开发聊天机器人。再说谷歌公司,这家公司现在有Allo即时通信应用程
序,人们可以通过这个平台相互之间发送消息,也可以与聊天机器人及语音助理
进行短信联系。
对于那些处于技术世界之外的公司而言,可以用来与用户沟通的语音选项越
来越多,这既让人激动也让人困惑。那些眼光超前的公司高管认为,就像当年的
网站和应用程序一样,他们必须拥抱这些以数字化手段呈现自我的新方法;不这
样做就意味着要冒在数字化环境下被人视而不见的风险。但是该如何做呢?是用
聊天机器人、即时通信平台,还是Skype网络电话?从2016年开始,这些公司尝
试了很多方法,我们来看看到底哪个能够奏效。
雅诗兰黛、丝芙兰和欧莱雅的聊天机器人能够给出护肤建议,帮助用户选择
色号最合适的粉底。作为一家快时尚零售商,优衣库有一款被称为IQ的机器人,它能够为人们提供购物帮助,例如,当你输入“我需要新裤子”时,这个机器人就
会以图片的形式向你推荐一些款式。
起亚汽车有文本输入和聊天机器人,能够帮助消费者得到关于不同汽车型号
的信息或是因价高而滞销的车型这类信息,还能回答诸如“在城市中行驶,一加仑
汽油最少能跑上25千米的SUV车型有哪些”等问题。这家汽车公司认为,机器人的
用户转化率比网站高三倍,机器人帮助公司卖出了超过22000辆汽车。富国银
行、同盟金融和美国银行的聊天机器人能够帮助用户找到ATM机,查询存款并提
款,还能进行转账和支付。
你饿了吗?来试试邓肯甜甜圈、星巴克、赛百味、丹尼快餐、多米诺快餐、必胜客等外卖平台的亚历克莎和谷歌语音应用程序吧!
Match.com这家婚恋网站有一台名叫拉腊的聊天机器人,它能够撮合现实世界和虚拟世界中的浪漫情缘,还能够推荐约会对象,并把照片和简介信息发到用
户的手机上。如果用户同意与对方接触,那么它还可以在言谈方面给你些建议,就约会这件事来说,它甚至还可以为你推荐餐馆。如果你想约对方去看电影或者
听音乐,那么来自StubHub、Fandango或Ticketmaster等票务网站的机器人能够帮
助你订票。一些名人,包括凯蒂·佩里、肯伊·威斯特,甚至能让你通过与他们个
人的机器人替身进行沟通从而在表演之后仍与他们保持联系。
如果你现在要启程出发,那么荷兰皇家航空、联合航空和汉莎航空都有专门
的机器人能够帮助你办理登机手续并取到登机牌。如果你最终下榻在拉斯维加斯
大都会酒店,那么前台人员会递给你一张卡片,上面印着这样的话——“知道我的
秘密”或者“我是你从未问过的问题的答案”。如果你输入卡片上的号码,你就会与
一位名叫罗斯的机器人接上头。
总之,在2016年迄今的这股热潮中所开发出来的聊天机器人和语音应用中,既有失败之作也有成功之作。开发者们意识到,开发自然语言的应用程序,即使
是聚焦于非常具体的领域,也可能会非常困难。当计算机能够以接近人类的方式
沟通时,人们就会期望它具有像人一样的智能,他们的期望值也会水涨船高。所
以,设计者们正在学习如何把当前这一代语音对话界面的能力和局限性向用户说
明白,这是他们的第一个收获。
他们的第二个收获是,这样的聊天机器人并非新的应用程序——或者至少不
是始终如此,当要把很多信息呈现出来时(如很多天的天气预报或者可选航
班),视觉呈现会比语音呈现更有效率。所以,这些科技公司推出了一些两者的
混合体——亚马逊公司的回声秀(Echo Show)或者支持谷歌助理的联想智慧显
示(Lenovo Smart Display)。这些混合体既有屏幕也有语音对话能力。对于手机
上的即时通信应用程序,机器人制造商通常会在其线程中包含图像和按钮,而不
仅仅依赖于文字。
他们的第三个收获是,设计者们不再着眼于简单地复制那些早已存在的智能
手机应用程序,而是更多地聚焦于创造出一些能让自然语言交流大显身手的场
景。他们所瞄准的场景是那些人们手头正在干着其他事情不能同时盯着屏幕的情
况,如开车和做饭。这些公司正在把聊天机器人和语音应用程序当作多渠道战略
营销的一部分来展开,而不是把它们分割开来。罗伯特·霍夫原先认为“伶俐小孩”这款软件因其能以自然语言进行互动而极大
地提高效率——让人们得到信息的速度大大加快。但他很快意识到,这项技术的
真正威力可不在这里。“当你讲话的时候,你能很快对它产生亲切感,”霍夫
说,“它能给你赋能,让你能做很多事情,其他手段不会有这个能力。”
与计算机建立起亲密关系,就像和人一样,意味着这会让人轻松起来,更投
入感情,更有参与感。这些特征可以应用在所谓的高接触性应用程序中,在这样
的应用程序中,信任、人性化和默契都很有价值。这样的应用程序范围非常广
泛,可能会包括医疗保健、市场营销和虚拟陪伴等,在本书后面的部分,我们会
深入讨论这类应用程序。
要在网络上测试出哪些应用程序运行良好,需要好几年时间。智能手机上的
应用程序推出之初也是趔趄而行,其中有很多居然是为了完成一些让人疑窦丛生
的任务,如按照指令合成放屁的效果。语音人工智能的发展也走了相似的弯路,但有迹象显示,在走过蹒跚学步的阶段之后,它正走得越来越稳健。
在2016年时,135个亚历克莎技能(Alexa Skill)还没有被启动,基于即时通
信平台的机器人也没有出现。到了2018年春天,亚历克莎技能已经有了惊人的增
长,超过30000个,并且谷歌命令(Google Action)也达到了1700多个。在即时通
信平台上有300000个机器人,与用户之间累计产生了几十亿条信息。皮尤研究中
心的一个研究项目显示,在2017年年中,在美国从18岁到49岁的成年人中超过一
半人使用语音助理,并且还有另一项研究发现,在2018年年中,仅美国一个国家
就有将近5000万智能音箱用户,智能语音时代已经到来。
第二部分 创新CHAPTER 04 探索之旅
一直以来,人类都会深刻而持久地迷恋能够与其交谈的对象。人类的这种迷
恋在前人工智能时代就已经显现出来,我们希望能与这样的对象交谈的愿望十分
强烈。直到最近,那些致力于创新的人还是经常被视为神秘的人、梦想家或江湖
骗子。即使到了数字时代,智能语音还往往只是某些公司的研究人员、专业学者
及发烧友们的探索目标,看起来他们为之付出的努力并不具有推动变革的力量。
他们创造出的东西横跨科学、娱乐和艺术领域。只有具备长远的目光,我们才能
意识到,这些探索者们正在引导未来越过时代的拐角。
在真正的语音技术形成之前,智能语音长期以来都只是一种假想。一些无生
命的事物突然有了“生命”,对这方面最早的一些传奇故事来说,最令人惊奇的不
只在于它们已经流传了多久,而在于它们与现在的人工智能有多少共同之处。看
起来,人们长期以来就梦想着能有栩栩如生的对话对象出现,它们能够为人类提
供帮助——但对这样的可能性,他们同时也有些焦躁。
在古代,有人相信古埃及人创造出了能够与人交谈的雕塑。在希腊神话中,火神赫菲斯托斯的金色机器人女仆能够说话,而代达罗斯的雕像能够自己走来走
去。代达罗斯的精力非常充沛,因此,必须被锁在基座上以免走丢。
很多文化都有一些关于便携的、能够提供信息的发明物的传说——这相当于
几千年前的苹果手机。从形状上看,这些发明物都有好几个脑袋,因此它们能够
交谈。在挪威的神话中,以智慧著称的米尔神在一次战斗中身首异处。后来,奥
丁神对着他的头颅唱歌,并且用药草把这颗头颅保存起来。从此以后,奥丁神就
把这颗头颅带在身边,并经常向其讨教。家庭供奉的小神像——《圣经》里提到
过这些不敬神的能讲话的神像——人们普遍认为它们有着木乃伊化的人的头颅,刻着咒语的金板插在它们嘴中。公元6世纪,一位希腊哲学家曾写过一个传奇故
事,说有一位学者的脑袋被砍了下来,以此来分享他的智慧。
在中世纪,有关于黄铜人头的神话故事,相传有人能制成会说话的人头,而
不用再径直从人的脖子上扭下来。英国主教罗伯特·格罗斯泰特,德国神学家阿尔
伯特·马格纳斯,还有英国修士、哲学家罗吉尔·培根都以拥有自己的青铜头颅而
被人熟知。这些神话故事得到大量传播,同时也引起了一些人的质疑。就像人工智能历史学家帕梅拉·麦克杜克所写的那样,“会说话的青铜头颅与知识丰富的学
者之间的关系,就像猫与女巫的关系一样。”
对青铜头颅最早的文字记述可能是由12世纪英国马姆斯伯里的历史学家威廉
所写成的。在《英国国王编年史》一书中,他描述了一个青铜头颅的制作过
程。“他出于自己的目的,铸造了一个雕塑的头颅……这个头颅只在有人对他讲话
时才回话,不过他会马上道出真相,不管是对或错,它都直言不讳。”在13世纪,人们赞誉马格纳斯的青铜头颅像一位美丽的女士。但马格纳斯的学生托马斯·阿奎
纳明显觉得它很不顺眼,所以在马格纳斯死后就把它烧毁了。一个心怀恐惧的人
摧毁了有对话能力的人工智能生命体的寓言故事就这样流传下来了。
另一个故事的主角是哲学家勒内·笛卡儿,他在1649年陪着皇后到了瑞典。在
航行过程中,笛卡儿可能告诉了其他旅客,他在带着女儿佛朗辛旅行。但是大家
从未见到他的女儿现身,因此产生了怀疑,于是跑去他的座位看。他们发现了一
个盒子,打开这个盒子,他们发现里面有一个已经造好的笛卡儿的机械人偶。让
他们大吃一惊的是,这个人偶会动还会说话。旅客们把这个人偶拿给船长看,船
长担心它会带来恶劣的天气,就令人把它丢到船外了。
这种会动会说的人偶虽然名声不好,但并未阻挡17世纪的人们对它产生好奇
感。在这个时候,人们开始创造世界上最早的机器人——一个精巧的全机械仿生
装置,被称为自动人偶。一个名叫托马斯·阿尔松的英国人展示了一个令人印象深
刻的装置。他的这个作品形式上是个木制的人偶,如果你朝着它的耳朵低声问
话,它就会回复你。其实,这个人偶就是由一个原始的云计算模型来驱动的。一
根隐蔽起来的长管子把这个人偶和一间房子连了起来,房间中藏着一位博学的教
士,他偷听到了人们问的问题,并给出答案。
到了18世纪,在来自匈牙利的发明家沃尔夫冈·冯·肯佩伦的帮助下,语音合
成朝着成为实实在在的具体技术迈出了第一步。肯佩伦因为一件创造物而声名远
扬——这就是一个叫特克的装置。这个装置有点神秘,它在一张桌子后面,下象
棋能够战胜人类玩家。肯佩伦带着特克在世界各地旅行,特克打败了包括本杰明·
富兰克林和拿破仑·波拿巴在内的挑战者们,赢得了众人的喝彩。这个特克当然是
个骗人的装置。在桌子下的柜子里藏着一位侏儒症患者,他偷偷控制着棋子的移动。这个人坐在一个滑行平台上,当肯佩伦打开门给人们展示柜子的这一半空间
时,他就滑到另一边躲起来。
但肯佩伦不仅是一个魔术师,他还用自己的才能帮助残障人士。他为虚弱的
人设计了活动床,为盲人设计了打字机。从1769年开始,他投入到一个项目中,一干就是20多年。他对后来聊天机器人的发明产生了深刻影响,他希望它能帮助
哑人发声。
在人们对讲话发音的原理并不了解的年代,肯佩伦作为一名先行者,投入了
20年的漫长时间来研究人的语音——从开口音a到摩擦音z——对人类如何发音进
行了理论化的阐述。语音装置就体现了他的这些思想。肯佩伦用一个风箱来代
替“肺脏”工作,通过一根管子鼓气,并让气流通过一个风笛的簧片,簧片的震动
就能模仿声带的震动。他用手把一个橡胶漏斗型的假嘴挤压成不同的形状,以发
出元音。先收缩关闭,再快速打开,这样就能模仿破擦音,如p和b。从模仿喉咙
的位置伸出的几根金属管子可以用翘板来操控,以发出s和sh这两个像嘶嘶声的
音,还有鼻音n和m。这个装置甚至还有一条机械舌头。
1783年,肯佩伦开始了一次为期两年的环欧洲旅行,以展示他的语音装置特
克,旅行全程就只有这个装置与他为伴。虽说被更有戏剧性的棋手抢了风头,但
他的语音装置还是因为能够发出人可以听明白的简短的单词和短语而给观看者留
下深刻的印象。肯佩伦的不幸之处在于,他所收获的任何赞誉都被来自批评家的
负面报道掩盖了,因为这些批评家发现特克只是一个假的装置,而不是一台真正
的智能的装置。虽然肯佩伦承认了这件事情,但他还是被视为一个骗子而非一位
科学家,这样的坏名声使他在语音合成方面的工作变得有些黯淡无光。1791年,也许是想让世界相信他对这件事情的诚意,肯佩伦出版了《人类语言的机理》一
书,这本500页的书详细介绍了他的研究工作和对语音装置的设计。肯佩伦在其
有生之年没有得到人们充分的肯定,但这部语音装置的确在他于1804年离世之后
产生了重要影响。他的研究启发了后代的研究者,在我们今天讨论智能语音的时
候,他的科研传奇还被人称颂。
在受到肯佩伦著作影响的人中,有一个名叫约瑟夫·法勃尔的修补匠。1841
年,他向巴伐利亚国王展示了自己制造的一台既有神韵,又有机械之巧的语音装
置。可是,当未能用这台装置获取更多利益之后,心浮气躁的法勃尔把它毁掉
了。1844年,在移民到美国之后,他又建造了语音装置的第二个版本,并在纽约进行了展示,那些听到过这台装置发声的人们都对此留下了深刻的印象。可是法
勃尔并未得到任何资金支持以进一步深化自己的研究,所以他又一次毁坏了这台
能发声的装置,当时的一本杂志把他的这个举止描述为“突然发飙”。
1845年,法勃尔以前所未有的精巧程度再次“复活”了自己的语音装置。他用
风箱当作“肺脏”,催动空气流经哨子、簧片和震动着的共鸣器,气流调节器和入
口又对声音进行了进一步加工。法勃尔把这台装置放在一张华丽的桌子上,他像
弹钢琴一样来操作这台装置。他通过敲击17个按键来控制声音的音域,这些按键
都被标上了当被按下时能让机器发出的声音,如a、e、o或l。他在这台装置对着
听众的这一面放了一张女子的面具,还顶了一头打卷的假发。法勃尔有时还会为
它穿上衣服以营造戏剧性的效果,当它说话时,他还会用撬板让它的塑料嘴唇一
张一合地动起来。
约瑟夫·亨利是一位杰出的科学家,也是史密森尼学会的首任会长,他对法勃
尔的作品称赞不已。他在一封信中声称,“这台装置能够讲出完整的句子。”亨利
感兴趣的是,能不能对这台装置进行改进,使其能够把通过电报线路传输的电子
脉冲转化为语音。作为一名忠诚的长老会教徒,亨利也在幻想,牧师们能不能用
这项技术把他们布道的声音同时传播到多个教堂。
与肯佩伦曾经的遭遇类似,法勃尔也没能用这台装置赢得财富和尊荣。
正如一位名叫约翰·霍林斯赫德的伦敦剧院经理在参观了这位发明家的工作 ......
作者简介
其他
出版前言
推荐序
译者序
引言
第一部分 竞争
CHAPTER 01 范式转移
CHAPTER 02 语音助理
CHAPTER 03 科技巨头
第二部分 创新
CHAPTER 04 探索之旅
CHAPTER 05 技术突破
CHAPTER 06 个性设计
CHAPTER 07 交谈能力
第三部分 革命
CHAPTER 08 陪伴功能CHAPTER 09 超级智能
CHAPTER 10 隐私风险
CHAPTER 11 虚拟永生
后记 最后的计算机作者简介
詹姆斯·弗拉霍斯(James Vlahos)
《纽约时报》《连线》《大众科学》《科学美国人》《大西洋》《智族GQ》
和《国家地理》等杂志著名记者,美国鬼才科普作家,以妙趣横生、发人深省的
方式来讨论复杂难懂的科学问题见长。
弗拉霍斯从20世纪80年代开始跟踪和报道语音技术,30多年来,他零距离地
见证和细致地观察了这一领域的研究进展,曾与这一领域中的许多杰出人物直接
对话,本书中的许多观点都来自他对一手访谈资料的提炼。
苑东明
企业高管,独立译者,已出版译著近二十部。
胡伟松
中国农业大学博士,在地方政府经济部门工作,案牍劳形之余,译海寻珠为
乐。
其他
献给我的父亲约翰,因为他没来得及看到本书完稿。献给我的妻子,因为她
见证了本书的整个写作历程。
出版前言
作为一个见证者,我非常庆幸自己亲历了波澜壮阔的互联网时代、大数据时
代、人工智能时代,深切感受到了接踵而至的技术浪潮是如何快捷地改变我们的
工作和生活的,如果未来有闲暇时间追根溯源,那一定是一件非常美好的事情。
作为一个出版人,我也非常高兴能够遇到今天正式呈献给各位读者的这样一
部优秀的科技人文作品,对于这本深入浅出、充满趣味又可能引领一个新的时代到来的科普著作,能够先睹为快,实在是一件令人赏心悦目的事情。
关于智能语音时代,我们大部分人已经多多少少有了一些直接或间接的感
受。比如我们手机上的Siri或者其他语音软件,这曾是苹果手机最令人瞩目的新功
能之一;又比如我们经常在用的语音导航软件里传出的林志玲的“娃娃音”,还有
微软小冰展现自己诗歌“别才”的诗集《阳光失了玻璃窗》;当然,还有电子鸡、旅行青蛙这样风行一时的电子宠物。
对我来说最新的例子是,我在2019年春节期间购买了一台小米智能音箱(“小
爱同学”)作为礼物送给父母。“小爱同学”的乖巧能干,可着实把他们惊呆
了。“小爱同学”为他们做的第一件事是播放花鼓戏《浏阳河》,这是现代技术与
古老文化碰撞出的新奇体验。
与我们直接的生活经验不同,被称为美国鬼才科普作家的本书作者詹姆斯·弗
拉霍斯(James Vlahos),给我们带来了对语音技术这样一个蔚为大观的科技发
展趋势的深入洞察。作为智能语音领域的开山之作,作者确实出手不凡,他把语
音技术、应用与产业的讨论引向了难得的高度,非常清晰地给我们展现了智能语
音时代的新场景。
詹姆斯·弗拉霍斯是一位长期追踪研究语音技术和语音人工智能领域的专题记
者,30多年来,他零距离地见证和细致地观察了这一领域的研究进展,曾与这一
领域中的许多杰出人物直接对话,本书中的许多观点就是来自他对第一手访谈资
料的提炼。
更难能可贵的是,本书作者还是这一领域的深度涉猎者和亲身参与者。他从
十几岁起就对人与机器的对话产生浓厚兴趣,并曾尝试用BASIC语言开发了自己
的文本对话游戏(虽然只能运行寥寥几步),他还开发出了以自己父亲为蓝本的
聊天机器人,让自己的父亲实现了“虚拟永生”。
因此,本书不管是观察与思考的深度和广度,还是研究资料的广泛和翔实
等,各个方面都令人钦佩,也让人感到“解渴”和过瘾。读这样一本书,从实用的
角度说,花费的时间有更高的性价比,它能让我们真切地感受到一个新的产业生
态的发展趋势,启发我们从经济、社会和文化等角度来思考语音技术和语音人工
智能已经或即将带来的影响。翻开这本书,你首先就会被作者这样的话语所吸引:每十年左右,人与技术
的互动方式就会有一个根本性的转变。数十亿美元的财富会“恭候”那些定义了新
的时代范式的公司,而落伍者将破产倒闭。在计算机的大型机时代,IBM是主宰
者;微软公司是桌面时代的王者;谷歌公司靠搜索引领了互联网时代;苹果公司
和脸书公司则在移动互联网时代一飞冲天。
最近的一次范式转移正在进行中。
最新的平台之战已经打响。
最新的技术颠覆正在发生,无论是其规模还是其重要性,都可能是世人前所
未见的。
我们正在迈入智能语音时代。
语音正在变成影响现实的通用遥控器,成为几乎能控制任何一种技术装置的
手段。语音能够让我们指挥各种数字产品助理——“行政助理”“门房”“主妇”“管
家”“顾问”“保姆”“图书管理员”“演艺人员”等。语音打破了世界上一些最有价值的
公司的商业模式,为新的应用创造了机会。语音把对人工智能的控制权交给了用
户。很久之前科幻作品就预言过这样的关系模式,在这样的关系模式中,拟人化
的人工智能成为我们的“助手”“看门人”“预言者”“朋友”。
作者这样言之凿凿,显然并非空穴来风。了解作者的思考逻辑,把握这样一
个大趋势,并以此指导我们的工作和生活,必然有利于我们做出更多正确的选
择。书中提到,当Siri在2010年刚刚被开发出来时,先知先觉的苹果公司前CEO乔
布斯曾经连续17天每天给开发者之一的吉特劳斯打电话,有时甚至深更半夜也
打,终于把Siri收入苹果公司囊中。
远见从来都是人类最宝贵的品质之一,作为智能语音领域的第一本书,这也
可以视为一本“远见之书”。
除了具有经济性含义的远见,本书还非常重视这项新技术对人类精神和感性
世界的影响,甚至作者也把自己和自己的家庭带入了与语音人工智能的互动过程
中,这大大增强了本书的故事性。本书有文采、有温度、有趣味,展卷在手,没
有同类书的枯燥和沉重,反而有一种引人入胜、不忍释卷之感。正如作者在书中所言:智能语音时代的到来是人类历史的转折,因为运用语
音是我们人类这个物种的特质——这一能力把我们和其他物种区分开来。人类的
内部意识的中心不在肺部的空气里,也不在血管里的血液中,而是在大脑的语言
区里。语言调整着我们的关系,它能塑造思想、表达感受、沟通需求;它能发起
变革、挽救生命、激起爱恨情仇;它把我们所知道的一切记录下来。
不管语言是由人说出来还是由机器说出来的,尤其是当“你应我答”的模式出
现,在人与人之间、人与机器之间,交谈就绝不只是一种纯粹依靠逻辑展开的过
程。语言永远不是脱离内容的外壳,人都会被语言影响或打动。作者在书中讨论
的种种事例和情境,都让我们领悟到人和机器之间的语言交流对我们的情感世界
带来的影响和改变。未来,我们与无处不在的机器构成的世界,将是一个前所未
见的更加丰富多彩的感性世界。在云时代,“只要简单地加上一个麦克风和一个
Wi-Fi芯片,任何装置都能实现语音驱动。从浴室的水龙头到孩子玩的布娃娃,任
何装置都能利用分布在全球的几千台计算机所提供的计算能力。”这几乎意味
着“万物能言”的童话世界真的实现了。
基于这样的前景,作者指出:当聊天机器人同时作为工具和准生命进入我们
的生活时,它们模糊了人与机器人的界限,模糊了隐私、自主权和亲密感的界
限,还模糊了人际关系与数字关系、现实与虚拟、生与死的界限。
可以想象当这些界线模糊之后,在我们的生活中将会发生多少故事。这些故
事肯定不会按照单一的模式进行,必定会有更多“人机情未了”式的故事演绎。
除了上述简单提到的精彩内容,还值得一提的是本书中充满浓厚的中国元
素,从另外一个侧面拉近了中国读者与这一话题的距离。
作者在书中用很大篇幅讨论了亚马逊公司主办的亚历克莎奖竞赛,他这样介
绍在比赛中拔得头筹的华盛顿大学团队,“这种方法是由该团队28岁的学生领袖郝
方提出的。郝方来自中国宜春市,他活力四射、性格开朗。他和他的团队成员希
望让他们的聊天机器人的评审用户也能感到快乐。”正是这位郝方同学带领的团队
所开发出的聊天机器人创造了交谈长度20分钟的记录。
“当华盛顿大学团队的成员上台后,普拉萨德把那份令人满意的奖品发给了他
们——一张金额达50万美元的巨额奖券式支票。郝方大笑着拿过支票,对着镜头竖起了大拇指。”
此情此景也让我们为这位郝方同学高兴。
在由10万个问题组成的斯坦福问答数据集测试中,真人平均能答对82%的问
题。微软公司、阿里巴巴公司在2018年1月公布,它们所开发的系统得分和普通
人得分一样高,这成了当时的头条新闻。
另外,还有在微软公司负责Zo聊天机器人项目的王颖,以及大家所熟悉的微
信,都是书中屡屡提及的对象。这些中国元素让我们看到,我们与这一项划时代
科技突破的关系从来没有像今天这样接近过。这令我们感到自豪,也让我们与本
书的主题产生了千丝万缕的关系。更何况,我们的人工智能领域的标杆企业——
科大讯飞,经过在智能语音领域的勇敢探索,已经成为全球智能语音产业的主力
军和技术领先者。
作为一项具有重大颠覆性的技术,语音技术和语音人工智能带来的影响是非
常深远的,我们难以给出一个简单判断。作者对此的认识非常深刻,他指出:“从
鱼钩到火星探测器,我们一直在制造工具。虽然我们制造出了很多对我们有用的
东西,但它们在更深层次上都不像我们。即使是类人机器人,它们能做的也只是
笨拙地移动。使用语言是人类这个物种真正与众不同的地方。语言把我们连接起
来。因此,教机器掌握语言不同于通过编程让它们学会进行衍生品交易、做手
术、进行海底航行或其他事情。我们正在“共享”人类的核心特征。”
我们应该看到,“就像历史上的其他给人带来便利的新技术一样,人工智能也
可能会让我们付出新的代价。我们可能在智力活动上变得更加消极,我们将更少
自主地寻找答案。寻找答案是一种激发好奇心、激发思考的过程。有了人工智
能,答案会来找我们。与打开水龙头放水相比,从井里费力地打水明显过时了,而费力地寻找答案也正在变得过时。”
这显然可以视为其消极的一面,但人类从未因为其消极的一面而排斥过任何
一项能够带来巨大便利的新技术。
因此,作者又向我们指出:如果应对得当,语音技术有可能成为我们发明的
最有感情的技术。认为人工智能只能是冷冰冰的算法的观点是错误的。我们可以
将最好的价值观和同理心注入其中。我们可以让它变得聪明、令人愉快、精灵古怪,并且善解人意。有了语音技术,我们最终可以制造出不那么陌生、更像人类
的机器。
未来已来,一场智能语音科技大秀的帷幕正在拉开。随着5G时代的到来,包
括语音技术在内的人工智能技术,一定会让世界更美好。
本书在出版过程中,得到了工业和信息化部信息化和软件服务业司副司长董
大健先生,科大讯飞董事长刘庆峰先生,以及北京市科学技术协会、科大讯飞的
大力支持,特此致谢。我们相信,本书的出版发行,能够更好地助力我国语音智
能产业的发展。我们期待,各位打开这本书,能更加全面地把握语音技术与人工
智能的发展态势,激发起创新创业的强烈愿望。让我们积极迎接智能语音时代到
来!
电子工业出版社总编辑
推荐序
智能语音,开启万物互联时代的大门,让AI闪耀人性光芒
一位被诊断为患有晚期肺癌的父亲,在生命末期,为孩子留下了91970个单
词的口述。孩子打造了一台爸爸机器人,让父亲在声音的世界里“永生”——这个
孩子就是本书的作者。
这个令人动容的故事让我们感受到语音的温度和科技的温暖。
在中国,科技也在创造着这样的温暖。2018年年初,在全球首部利用人工智
能配音的纪录片《创新中国》中,我们合成了中央电视台已故配音大师李易的声
音,用技术向艺术致敬。在首映式上,李易老师的弟子们集体起立、热泪盈眶。
语音,是人类呱呱坠地后最早使用的沟通方式,也是现代人际交流最基本
的方式,更是未来人机交互最重要的方式。人工智能跌宕起伏发展60多年,智能语音是发展到今天最为成熟、也是最重要的板块之一。“最近的一次范式转移正在
进行中。” 作者在书中提到,这次转移正是关于智能语音的。
语音,开启万物互联时代的大门。
在互联网发展的下半场,我们将进入万物互联的新时代。随着越来越多的设
备在无屏、移动、远场状态下被使用,作为人类最自然、最便捷的沟通方式,语
音将会成为所有设备至关重要的入口。未来,我们将迎来以语音交互为主、键盘
触摸为辅的全新的人机交互时代,人和机器之间的沟通,可能完全是基于自然语
言的,你不需要去学习如何使用机器,只要对机器说出你的需求即可。
比如在导航软件中,你能听到各种明星的合成声音,可以用他们的声音为你
指路;在电视上,你能看到虚拟主播播报的多语种新闻,与真人相比不仅相似度
高,而且24小时无休;在居家生活中,你能通过语音控制音乐、灯光、温度,实
现智慧家居;甚至在医院里、社区里,你能用语音调动机器人帮你办理事项,节
省时间……人工智能已经在为我们的日常生活服务,智能生活的大门正缓缓打
开。
语音,让时代更具人性温度。
智能语音是通向万物互联时代的必经之路,它的存在让交互方式拥有无限的
可能,也让这个时代更具人性的温度。
20世纪90年代,我在就读于中国科学技术大学时被选进人机语音通信实验
室,研究“如何让机器像人一样开口说话”。那时,团队的一个梦想是研发一台能
自动翻译的电话,即使交流时语言不通,通过人工智能技术也能让我们无障碍地
交流;20多年后的今天,我们自主研发的翻译机已经支持中文与50种语言的实时
翻译,每个月总共为全球提供超过5000万次服务。智能语音让被地域、文化等因
素隔离的人们也能无障碍地沟通。
此外,我们通过技术在听障和视障人群间搭起沟通的桥梁,让听障群体通过
语音识别技术“看得见”声音,让视障群体通过语音合成技术“听得见”文字。2017
年我们发布了“三生有幸”公益计划,目前已有几十万残障人士受益。语音转写、语音朗读为他们获取信息带来了极大便捷。我们希望,随着语音技术的使用与发
展,未来每个人都将因AI而能。语音,在万物互联时代技术门槛将会更高。
在以语音为主、键盘触摸为辅的万物互联时代,人们对语音交互提出了更高
的技术期待与需求。今天,虽然在安静、发音标准的情况下,中文的语音识别准
确率已经可以达到98%,英文的语音识别准确率可以达到95%,但在有方言、噪
音、口音和远场的情况下,距离语音识别高准确率或许还有很长一段路要走。
以2018国际语音识别比赛CHiME-5为例,它是世界上最权威的语音识别比
赛,考察在噪声和远场环境下的语音识别效果。但是让人意想不到的是,比赛主
办方用最新的算法和深度学习模型做了参考系统,在测试中语音识别错误率竟高
达81.14%,可以说是“史上最难语音识别任务”。科大讯飞虽然在这次比赛中取得
全部四个项目的第一名,将错误率降低了35个百分点,但是距离高准确率仍有不
小的差距。可以看到,在万物互联时代,语音识别技术还有非常大的提升空间,语音识别的门槛不是降低了,而是提高了。
20年前,我和实验室的同学们一同创立科大讯飞,就是认定了智能语音巨大
的潜力和广阔的前景,它会让人机信息沟通无障碍。今天,看到这本《智能语音
时代》,我非常高兴。作者对语音技术的发展趋势有着深刻洞察,从Siri诞生到谷
歌助理、亚历克莎的规模化应用,以翔实的资料、细致的文笔讲述智能语音时代
的到来及其可能带来的影响。这本书不仅是对智能语音的科普,更让读者对智能
语音未来的发展有了更多的了解。
“他山之石,可以攻玉。”人工智能正在成为全球化发展的关键力量,中国的
语音技术和产业也必将在其中发挥更大力量。相信本书的出版,会让更多人重新
认识神秘且熟悉的语音世界,让我们一起携手,让世界聆听我们的声音,让沟通
从AI开始。
科大讯飞董事长
译者序
因为幸运地托庇于一家优秀的企业,因为有家庭这个稳定的大后方,我四十岁后的生活,显得波澜不惊,也因为有稳定的预期而变得无忧、无惧。
这是不可否认的幸福生活。
我为此而深深感恩。因为这样的生活能够让我以一种从容的心态去超越生
活,而不必以剑拔弩张的姿态去与生活争斗,更不必“赋到沧桑句便工”。
与电子工业出版社(以下简称电子社)的相遇和相知与我而言就是这样一种
从容而幸福的超越,是在不知不觉中,漂流到了一处未曾意料过的“桃花源”,自
己的生命也因此在有意无意之间变得更加丰盈起来。
第一次接触电子社的书是在1988年,那时我正读大学二年级,从此便对这家
出版社有了印象。
成为电子社的译者则始于2015年翻译《学会学习》一书,从此,电子社成了
与我的生命有最多交集的文化机构。四年过去了,本书已经是我为电子社翻译的
第11本书,在这四年间,这11本书成为我这段生命航程中虽不耀眼,但足以让我
感到小小满足的一份成绩。
这11本书的翻译是在工作之余完成的,它们不是我生活内容的主体,也不是
我发力死磕的对象,一切似乎都是很自然地生发出来。赶工的辛苦自然是有的,译完一本书的那个瞬间所体会到的轻松畅快也沉淀在记忆中,但让我印象更深的
是那种一本书译完之后大约十几天到一个月就会产生的虚空感,仿佛一切已经归
零,又该继续“战斗”了。这个时候,当电子社的刘声峰老师、黄菲老师问“有本书
愿不愿意翻译”时,我真仿佛如闻“纶音”,肾上腺素会陡然升高,对生活的意义似
有了更明显的感知。
毫不夸张地说,与电子社合作的翻译事业,在无意中丰富甚至改变了我的人
生。这固然不是什么了不起的大事,但作为一个普通人,我们的人生本就平淡无
奇。电子社的11本书,加上为中国人民大学出版社翻译的9本书,把我这四年的
闲暇时光填充得满满当当,有力地提高了我生命的密度,驱走了许多可能是庸人
自扰的无聊。人生的陀螺旋转得更顺畅、更自信,生活也在运动中达到了更理想
的平衡。四年来,当生命和时间像流水一般逝去,在一片琐碎的生活汪洋中,还
分布着这样一些属于真诚努力和用心探讨的“岛屿”,这让我深感幸运。还要说说电子社的刘声峰老师、孙学瑛老师和黄菲老师,其中只是与刘声峰
老师有过一面之交,但感觉与各位老师都神交已久。他们的豪爽与真诚,质朴与
平易,让我产生了要与电子社风雨同舟的亲切感和使命感,推动我突破理性的界
线,夸张地想以对历史负责的态度,对一本译作视若己出、尽心用情。
最后说一下这本《智能语音时代》。译罢本书我有一种如饮醇醪的感觉,感
觉十分幸运。在我的阅读范围之内,在我国,无论是对一个产业的观察还是对企
业史的写作,还从来没有出现过本书的样态,因此,我认为,它对我国此类文体
的写作,具有教科书般的意义。作者对智能语音有着全面的、深刻的见解,本书
作为该领域的首部专著,为围绕智能语音这个主题的讨论确立了一个相当高的标
杆。
“匹夫而为百世师,一言而为天下法”。与书中讨论的乔布斯、贝佐斯等行业
大咖比起来,本书作者也许只能瞠乎其后,但他对这一行业的“超然远览,奋其独
见,爬梳剔抉,参互考寻”之功也绝对值得珍视。
很高兴能够与胡伟松先生合译本书,合作的缘分来自一次共同海钓的经历。
一起海钓、一起翻译,实在是件快乐的事情。能够把这样一本书介绍给读者也是
一件幸事。
苑东明
引言
洞见者
“我们为什么要让大家秘密行事?”穿着绿衬衫的人说,“因为这可是个‘大
招’。”
在纽约百老汇大街25号一处通风的阁楼里,有8个人围着他团坐在沙发或椅
子上。他们不断地点头,表示发自肺腑地认同他的高论,穿着绿衬衫的人的思想
让他们浮想联翩。“这个‘大招’最有趣的地方是,”这人继续说道,“和其他所有‘大
招’一样,它道理简单,简单到人人都能想得到,但还是我们先想到了。”
正在说话的这个人是彼得·利瓦伊,他是一家名为Active Buddy的高科技初创企业的首席执行官。这是在2000年3月,公司正有400万美元的风投资金存在银
行,公司的墙上挂着镖靶,接待区还摆着昂贵的艺术品。参会的人相信新的历史
即将被创造,一个拍摄纪录片的剧组正在办公室里忙碌着,他们要把这一切记录
下来。
这个“大招”来自公司总裁罗伯特·霍夫和首席技术官提姆·凯的灵感。这个灵
感是这样产生的——霍夫和凯都是互联网资深人士,曾在20世纪90年代中期创建
了一个电话网页的在线版本。在20世纪90年代末期,正在为寻找新思路而大伤脑
筋的霍夫和凯有一天通过美国在线公司的即时信息平台(AOL's Instant Messaging
Platform)下围棋,该平台的英文缩写恰好是AIM(目标),于是霍夫让凯查询苹
果公司的股价。
凯在查阅完信息准备回复霍夫时,产生了一个想法。作为一名天才程序员,他花了几分钟时间写了几行代码,这段代码能够让计算机充当代理人,能设计出
机器人,还能替他自动给霍夫回信。他成功了,霍夫收到了股价信息。
在霍夫和凯看来,这次简短的“联系”预示着良好的前景。那时,整个世界正
为互联网着迷。在网络浏览器的争夺战中,网景公司正在奋力开发IE浏览器。在
搜索引擎领域,愿景公司、雅虎公司和一家名叫谷歌的新公司正在争夺公众的“芳
心”。在网上搜索信息已经成为一种文化现象,人们还用“网上冲浪”来描述这项活
动。
霍夫和凯没有被“网上冲浪”的热潮打动。倒是能够查询股票行情的机器人程
序让他们感到新奇,他们觉得这个程序能够让人与计算机之间的互动更加自然、强大,并且富有乐趣。如果人们仅通过用日常语言与计算机像朋友一样交谈,就
能轻松获取数字世界的“宝藏”,那么这该是怎样的一番情景呢?
当然,计算机不可能变成真人,而只能模仿人。聊天机器人是一个能交谈的
机器人,或者说,它能通过AIM或其他短信平台用文本与人沟通交流,人们只需
要像加好友一样把它加入自己的通讯录即可。这样人们就可以利用它了解股价、最新的新闻资讯、体育比赛比分、电影上映时间、字典上的词条等。人们能够利
用聊天机器人玩游戏、处理琐事,甚至能够进行网上搜索。
通过技术开发,Active Buddy公司在2001年3月推出了它的第一款产品。这是一款名为“伶俐小孩”的聊天机器人。虽然公司没有花钱进行营销,但不可思议的
是,这款产品“火”了。用户们对能与计算机进行基本对话,能够分享他们的在线
聊天记录感到十分高兴,纷纷鼓励自己的朋友也去与“伶俐小孩”聊一聊。到了同
年5月,公司获得了一个推广产品的机会,利瓦伊视之为天赐良机。名为“电台司
令”的乐队成员希望公司能为他们设计一台名为“曲线球牛头怪”的聊天机器人,目
的是推广他们即将发表的新专辑《健忘症患者》。
不久之后,“伶俐小孩”和它的设计者就开始在全国范围内的各类报纸上露
面,并且设计者还接受了像泰德·科佩尔这样的名流所主持的电视访谈。麦当娜和
其他音乐家也希望拥有这样的聊天机器人,雅虎公司、微软公司来与设计聊天机
器人的公司商讨并购事宜。不到一年的时间,“伶俐小孩”就积累了900万用户。据
估计,在全美国的即时通信流量中,有5%是发生在用户和“伶俐小孩”之间的,这
个数字令人惊叹。
不过,这种成功只是表象而已。“伶俐小孩”与用户的对话记录显示,发明者
设想的那种能助人一臂之力,能够提供丰富信息的聊天机器人还尚未完成。在这
个数量达几百万的用户群体中,关心股票行情的总经理和想了解影讯的用户只占
很少的比重。用户中相当一部分是百无聊赖的年轻人,他们常常在“伶俐小孩”上
说脏话,甚至进行谩骂。
这让人深感失望。但是对话日志所显示的一种模式也证实了发明者对可对话
计算机最终发展前景的一个宏伟设想。或者,至少可以说,存在着这样的尝试。
人们愿意去谈论他们的爱好,比如自己喜欢的乐队。他们感到孤独,只是想与“伶
俐小孩”聊聊——有时甚至一聊就是几个小时。
霍夫被迷住了。科幻作品中不乏对走火入魔的人工智能生物的描述,如自我
毁灭者、哈尔、魔鬼终结者,但他还是对那些富有浪漫色彩的情节更有共鸣。他
尤其喜欢拍摄于1999年的影片《机器管家》。在这部影片中,罗宾·威廉姆斯饰演
了一个想成为真人的敏感而足智多谋的机器人。霍夫由此意识到,既然人们真的
想与“伶俐小孩”交谈,他就应当以实现人们的愿望为使命。他后来回忆道:“从一
开始,我就怀有这样一种梦想,互联网上应该有人们最好的朋友。”
问题在于,如何实现这种想法。从数字数据库中检索一些事实性信息,如电
话号码、体育比赛比分,并反馈给用户,这不足以让“伶俐小孩”成为一个讨人喜欢的朋友。“伶俐小孩”还必须会聊天。因此Active Buddy公司雇用了一群对话设
计师,由他们事先编写上万条回复信息,当在聊天中遇到合适的时机时,“伶俐小
孩”便能够“搬来即用”。
对话设计师中有一个人名叫帕特·吉尼,他放弃了摇滚音乐家的生活,选择到
新媒体去开辟事业。他为“伶俐小孩”创建具有一致性的人格特征,把它那些枯燥
无趣的对话变得妙趣横生。他赋予聊天机器人一丝幽默感,这其实就是他自己的
那种谈话风格,所以同事们开玩笑说,当人们与“伶俐小孩”闲聊时,实际的谈话
对象其实是吉尼。他和其他对话设计师还构建起聊天机器人的知识库,因此,面
对用户喜欢的任何谈话主题,如棒球或电视上的真人秀节目,“伶俐小孩”都能说
出有见地的话。“伶俐小孩”甚至能记住一些片段性的信息,如A用户喜欢白色条
纹乐队,而B用户偏爱Jay-Z乐队。
对霍夫来说,这只是个开始。他相信经过进一步开发,聊天机器人在语言能
力、情绪感知和人格发展方面的可能性其实是没有边界的。人和聊天机器人的关
系可能会持续几十年,聊天机器人将成为人一生的朋友。
遗憾的是,霍夫的梦想被发生在2001年的互联网企业倒闭潮摧毁了。向
Active Buddy公司提供了400万美元的投资者不想考虑那么久远的事情,他们只想
知道公司在当下如何才能赚钱。霍夫和利瓦伊相信,一旦用户基数发展到足够
大,就会带来经济回报。但是他们也不知道究竟如何做才能赚钱。来自凯和投资
者反驳的理由是,数百万的年轻用户根本不会为此付费。经过几次激烈的辩论
后,霍夫的阵营输了。在2002年年初,他和利瓦伊都离开了公司。
后来,斯蒂芬·克莱因担任了公司的CEO,Active Buddy公司最终才涅槃重
生,改名为Colloquis,这个名字很容易让人联想到类似《上班一条虫》这部影片
所反映的那种死气沉沉的公司风格。公司业务转为生产能够用于公司客户服务应
答的聊天机器人,其中的大用户包括时代华纳有线、万迪奇及康科斯特公司。三
年之后,Colloquis公司被微软公司收购。对原来的投资者而言,这是一次成功的
退出。但奇怪的是,微软公司很快就对自己新的“战利品”失去了兴趣,在2007年
年末传出来的一桩丑闻更是雪上加霜。
到了2008年,最后一个聊天机器人生产者被解雇了。霍夫更是在很早之前就
离开了,但他从未忘记初心,即使这个愿景现在已经付诸东流。聊天计算人沦为一个异想天开的“大”创意。
2018年,拉斯维加斯举办了一年一度的国际消费类电子产品展览会,参会者
数量高达180,000人,大家都在谈论有关计算机的话题。展览会上的产品有手掌
大小的计算机,花瓶形状的计算机,还有看起来像是印上了品牌Logo的香烟打火
机。有的装置带屏幕,也有的不带。还有其他产品,如汽车、屋顶吊扇、电源插
座、相机、门锁、花洒和咖啡机等。如果在2008年,霍夫曾经拿着一本《睡谷传
奇》垫在脑袋下沉沉睡去,那么在11年后的今天醒来,他可能会觉得自己这一觉
像睡了30年。
在“伶俐小孩”的年代,人们只是通过打字输入信息。如今,在展览会250万平
方米的展位间,回荡的是人与机器对话的声音,机器在执行人的指令,而且还会
回话。这是一股嘈杂的声浪,有人在发送指令让百叶窗关闭,有人在让空调启
动,有人在让音箱播放歌曲。还有人对着柜台上的屏幕请教做小酥肉的菜谱,指
挥冰箱把猪肘子加入购物清单中,并控制监控摄像头、扫地机器人、打印机、烤
箱,也有人询问邮箱是否有来信,汽车是否需要加油,草坪是否需要浇水。
总之,在展览会上展出的数以千计的装置,都有对话和帮助功能,它们看起
来几乎无所不能。想象一下,在你开车时,它们能为你做些什么。它们能为你启
动汽车、检查油箱、找到最近的加油站。为了让你在驾驶时不感觉无聊,它们能
帮你打开美国国家公共电台、美国有线新闻网和《华尔街日报》的音频。它们能
帮你选择播放慢音乐或敲击摇滚乐——事实上任何音乐家的任何曲目它们都能替
你找到。它们能制造出波浪的声音,祖父时代老古董闹钟的滴答声,或雨滴打在
铁皮屋顶的声音。
与语音助理交谈可以得到给孩子起名的建议,你可以用它们订购尿布,还可
以让它们读睡前故事。它们能监控孩子的睡眠时间和大便次数。它们能提醒孩子
清理自己的盘子,打扫自己的房间,在横穿马路前要先向两边看。它们能提醒老
年人按时吃药,老年人还能用它们玩提升记忆力的游戏以保持头脑清醒。
展览会上的用于浴室中的电子产品也五花八门,比如有能说话的镜子分享化
妆建议,它们为早晨要通勤的人提供交通信息,而且还能与用户互动。浴室里的花洒在听到声音指令后会自动打开。盥洗室会自动开门,会为用户加热他们的座
位,甚至会和他们闲聊几句。
在卧室里,当你醒来后,语音助理会询问你感觉如何,向你报告你的睡眠质
量,而且还会给你提出一些放松心情的建议,比如做做操振奋一下。这些语音助
理能够帮助你挑选徒步旅行路线,监控你的步数。或者,如果你计划做一些更安
静的事情,那么它们会引导你在家里做瑜伽。
如果做瑜伽激起你的食欲,那么语音助理就会告诉星巴克在柜台上为你准备
一份拿铁和田园南瓜面包,或者让丹尼斯餐厅准备一份丰盛的早餐——比萨和6
听啤酒。语音助理能追踪冰箱里的剩饭情况,并提醒你刷盘子。
如果你的家人出去了,语音助理能告诉你他们现在的动态。在他们回来之
前,语音助理会像真正的朋友一样伴你度过这段时间。它们能向你建议母亲节买
什么礼物,还会给你的约会之夜提出建议。它们能指导鱼缸如何喂鱼,猫碗如何
喂猫,喂鸟器如何喂鸟。如果你出去了,那么它们会通过安装在狗项圈上的喇
叭,主动告诉狗狗你非常爱它。
在提高工作效率方面,语音助理能够通知你的银行付款,要求保险公司更新
索赔请求,还能搜索航班。它们能帮助你找到水管工人、房地产经纪人,还有修
缮屋顶的人。只要是能制造出来的产品,它们就能帮助你下订单。
展览会上这些有对话功能的机器人不但用途广,而且它们的智能水平也有无
限的发展空间。它们能回答很多关于日常生活的问题:“我下次会议安排在什么时
间?”“I-80公路的通行情况如何?”或者“Gordo Taqueria餐厅什么时候打烊?”并
且,它们也能回答很多需要有广博知识储备的问题:“亚历山大·汉密尔顿是什么
时候出生的?”“哈利·法塔有多高?”或者“一个牛油果包含多少卡路里的热量?”
在推出这些语音助理的公司中有许多我们熟悉的名字:福特、丰田、宝马、索尼、LG、霍尼韦尔、科勒、西屋电器、惠普和联想等。但这些公司的特色是生
产语音助理的“身体”,而它们的人工智能“大脑”,在美国大部分是由亚马逊公司
或谷歌公司生产的。亚马逊公司人工智能的产品叫亚历克莎(Alexa),它的对手
是谷歌助理(Google Assistant)。
这两家公司在展览会上以不同方式广泛地宣传自己的产品。谷歌公司占领了所有的营销位置,仿佛在昭示这就是属于它的展览会。在整个拉斯维加斯,确实
有两个词铺天盖地地存在,这就是“Hey,Google”。这两个词也在提醒谷歌助
理,要通过任何已经连接上的装置来倾听用户的声音。
这两个词出现在列车上、墙体上、滑梯上、糖果机上……这两个词就像不断
重复的“咒语”,同时也像是对一种技术的推介和对其主导地位的宣示。
亚马逊公司倒是没有用这样的品牌宣传阵势来吸引参会者,也许是它觉得自
己没有太多需要去证明。在参加展览会时,亚马逊公司已经占据了美国智能家居
音箱(语音助理是其产品特色)市场75%左右的市场份额。在展览会召开的同
时,又有1200家不同种类的公司把亚历克莎整合进大约4000种智能家居产品中,而谷歌公司声称它与225个品牌的1500种产品建立起了伙伴关系。
虽然亚马逊公司不借助任何大型的糖果机之类的东西来吹嘘自己,但它也并
非低调。亚马逊公司的名字几乎挂在每个产品代表和媒体记者的嘴上。亚马逊公
司多次主办为时一天的讨论会,总是冠以诸如“亚马逊要让亚历克莎无处不在”之
类的会议名称。
作为这次展览会上的双明星,这两家公司并没有叫卖任何具体的产品。相
反,它们在传达一种观点:这是一个被语音控制的世界。在一次演讲会上,亚马
逊公司亚历克莎产品的传道人大卫对主题做了归纳,他说:“我们正生活在一个未
来世界,我们可以把机器当成像人一样的谈话对象。”
第一部分 竞争CHAPTER 01 范式转移
每十年左右,人与技术的互动方式就会有一个根本性的转变。数十亿美元的
财富会“恭候”那些定义了新的时代范式的公司,而落伍者将破产倒闭。在计算机
的大型机时代,IBM是主宰者;微软公司是桌面时代的王者;谷歌公司靠搜索引
领了互联网时代;苹果公司和脸书公司则在移动互联网时代一飞冲天。
最近的一次范式转移正在进行中。
最新的平台之战已经打响。
最新的技术颠覆正在发生,无论是其规模还是其重要性,都可能是世人前所
未见的。
我们正在迈入智能语音时代。
语音正在变成影响现实的通用遥控器,成为几乎能控制任何一种技术装置的
手段。语音能够让我们指挥各种数字产品助理——“行政助理”“门房”“主妇”“管
家”“顾问”“保姆”“图书管理员”“演艺人员”等。语音打破了世界上一些最有价值的
公司的商业模式,为新的应用创造了机会。语音把对人工智能的控制权交给了用
户。很久之前科幻作品就预言过这样的关系模式,在这样的关系模式中,拟人化
的人工智能成为我们的“助手”“看门人”“预言者”“朋友”。
智能语音时代的到来是人类历史的转折,因为运用语音是我们人类这个物种
的特质——这一能力把我们和其他物种区分开来。人类的内部意识的中心不在肺
部的空气里,也不在血管里的血液中,而是在大脑的语言区里。语言调整着我们
的关系,它能塑造思想、表达感受、沟通需求;它能发起变革、挽救生命、激起
爱恨情仇;它把我们所知道的一切记录下来。
得益于最近出现的一系列突破,教计算机用自然语言说话的浪漫构想在现实
世界中有了市场——这个领域被称为智能语音领域。随着按照摩尔定律能够预测
到的计算能力以指数级提升,一系列进展开始出现。手机崛起——事实上我们随
时携带着的是一台强大的袖珍计算机,它是语音技术发展的重要推动者。机器学习使得计算机能通过分析数据就能获得能力——这非常关键,能够让
开发者一举克服那些已经纠缠了几十年的问题。而云计算是一个决定性的(但经
常被忽略的)因素。语音技术需要巨大的算力支撑。尝试把所有的算力都在手机
上实现十分困难,并且其代价极高。在如今的云时代,只要简单地加上一个麦克
风和一个Wi-F i芯片,任何装置都能实现语音驱动。从浴室的水龙头到孩子玩的
布娃娃,任何装置都能利用分布在全球的几千台计算机所提供的计算能力。
以上述所有这些进展为后盾,语音正在引领着“环境智能”的实现,它最终可
能会让我们现在手中的这些智能手机过时。到目前为止,计算机还是计算机,是
我们能放在案头或拿在手里的一件独立性装置。但是当大部分技术设备都能放在
很远的地方而不需要放在现场,可以用声音而不是笨重的外围设备来实现控制
时,那么这些设备的重要性就降低了。正如谷歌公司的首席执行官桑德尔·皮蔡在
致股东的一封信中所言:“未来将要迈出的一大步是,‘装置’这个概念本身就要消
亡。”有了语音助力,计算机将变成一个无处不在的‘存在’。数字智能也将无处不
在,正如我们呼吸的空气一样。
语音也解决了一个已经困扰人类几千年的大问题。人类的发明总是要求我们
去适应它们。无论是飞机、吉他、割草机还是电子游戏,我们都不得不去学习那
些不够自然的命令和动作,以便让这些装置听我们指挥——我们来决定按哪个按
钮,滑动哪根操纵杆,转动哪个轮子,踩哪块踏板。
在计算机上,我们需要弯着手指在键盘上的一堆字母键、数字键和符号键之
间游走——当标准的计算机键盘在1867年获得专利时,这可是一项高科技,当然
现在已经不是了。当手持鼠标滑来滑去时,我们可以通过点击进行操作。在智能
手机上,我们的操作是敲击、滑动、缩放。于是,我们坐着或者站着不动,脊梁
弯曲、眼睛发涩,成了屏幕的“俘虏”。
然而运用语音,计算机最终能以我们的方式工作。它们正在学习人类偏爱的
沟通方式:运用语言进行沟通。当运用得好时,语音的优势非常明显,以至于你
几乎难以感觉到它也是一层介质。人类知道如何说话,因为我们终其一生都在说
话。
在智能语音时代,台式计算机和智能手机不会消失,这就像喷气式飞机没有
把汽车淘汰一样。语音技术会和其他新兴技术整合到一起,例如增强现实技术。但是在使用很多应用程序时,人们会抛弃键盘和触摸屏,而选择更自然、更让人
自在的语音界面。计算机将随我们起舞,而不是让我们趋奉它们。
这只是时间问题。
从根本上说,语音技术正在引领人类走入智能语音时代。人工智能技术已
经“潜藏”在一大批应用程序中——不管是网络搜索还是自动刹车系统。但语音技
术把人工智能推到了我们面前——我们对它说话,它也会以人的口吻来回复我
们。以前只有诸如军事部门、世界上最先进的公司才能获取的“能力”,现在已经
向每个人开放。
更令人惊喜的是,智能语音并不像学者一直以来给我们定义的那样(这个术
语被他们说得面目可憎、讨人嫌弃),而是像科幻作品中描绘的那样。像亚历克
莎这样的语音助理是以聪明的、活生生的人的面目出现的,它们能够听从有着血
肉之躯的主人差遣。它们被设计得能够传递幽默感、友谊和支持,还具有同理
心。同样地,人们也会反射性地(通常还是无意识地)向它们传递自己的感受。
我们和语音助理的关系不可避免地会达到一定深度,情感会变得更加丰富、复
杂,这是智能手机和台式计算机永远难以达到的。
说实话,语音技术的成熟应用尚需时日,毕竟我们都有过因手机连一句简单
的话都听不懂而十分生气的经历。新技术总是会遭到质疑,包括手机在内的很多
新发明都是如此。在公共场合和语音助理说话可能会让人有些尴尬,但是要知道
以前人们觉得行走在街上时打电话也有点傻。语音技术现在的状况和人们在1993
年刚接触互联网时的情景有些类似,和2007年1月乔布斯首次发布iPhone手机时的
情景也相似。智能语音革命已经开始,它将改变我们的生活方式。
让我们用数字说话。
世界上大约有20亿台台式计算机和笔记本电脑,还有50亿部智能手机。在使
用中的智能语音设备,包括谷歌家庭和亚马逊回声音箱,用户数量虽然少但正在
迅速攀升之中,全世界估计有1亿台。现在这些在国际消费类电子产品展览会上
展出的五花八门的产品又加入进来——灯泡、电视、坐便器,还有许多其他东
西。上述所有这些产品都能成为智能语音技术的入口。这意味着智能语音设备的潜在市场规模要比手机市场大得多,全世界不同种类语音产品的数量会超过千亿
种。
在商业世界,从脸书公司到鲜花网,这些公司都在关注语音技术的发展,并
且急切地想知道智能语音革命会给我们带来哪些影响。语音技术创新了从人们的
注意力上获利的方式。在营销和客户方面,语音技术创新了与客户互动的方式,还创新了收集数据并以此创造利润的方式。
智能语音市场是一个巨大的市场,因此本书的第一部分将专门从商业角度来
讨论语音技术。第一部分主要介绍苹果公司、亚马逊公司、谷歌公司和微软公司
争相开发智能语音平台,欲主导这一新兴商业模式的角逐故事。开发智能语音平
台有可能使公司的业务陷入危局,也有可能把公司的事业推向新的高度。
Active Buddy公司的愿景包含了两个重要方面。首先,人们能够通过自然语
言与计算机进行对话。其次,人们不必再在线上付出这么多工夫,将有别的事物
代替人来完成数字搜索和开展行动。
这一愿景的两个方面在苹果公司的Siri这个由语音驱动的语音助理身上得到很
好地结合。2011年,在苹果公司将它公之于众之前,Siri已经经过了25年的研发
——狂热的技术专家们对这个项目倾注了大量心血。
在Siri出现之前,世界上绝大多数人还从来没有和人工智能对过话,Siri的横
空出世让人们大吃一惊。但当时间久了,人们很快意识到Siri并非超级人工智能,它所掌握的技能还达不到人的境界。它的大多数功能都是由一些基本功能组成
的,例如设置定时器、查询天气预报、发信息等。由于当时技术的一些局限,在
它的早期版本中存在的漏洞让很多用户感到失望。
Siri的缺陷意味着它未能让更多的人体会到它所引发的这场变革的剧烈程度。
但苹果公司的对手并未大意。事实上,当Siri公之于众时,苹果公司的竞争对手们
也都正在忙着开发自己的语音助理产品。微软公司是紧随苹果公司之后第一个把
自己的产品推向市场的,这就是诞生在2014年春天的名字甜美的微软小娜。亚马
逊公司在同年11月发布了由被命名为亚历克莎的人工智能驱动的回声音箱,在科
技界引起了很大反响。谷歌公司从2008年开始提供语音搜索,又在2016年推出了
成熟的智能语音产品谷歌助理。目前正在进行的是一场教科书式的平台之战,这场斗争既存在现实风险,又
展现了诱人的机遇,这些顶尖公司是在为万亿美元规模的市场而战。从历史上
看,谷歌公司和脸书公司的绝大多数财富是从广告业获取的,亚马逊公司有着世
界上最大的数字商城,苹果公司依赖零售业务,微软公司为商业应用提供服务和
软件。所有这些商业模式都被语音技术打乱了。
由于市场衰退和管理上的纷争等原因,Active Buddy公司沦为了历史的产
物,但也许最重要的原因是技术的不完善,计算机的“听力”还不够好,还不能自
然地表达思想。
事实上,几个世纪以来,人们一直在努力让机器学会说话,这个探索过程是
本书第二部分讨论的内容,从技术的角度来讲述智能语音的故事。在数百万年
前,民间经常流传着一些无生命的物体突然有了生命并开口讲话的传奇故事。在
中世纪,人们记录下了一些所谓Brazen Heads的故事,它们能够为“圣人”提供一
些睿智的建议。在随后的18世纪,发明家发明出精妙的装置,这些装置的功能虽
然简单,但也独具特色,能够模仿人类讲话。但是发明这些装置的人大多被视
为“疯子”或“江湖骗子”,而不是堂堂正正的发明家。无论如何,这些能“讲话”的
装置激发了一代又一代人的灵感,其影响一直延续到了数字时代。
从20世纪中期计算机出现以来,人们就开始致力于如何教会它们用自然语言
说话。但是,在一开始,人们对于这件事情的预期可能过于乐观了。
人们原以为对话是一个简单的过程,其实完全不是这样。对话包含着一些子
过程,这些旁生的子过程包含着复杂性。声波必须被转换成语言,这个过程被称
为自动语音识别。理解这些语言被称为自然语言理解。想出如何回复这一过程被
称为自然语言生成。最后,语音合成是指让计算机能表述出来。
从20世纪70年代至今,绝大多数研究者都专注于以上某个分支领域的研究,一些不太受约束的研究者开始创建简单的基于文本的聊天机器人。他们这样做主
要是为了在电子游戏中吸引玩家,或娱乐自己。他们创建聊天机器人的目标是让
人们觉得计算机可以像人类一样能说会道。
这些专攻某个领域的研究者和聊天机器人创建者的研究都已经取得了很大进展。借助机器学习领域的最新成果,语音技术最终得以快速发展。从根本上说,语音技术要适应人类对话的复杂性和多样性。
虽然这个光明未来已经昭示了很久,但是在最近5年左右语音技术才进入收
获成果阶段。这些成果的取得,是科学家们坚持不懈地进行研究攻关的结果。研
究者在机器学习算法研究方面投入了几十年的心血,甚至当同行对他们冷嘲热讽
时,他们也未曾言弃。
高科技公司现在争相吸纳机器学习方面的专家,并且为他们提供高额薪资
——攻克了诸如语音识别等难题的专家值得公司这样做。其他难题,例如如何让
计算机进行智能回复,还仍在摸索之中。当我们讲话时,计算机要能够揣摩我们
的意思和情感,可以写电子邮件,能够写广告词和诗歌,还可以用逼真的语音交
谈,甚至可以模仿某个具体的人物说话。
然而,创建语音界面还需要更多硬科技。在早期阶段,Siri、微软小娜及其他
语音助理产品都让科学家们意识到,如果人们不能自然愉快地与聊天机器人沟
通,那么研发得再深入也等于是做了无用功。于是,有着语言学、人类学、哲学
背景的人士加入个性和界面设计者的团队中来,甚至一些懂剧本创作的人士,也
加入了设计团队。
瑞安·格米克说:“当你听到有人说话时,你会自动做出判断和假定。”他负责
谷歌助理的个性设计。他需要就它在个性上应该如何友善、如何有同情心、如何
有智慧等方面给出意见,并需要设定它的年龄、性别、种族和社会背景。
对设计者来说,基本的设计理念是让语音助理更像人而非机器人。由此出
发,很多设计者开始为语音助理设计性格特点和思想倾向。他们让语音助理有偏
爱的影片和食物——比如微软小娜爱吃豆薯。设计者们在它的大脑中储存了大量
笑话和语句。如果有人和Siri说:“请重复我的话。”那它可能回复你:“我是你聪
明的助理,可不是鹦鹉啊!”设计师还可能给某个语音助理设定宏观的描述,比
如“一名消息灵通、追求时尚的图书管理员”。
个性设计这项工作很有吸引力但也非常棘手,而且有时还会引起争议。生动
的个性特征可能会迎合某些用户,但也有忤逆和疏远其他用户的风险。当给语音
助理设定关于性别或种族的一些观念时,尤其如此。人类设计师想赋予语音助理哪些隐含的判断准则呢?
借助于个性设计和机器学习,聊天机器人正在变得越来越能干,尤其是在发
挥实际作用方面。但和“伶俐小孩”的情况一样,人们与这些聊天机器人的聊天记
录表明,用户更愿意与机器进行社交性对话,就像他们与家庭成员或朋友进行的
交谈一样。
从技术上说,聊天机器人还没有为真正的交谈做好准备。但这并没有阻碍一
些公司去实现这一目标。亚马逊公司设置了亚历克莎奖,并组织不同大学的学生
团队进行国际性比赛。这场为期一年的比赛任务是开发出一台聊天机器人,它要
能与人进行一段时长达到20分钟的自由对话。获奖团队能够得到100万美元的奖
励,而亚马逊公司则能够得到大量的精彩创意和对话数据。
亚马逊公司希望通过这样一场比赛收获有价值的见解,但公司也理解这一挑
战有很大难度。正如主持这项竞赛的科学家阿斯温·拉姆所言:“据我所知,对话
也许是人工智能领域最难的问题。”
有了语音、个性和闲聊的技能,计算机就成了一个奇特的新角色。语音将可
能在人和人工智能之间建立一种以前从未有过的关系,也就是说,人可以和一台
烤箱建立关系。这项技术可能会催生一个类生命实体——一种尚不如人类但高于
机器的存在物。正如微软小娜会这样介绍自己:“我可是有生命的呀。”
当在熟悉的环境中——汽车、卧室、浴室——出现了类生命实体时,智能语
音改变了隐私、自主权和关系。智能语音改变了人们接触知识的途径和知识的控
制者,也改变了长久以来对生命与死亡的定义。所有这些都是本书第三部分讨论
的内容,第三部分会聚焦语音技术是如何改变生命之道的。
人工智能正在变成我们的朋友。美泰公司的哈啰芭比娃娃,一位粉红色的塑
料智能美女是这方面的先驱。它可不是“有颜无脑”之辈,它强大的大脑建在云
端,它能够与孩子们讨论音乐、时尚、情感、职场等话题。而微软小冰的人物设
定是少年和成年人共同的朋友。公司对它的描述是提供通用型对话服务,由先进
的机器学习系统加以支持。虚拟友谊提出了一些以前只是假设的问题。是不是“人工合成”的友谊开始取
代真正的友谊了?这会不会让人产生错误的联想,让人以为这个亲密的对象就是
个活生生的人?会不会诱导我们认为机器有真正的同理心和理解力?
语音不但改变了我们建立关系的方式,而且改变了我们获取信息的方式。霍
夫和凯曾经设想用自然语言直接从计算机得到帮助,而不用费力地通过网络引擎
来获取。但事与愿违的是,我们把数字世界变成了我们不是那么喜欢的样子:互
联网充斥着各种各样的信息,十分复杂,并且充满了各种文字内容。在我们的手
机上,各种应用程序堆积在那里,一个页面接着一个页面。要想完成任务或得到
信息,用户必须用搜索引擎在互联网中搜索、寻觅。
但是传统的互联网正在走下坡路,在智能语音时代,我们对数字生活的诉求
不再停留在通过打字和点击在网页中搜索的阶段。取代传统互联网的将是人与人
工智能之间的对话,这是新文明到来的征兆。
由此带来的好处是效率的提高,代价则是独立性的减弱。人们不必再亲自去
寻找答案,而是由计算机来完成。不可否认,计算机对人类有很大帮助,但这也
进一步强化了那些互联网公司的权力,特别是谷歌公司,它会从中获益。传统的
出版商和内容制造商正在为此担忧。不仅如此,语音还打破了谷歌公司以广告为
基础业务的模式,但至少语音为像亚马逊这样的公司提供了机会和线索。
无处不在的语音——作为助理、朋友——推动技术担起“监督”人类的多重角
色。从出于好意到令人不安,语音助理已经开始在很多方面监督人类。语音助理
正在成为孩子和老人的看护者、治疗专家。它们有可能遭遇黑客攻击,导致我们
的隐私被泄露,但它们也有可能成为执法者进行案件调查的工具之一。
窃听语音装置是反乌托邦科幻作品中的“主角”,在那些作品中,人工智能经
常变为人类的敌人。有时候,语音技术也能摇身一变被塑造成解救人类的“英
雄”。这些作品中鲜有提及的一个事情是,人工智能既不是智慧超常,也不是恶意
满满,它只是通过模仿真实的普通人而被创造出来的。
但当语音技术被应用在真实世界中,人的复制品可能会是最有趣的应用之
一。计算机科学家正在创建“克隆体”,它能交互式地分享爱因斯坦及凯蒂·帕瑞等
名人的故事。此外,刚开始出现的应用是一个被称为Doppelg?ngers的对话产品,它可以在日常的商业交易中和社交媒体上代替人来做一些事情。
这类“虚拟人”甚至能在人类死亡后继续代表他们,代替他们与心爱的人交
谈。其实在做好这些事情上,我们可能还不如这些“虚拟人”做得好。由于技术已
经得到了长足发展,所以“虚拟永生”不再只是纯粹的幻想。这样的前景既让人向
往,也让人不安。在本书的最后一部分,我们将对此进行讨论,我和大家一样十
分关注这件事,这是因为我自己就想为我深爱的某人创建一个复制品。
菲利普·利伯曼是布朗大学的一名认知科学家,他曾经说:“讲话对于智力而
言是非常必要的,因为拥有讲话的能力实质上就具备了人的特质。”
能够讲话的机器最终将成为改变我们这个世界的发明之一。语音技术能够
让“虚拟人”完成各种不同的任务——从日常性的到复杂性的,从实际的到情感的
——以前这些都属于人类的特有行为。语音技术能够使数字智能应用到我们环境
的各个方面,它正在影响我们的商业世界。它在机器之间,创造出史无前例的关
系类型。它促进了一个无所不在的操作体系的形成。
我们正在获得巨大的新的便利,但为此而付出的代价可能是丧失一些“自
主”,新的“预言家”和“监督者”正在崛起。如果我们不能妥善处理,那么“虚拟
人”将不仅是我们的仆人,也将是我们的主人。它将越来越多地替代我们完成写、说和思考的工作。
语音把人工智能置于我们的掌控之下,危险也伴随而来。但是语音不应该激
起人们下意识的恐惧——每当谈到有关人工智能这样的主题时,人们就经常会有
这样的反应。其实,我们可以让机器更加人性化,并且让机器与我们融合起来。
这是一个机遇,语音技术的引领者们能利用这样的机遇去追逐这个伟大的梦
想。他们正尝试去定位梦想和需求的最佳结合点,并且将一个仅仅是幻想中的东
西变成了现在不可或缺的东西。他们正在创造真正会讲话的机器——最终,它将
成为我们永远需要的最好的计算机。CHAPTER 02 语音助理
当一位教授走进办公室时,一个人工智能启动语音计算的过程开始了。教授
使用的是苹果公司的Siri。屋里的背景音乐是舒缓的巴洛克风格的协奏曲。这位教
授脱下运动服,打开办公桌上的计算机。计算机屏幕上出现了一位语音助理,它
是个穿着白衬衫打着黑色领结的年轻人形象,语音助理开始和教授交谈。“你有三
条信息,”它说,“你在危地马拉的研究生科研团队刚刚报到。罗伯特·乔丹是一名
大三的学生,他希望学期论文能够再延期一次。你的母亲提醒你父亲……”——教
授没等它说完这句话就打断了它——“生日晚会在下周日举行。”
教授给自己冲了一杯咖啡,趁这段时间,语音助理把他今天的日程安排大声
读了一遍。当听到有一场演讲时,教授意识到他必须马上开始准备。他说:“把我
还没读过的文章都调出来。”
“你朋友吉尔·吉尔伯特刚发表了一篇关于亚马逊森林砍伐的文章。”语音助理
边说边把文章的重点显示出来。教授又让语音助理调出另外一篇文章,并开始与
它讨论这篇文章的内容。语音助理接着又开始帮助教授安排行程,甚至机智地帮
教授躲开了他母亲的另外一次来电。
这是校园生活的一个片段,就好像是从吴迪·艾伦的科幻小说《睡眠者》中摘
取的一个场景,这部小说描述的未来景象是根据苹果公司在1987年发布的一部概
念影片构思出来的。这名衣冠楚楚、短小精悍的语音助理被称为“知识领航员”,其实苹果公司之前并没有这样的产品,甚至连与此接近的产品也没有。但在2011
年10月4日,人们感到影片中描述语音助理的场景变成了现实。
在2011年10月的一天,新闻记者和其他客人挤满了苹果公司大礼堂,他们是
为了出席苹果公司的“让我们聊聊苹果手机”这一活动而来到这里的。苹果公司操
作系统的带头人斯科特·福斯特尔走上台来。他长着一张娃娃脸,胡子刮得非常干
净,看起来更像是一名高中的田径教练,而不是被媒体描述为“小乔布斯”那样的
强悍糙男。然而,福斯特尔并非这场活动的主角。这场活动的主角是苹果公司刚
刚推出的一个新的人工智能产品。福斯特尔说道:“我非常激动地向你们展示
Siri。”当一台苹果手机接上大屏幕后,Siri像宝石一样的图标被投影在一块大屏幕
上,福斯特尔开始了自己的演示。他展示的这些手机性能在当时的确令人震惊
——虽然这些在今天已属寻常。仅靠语音,用户就能获知天气预报,知道巴黎现
在是什么时间,能定闹钟,能查看纳斯达克指数,能在帕罗奥雷托找到一家希腊
餐馆,能知道去斯坦福该怎么走,能创建日历条目,能发文字信息,能查维基百
科上关于尼尔·马姆斯特朗的资料,能得到关于“细胞有丝分裂”的定义,还能知道
距圣诞节有多少天。
当福斯特尔介绍Siri的功能时,他不断停顿,脸上不时露出欢快、惊叹和微笑
的表情,好像在说,就连我也几乎不敢相信这是真的。通常来说,这样夸张的展
示是在提示观众应该鼓掌了——这是那些高科技公司产品发布会的惯例。但今天
观众的掌声听起来一点也不像是在勉强捧场,而是“流露”出令人动容的真诚,因
为他们认识到Siri不只是一些便利功能的集合。Siri有着女性特征,能与人进行对
话。在演讲就要结束时,福斯特尔着重展示了这样一个情景,并使之成了这场活
动的标志性事件。
“你是谁?”他问道。
“我是一位谦逊的语音助理。”Siri回答道。观众们哄堂大笑,随后,也就不到
一秒时间,整个舞台被掌声包围了。
苹果公司看起来就像是在不经意间实现了技术上的突破。但是在听众中有这
样一个人——一位精干的黑发男子,和雷·罗曼诺长得稍微有点像——很清楚事情
的原委。他知道从“知识领航员”这个想象到Siri这个现实产物,研究者走过了漫长
曲折的探索之路。这个人的名字叫亚当·切耶尔,他已经在Siri的前身产品上花费
了将近20年的时间。
在20世纪80年代初期,切耶尔居住在波士顿外的一个郊区。他发现自己的高
中有一个计算机俱乐部,每周俱乐部的成员都会被要求解决一些计算机方面的编
程难题,成员需要在一个半小时之内或者更短的时间内完成,而且俱乐部会按照
他们完成任务的质量评分。切耶尔感觉这件事情不错。但因为他并不知道如何编
程,所以俱乐部里的孩子们说他不能参加。这里不是课堂,孩子们告诉他。这不是个俱乐部,这是个团队。
“被人告知自己干不了某件事,这真是让人灰心。”切耶尔说。于是,他开始
在计算机俱乐部上课的教室外偷偷翻垃圾箱,他研究了那些写有题目的纸条。“我
就是这样自学编程的。”他说。两周以后,他又来找这些俱乐部的成员。他把每周
的题目都解答了出来交给俱乐部,最终成了这个团队中得分最高的成员,还在全
国编程比赛中获得了冠军。
切耶尔对编程入了迷,于是他学习了高中计算机课程。等到开始编写自己的
第一个原创性程序而不只是完成俱乐部的题目时,他遵循了 “写你所知道的”的原
则。他对鲁比克魔方有些了解,还到学校里一个专门研究彩色魔方的俱乐部学
习,这段经历为他赢取了在1982年10月的这期《男孩生活》杂志上露脸的机会。
他凭借快速解决魔方问题的能力赢得了一次地区性的比赛——他的平均成绩是26
秒。于是他在计算机课堂上写了一段能够自动解决魔方问题的程序。
然而,切耶尔并不渴望在长大以后成为一名程序员,他的梦想是成为一名魔
术师。魔术节目中那些设计精巧的机械物件能够“活”起来,这让他着迷。他很钦
佩历史上的那些大师,如18世纪法国的发明家沃康松,他发明的东西包括一只会
拍翅膀、会吃、会拉的鸭子,一个有着能充气的肺、能动的嘴唇和覆盖着合成皮
肤的手指的吹着长笛的牧羊人。“他如果再往前走一步,就能让这些机器有‘灵
魂’了。”一位看过这个吹着长笛的牧羊人装置的观众大为惊叹,于是他给出了这
样的评论。
切耶尔还深受18世纪法国的钟表匠和魔术师罗伯特·胡丁的影响,认为他
能“用科学创造奇迹”。这位魔术师最有名的一个戏法是,他有个箱子重到连壮汉
也抬不动但又轻到能被一个孩子轻松地拿起来,这让观众大为惊叹。在《神奇的
橙子树》这一魔术节目中,他给观众展示了一棵光秃秃的树,这棵树就在观众眼
前长出了叶子、树枝和真正的橙子。但是当他摘下一个橙子并把它剥开时,观众
发现里面却是一条手帕,然后又出来一只蝴蝶飞向天空。
这些试图创造出“合成生命”的开拓性尝试激励了切耶尔,他尝试着创造属于
自己的“戏法”。他把图书馆里的所有魔术书都找来读了,从9岁起就开始独自乘火
车到波士顿去逛那些著名的魔术商店。后来他设计了自己的魔术节目。他在朋友
的生日会上表演了自己的“戏法”,对魔术的热爱激发了他对人工智能的兴趣。他说:“最好的魔术就是,你能从逝者那里拿回一些东西,能让某些东西无中生有,能让无生命的东西具有灵性。”
除了拥有编程和魔术方面的技能,切耶尔还能够创造一些鼓舞人心的“金
句”,这些“金句”使切耶尔足以与那些最善于自我激励的大师媲美。其中最有用的
是“口头阐明的目标(Verbally Stated Goals)”,可以缩写为VSG。在这些VSG
中,他聚焦于自身在人生关键节点的那些感受。他会把自己的感受凝结成使命来
陈述。然后他会与遇到的人分享使命,这样他自己就承担了实现这些使命的压
力。并且,当人们知道了他想实现什么样的目标后,人们也会想方设法帮助他。
当切耶尔高中毕业后,他又在布兰代斯大学计算机科学专业拿到学士学位,那时他的VSG是“国际性视野”。于是他搬到巴黎,并在这里做了四年软件开发工
作。他的下一个VSG是“到加利福尼亚学习”。他想到加州大学洛杉矶分校攻读一
个人工智能方面的硕士学位,但又对学校要求的三年学习时间望而却步。他的另
外一个VSG是“比自以为能做到的再多做一点”,于是他决定花15个月的时间拿到
这个学位。后来事实证明,15个月的时间对他来说也过于充裕了。9个月后,他
就把这件事搞定,还获得了“最杰出硕士生”的荣誉。
切耶尔的下一个VSG是“对未来最佳职业的探寻”,这被他设计成了一个问题
的形式:“我可以在哪里待上十年而不感到厌烦?”当他搬到旧金山湾区,并在国
际斯坦福研究学会找到了一份工作后,他找到了这个问题的答案。这是一个从斯
坦福大学剥离出来的非营利的研发实验室,以孵化计算机方面的创新(包括超文
本和鼠标在内的创新发明)而著称于世。切耶尔回忆说:“这个实验室正在做你有
可能用计算机来做的所有有趣的事情——语音识别、手写识别、各种类型的人工
智能、虚拟和增强现实。机器人就在他们的大厅里闲逛。”
Siri在最终成型之前有过许多版本,其中首个版本的技术就是切耶尔在这家实
验室研发的。那时他还没为这个语音助理起名字,事实上,Siri十五年后才面世,并不像人们后来猜想的那样,起Siri这个名字并非是为了向这家实验室(英文名为
SRI)致敬。但是关于Siri的核心功能的想法那时已经在切耶尔的心中形成了。他
设想了一个语音助理,它能够协调各种服务,还能帮人实现各种要求。用户不需
要用专业的程序语言与它沟通,用自然语言写或说就可以了,这就跟人类之间的沟通一样。
在20世纪90年代初,第一个版本的Siri被装在一个厚实的黑盒子里,它像是索
尼随身听的拙劣仿制品,在它的顶端原来插磁带的位置有一块彩色小屏幕。这个
系统原型被称为“开放代理结构”,能够帮助用户发电子邮件、创建日历条目、浏
览地图。“它能基本实现后来出现的Siri的很多功能。”切耶尔自豪地说。
当时的Siri还不是装在苹果手机上,但是在安装Siri的黑盒子上确实有一块用
户可以用触针控制的触摸屏。它能理解用简单的英文写出的命令,它甚至已经有
了语音界面。虽然依照今天的标准来看最开始的这个版本有些可笑,但这让在20
世纪90年代中期试用过它的一位新闻记者印象颇深。这位记者假装要租一个新住
所,他拿起电话,拨入这个系统。“当有关租赁的邮件发来,它就会马上通知
我,”他说,“这个系统会在网上查找这些记录信息,然后向我报告——‘以下这些
新的广告信息符合你的搜索标准。’我听到一个典型的机器人的声音。”
切耶尔继续进行他关于自然语言界面的实验,他当时开发的技术成为了几年
后随着物联网的兴起而开始急剧发展的那些技术的原型。他和同事做出了一台用
语音来控制的冰箱,它能够回答冰激凌还有没有的问题,他们还做了一个能够提
供餐馆和加油站的位置的汽车导航系统。但是属于Siri“史前”技术时代的最重要部
分还未到来,这部分事关另一个关键的新玩家。
2003年,美国国防部高级研究计划局(Defense Advanced Research Projects
Agency,DARPA)启动了一个规模很大的人工智能研究项目,并将它命名为
CALO——能够学习和组织的认知助理。这个耗资2亿美元的项目把分散在22所大
学和公司的400多位研究人员汇集在一起。切耶尔是这一研究项目的负责人。这
些人聚集在一起,热切地期待创建一个能证明人类在对人工智能的认识方面实现
了关键性转折的系统。
人工智能这一技术领域的“割据”现象人所共知。研究人员开发的系统都是一
些聚焦于完成某些特定的任务的孤立的系统。CALO却让它们成了一个集合体。
人工智能已用于识别数据,CALO希望让人工智能在现实生活中发挥作用。在战
争中,敌人的行动是难以预测的。因此,DARPA想通过CALO创建出一个系统,能通过与用户互动“在战争中学习战争”,而不必每次都重新编写一个程序。DARPA并不是要创造出一个时刻准备着的战斗者,只是受到了电视节目中一
个角色的启发——《陆军野战医院》中的雷利·雷达。在这部影片中,雷利是一个
终极助理,能够预测并实现指挥官的想法。DARPA考虑的是,创造一个人工智能
版本的雷利是否可行。
切耶尔和CALO的开发者研究出来的Robo-Rada是一个语音助理,它能够帮助
人们完成办公室事务。通过分析某人的计算机文件、电子邮件和日历,这一系统
能够建立起一个知识库并且勾勒出各个事件之间的关系。例如,这个语音助理能
够辨别出哪份邮件和哪一个项目有关,人们在不同项目中承担的角色是什么样的
等。
利用这些知识储备,当新的事实出现后,CALO就可以进行决策。例如,在
收到某人可能难以与会的信息后,这个人工智能系统就要决定是否需要重新安排
会议(因为这个难以与会的人是项目的关键人物)或者安排新的参与者(如果有
合适的替代者)。这样的话,会议就未必会被取消。对某个具体的参会人员来
说,计算机能够把他可能需要的笔记、文件和关键邮件打包到一起。如果他需要
做演讲,那么CALO甚至可以用适当的内容和图片给他拟一份演讲初稿。在会议
过程中,CALO能够把与会人员的发言记录下来,并对人们写在白板上的内容进
行数字化处理,甚至能把谁负责经办哪项工作都记录下来。
作为探索人工智能领域新概念的试验,CALO取得了成功。研究者就他们的
研究工作发表了600多篇论文。切耶尔在把不同研究者的成果整合成统一的语音
助理成果方面,发挥了最重要的作用。但是,到了2007年,他因这个项目中蔓延
的官僚主义氛围而感到泄气。“你能做的,不过是把这些不同的技术拼凑到一起而
已,”切耶尔说,“这就像是你只有一条橡皮筋,你却想用它把水舀出去。”
让切耶尔没想到的是,他会遇到一个对他来说至关重要的人,这个人把他在
过去15年中辛勤研究所收获的科研成果转化成一个实际的产品。这个人的名字是
戴格·吉特劳斯。
吉特劳斯是位于芝加哥的摩托罗拉公司的总经理,从表面来看他和切耶尔没
有什么共同之处。切耶尔是程序员,而吉特劳斯是总经理和销售专家,吉特劳斯能够把一件产品概念化并用一个引人入胜的故事对它进行包装。他很有魅力,也
很英俊。2005年,《芝加哥太阳报》的一篇专栏文章把他描述成“金发碧眼,娃娃
脸,像是北欧版的布拉德·皮特”。(吉特劳斯的妈妈是挪威人,他在挪威住过七
年多。)他的爱好比切耶尔喜欢的鲁比克魔方要危险得多,他喜欢高空跳伞,追
踪龙卷风,还修习韩式合气道。
不过吉特劳斯和切耶尔至少有一个共同点:工作上的束缚让他们受到挫折。
摩托罗拉公司想要开发一台高边际利润的手机,因此吉特劳斯开始研发第一款样
机,希望该产品在功能上要能和谷歌公司新的安卓系统相媲美。但是到了2007
年,摩托罗拉公司莫名其妙地叫停了这个项目,心灰意冷的吉特劳斯觉得已经到
了该寻找新机会的时候了。
当吉特劳斯在摩托罗拉公司的最后一天就要结束时,他正好在与SRI的主管
吃饭。这位主管邀请吉特劳斯到加利福尼亚去,希望他成为SRI的入驻企业家。
这个机会很诱人。SRI有一个推动成果实现商业化的团队,主事者是一位精明的
生意人,名叫诺曼·温阿尔斯基。“SRI能够使创意从最初的概念到投入运营,再到
完完整整地实现商业化。”温阿尔斯基喜欢这样吹嘘。
SRI与摩托罗拉公司不一样,摩托罗拉公司似乎觉得他们推出的流行多年的
刀锋系列翻盖手机将永远畅销,而SRI从2004年开始,就通过一个被称为前锋的
项目,一直在积极研究智能手机并推陈出新的技术。在切耶尔的支持下,SRI甚
至开发了一台语音助理的原型机,这成为切耶尔后来开发的CALO的一个小型版
本。温阿尔斯基及前锋项目的成员相信,语音界面是未来的发展方向。“用户要能
轻松地实现自己的请求,就像他们能向真人求助一样。”温阿尔斯基在2004年的一
篇文章中解释道。
SRI的工作深深吸引了吉特劳斯,他接受了入驻企业家这份工作,并迁到加
利福尼亚生活。温阿尔斯基告诉吉特劳斯,他可以在整个机构内寻找合适的技术
作为创业的基础。吉特劳斯评价这里是一个“神奇的地方”,到处都是睿智的想
法,他很快看上了这里最耀眼的一个人:切耶尔。吉特劳斯认为,作为一个面向
所有人的人工智能产品,CALO版的语音助理是强大的、能够改变世界的。
吉特劳斯和切耶尔组建了一个小团队并开始进行头脑风暴。CALO原本是基
于台式计算机的,但他们决定要开发出一个智能手机版本的语音助理产品。这特
别像在追随苹果手机的开创性的发展道路,苹果手机在2007年6月29日发布时,也是一款前所未有的产品。
虽然产品的大方向明确了,但是还有很多细节需要商榷,尤其是在如何将其
商业化方面。这与温阿尔斯基的想法有关,他认为用户不会只因为技术新颖就能
接受一个智能手机版的语音助理。有多少初创公司就是因为信奉“有货自有客”的
歪理而惨遭失败。一个产品必须能解决人们生活中的一个具体问题,用企业家的
话来说,就是必须能够解决顾客的痛点。
当年夏天,包括温阿尔斯基、切耶尔和吉特劳斯在内的,来自SRI的这群人
集体到半月湾这个位于旧金山南面的雨雾缭绕的小镇开展了一次周末休养会,他
们希望环境的改变能够让他们的思维更敏锐。在这里,他们在室内进行头脑风
暴,沿着海浪拍打的海岸健走,他们的注意力都集中在一个非常实际又非常真实
的痛点上——智能手机的屏幕太小。滚动查阅链接列表,眯着眼睛看小小的浏览
器,让人感到很难受。打字也是一件要求精度很高的苦差事。语音助理能够自动
完成任务从而减少人们的以上这些“痛苦”。这些创业者相信,语音助理会激发用
户强烈的兴趣。
在这次休养会上,他们还探索出了关于这个产品如何才能获利的方法。SRI
的团队研究了人们使用没有语音助理的智能手机的场景。在一个小小的浏览器
上,用户可能不会向下滚动去找某个公司或某个内容供应商的链接,他们可能会
因为过程太麻烦而不会从搜索结果中选择并通过点击进入某个网站。对某些公司
和内容提供商来说,这确实会导致经济损失。但如果语音助理能够帮助人们简化
这一过程,能从第三方公司检索信息并迅速提供给用户,那么情况又会有哪些不
同呢?如果使用语音助理能找回“丢失”的访问量,那么这些公司会因此而乐于给
开发语音助理的公司付一些佣金。
这个团队还讨论了互联网搜索。没有人敢把谷歌这样的大公司拉下马——如
果SRI要到“虎口里拔牙”,那么投资者一定会唯恐不及避之。因此团队成员提出了
这样的产品构想,这个产品既要能把他们的想法具体实现,又要有利于销售。这
个产品是搜索引擎吗?那可差远了。他们创建的是世界上第一个“会干活的引
擎”。当离开半月湾镇时,每个人都感觉干劲倍增。“我们收到了出发令,”温阿尔斯基说,“我们找到了路线图。”
休养回来以后,切耶尔和吉特劳斯邀请道了汤姆·格鲁伯,斯坦福的一名计算
机科学家,也是数据结构化体系方面的专家,来听他们的项目介绍,切耶尔和吉
特劳斯告诉格鲁伯,他们准备在这方面闯出一条路来。
格鲁伯一开始有些疑虑。但他很快就对这个构想充满热情,因为这个团队很
棒。吉特劳斯了解手机行业;切耶尔对人工智能充满热诚,尤其是对把众多计算
机后台服务整合成一个系统的愿望更是强烈——他的整个职业生涯都在为此努
力。更重要的是,这件事恰逢其时。“你们赶上了云开雾散的时候,因为手机将把
宽带带给每一个人,”格鲁伯记得自己在会面中是这样说的,“手机把云计算带给
了每一个人,这意味着只要你随身带着麦克风,那你就在日常生活中真正掌握了
人工智能这一重要工具。开发语音助理产品的时机已经成熟。”
在格鲁伯看来,如果说还有什么不足之处,那么就是用户界面原型的设计
了。当你与这个系统进行对话时,你会发现它就好像是20世纪80年代早期的那种
计算机,需要用毫无美感的字符键入命令。格鲁伯本来只是被邀请来对这个创意
点评一下的,最后他发现自己完全倒向了切耶尔和吉特劳斯这边。切耶尔和吉特
劳斯应该邀请格鲁伯加入这个项目,因为他不只是知识组织体系的专家,也是用
户界面设计的专家。“看,一个有着命令行界面的东西并不算是个真正的语音助
理,”他说,“让我们把它变成一个真正的语音助理。”会面结束后,当切耶尔和吉
特劳斯送格鲁特去停车场时,三人还在继续讨论着。当格鲁伯驾车离开时,三人
已经达成了共识:格鲁伯将进入董事会。创始团队的三个人凑齐了。
到2008年1月,这家公司被作为一家独立的公司从SRI分了出去。因为还没有
一个正式的公司名称,创始人决定先用主动技术公司这个名字。他们创建了一个
网站,页面上满是忍者形象的图标,还有一些浮夸的口号,比如:“我们的目标是
重塑消费者的互联网面貌。”他们甚至给自己的语音助理产品起了一个有点搞笑意
味的名字——HAL,这是在向斯坦利·库布里克拍摄的电影《2001:太空奥德赛》
中那个邪恶的机器人HAL致敬。主动技术公司的宣传语也幽默感十足:“HAL卷
土重来,不过这次它改邪归正了。”
作为一家已经基本就绪的新公司的催生者,温阿尔斯基决定仍然待在SRI充
当幕后支持者。但他在董事会中占得一个席位,并且充当起创始人和潜在投资者之间的牵线人。为了让主动技术公司赶快运作起来,公司的创始人需要筹措资
金。
肖恩·卡罗伦是著名的硅谷投资公司门罗风投的合伙人。从投资人的角度看,投资人工智能是个有风险的赌注。这一技术被赞誉为未来之星已经有几十年了,然而这个美好的愿望始终停留在未来——不能创造可观的利润。为什么现在就能
实现了?
尽管如此,卡罗伦还是被迷住了。HAL听起来像是“知识领航员”在真实世界
中的化身,而苹果公司预测科技未来的能力也不能被轻易小看。他也回忆起“伶俐
小孩”,虽然存在的时间短暂,但它的风靡显示出了真实的商业潜力。
下一代的“伶俐小孩”得到了两位杰出的计算机科学家和一位魅力超凡的天才
企业家的支持,这让卡罗伦感到很有吸引力。从2000年年初开始,技术已经得到
了很大提升,使语音助理产品变得可行,语音识别技术的用途越来越广泛,智能
手机也出现了,人工智能的水平得到明显提升。
说实话,HAL还不是一个能投入使用的产品,它只是手机上一个演示版本。
吉特劳斯演示了如何输入、查询、得到回答的过程。没有语音界面,只有最低配
置的普通功能,这意味着它的界面存在严重的局限。“我们做不到让所有人都愿意
在手里拿着这样的东西。”温阿尔斯基说。
但卡罗伦和来自另外一家公司的投资者盖里·摩根泰勒觉得来自SRI的这几个
人的确像干出点事情来的样子。也许在人工智能上赌一把是不错的选择。于是,卡罗伦和摩根泰勒的公司联合起来向主动技术公司投了850万美元,主动技术公
司就这样起步了。
公司有了运作资金,公司的创始人决定把他们的想法变为现实,于是他们把
公司的雇员人数增加到了20人。公司的第一个任务是要给HAL起一个不带那么多
乌托邦色彩的新名字。团队希望这个新名字听起来像个人名,但又不那么普通。
它应该有四个字母,容易拼写,读起来有意思,还不能让人产生不好的联想。
团队成员想了100多个备选的名字,为找灵感甚至把婴儿起名大全之类的书也翻了一遍。2008年5月,吉特劳斯提议用一个普通的挪威语名字,如果他的第
一个孩子不是男孩,原来就准备用这个名字——Siri。吉特劳斯在随后向大家解释
这个名字时,用了一点艺术手法,他说这个名字可以解释为“引领你走向胜利的女
神”。在其他文化语境下的相应意思也同样令人满意。在加拿大语中,Siri意味
着“幸运和财富”;在斯瓦希里语中,Siri意味着“秘密”,这与该公司曾经秘密运行
的状态倒是很吻合。在SRI,切耶尔曾经开发过一个叫Iris的系统,它与Siri正好是
回文结构,并且他很喜欢这里所暗含的两个产品之间的关系。
这就是Siri名字的诞生过程。
创始人也必须决定,Siri应该有多像人,应该有多健谈。切耶尔起初认为,Siri应该直截了当。“没有人会整天与语音助理聊天,”他记得自己开始是这样想
的,“它很难保持有趣。”但是同事让他改变了想法。公司雇了一位名叫哈里·西德
勒的用户界面专家,由他和吉特劳斯一起设计那些关于Siri特征的问题的答案。吉
特劳斯指出,Siri要“对流行文化有模糊的了解”,要“超凡脱俗”,并且要有点“机
智”。对于那些有关Siri特征的问题,他们设计出一些答案。“我们希望人们更喜欢
一个像人的语音助理。”温阿尔斯基说。
在技术方面,主动技术公司并非没有积累。Siri只是切耶尔在他长期职业生涯
中所探索的产品的最新呈现形式。他的探索过程与迪迪埃·古左尼有着密切联系,切耶尔曾与他在SRI一起共事,后来古左尼成了Siri的首席科学家。他们开发的几
个Siri的原始版本主要以一个单独的语音助理产品呈现,用户可以用自然语言与它
互动。这个语音助理也能调动其他程序和服务(代理)去检索信息或完成任务。
代理这个概念对于理解Siri是如何实际运行的非常重要,所以这里我们对它进
行深入探讨。你可以把代理想象成一群在大帐篷里东奔西走的人,他们每个人都
各有所长。但是要了解每个人都懂什么,以及应该如何与他们沟通,是一件很麻
烦的事情。因此你就会通过你的助理来传达请求。“今天下午天气如何?”你问。
助理马上跑过去,去问帐篷里了解天气预报的人,然后跑回来向你通报结果。适
合野餐——当听到雾将散去的消息后,你做出这样的判断。“我家附近有好的熟食
店吗?”你问。助理又跑出去,首先和一位餐厅评论员聊了几句,然后又向一位掌
握很多地理知识的人咨询。“去尝尝伯克利特克大道上的那家的奶酪拼盘吧。”助
理告诉你。Siri不可能知道所有事情,尤其不可能从一开始就知道。因此创始人把这个系
统——这顶帐篷——分成了几个主要领域,包括餐饮、电影、活动、天气、旅行
及本地搜索等。在帐篷里走动的当然并不是真人,而是Siri可以调用的计算机服
务。这样的服务一共有45个,包括Yelp点评网、烂番茄影讯、StubHub票务、城
市搜索、谷歌地图、航空数据网和必应搜索等。这个系统的巧妙之处是,它是模
块化的、可扩展的。开发者可以不断把新的代理囊括进帐篷之中,使Siri能够与它
们进行“交流”。
除了为Siri建立基本的组织结构,团队面临的另一个难题是要教它学会探知用
户的需求。即便是最简单的句子,也会经常把Siri弄糊涂。切耶尔喜欢用这样一句
话作为例子:“请在波士顿BOOK (预定)一家Four Star Restaurant(四星级餐
厅)。”这里是指哪个波士顿呢?实际上在美国有8个城市都叫波士顿,而“Star
Restaurant”又是一家小餐馆的实际名字,难道用户找的就是这家餐馆?
而“BOOK”是个多义词,可以指纸质书,可以指动词预定,还可能指路易斯安那
的一个社区。切耶尔数了数,这样一个简单的查询事例,可以有四十多种可能的
解读。
为了帮助机器理解人类语言,计算机科学家曾经尝试把语言规则教给机器
——名词、动词、介词、宾语及它们之间是如何搭配的。但是这种基于语法的规
则机器学习起来非常费力,主动技术公司并不打算在这上面投入太多时间。
公司的程序员另辟蹊径,想帮助Siri用有根据的猜测来理解意思。他们不是教
语音助理从语法上解析每个单词,而是让它理解某个特定说话方式的整体内容。
确定用户的交流内容属于什么领域——不管是电影、天气还是本地搜索——对语
音助理正确理解意思有很大帮助。例如,在餐馆的语境之下,“BOOK”这个词肯
定表示预定。如果用户的要求是针对电影的,那么“FARGO”就应该是一部电影的
名字,而不代表北达科他的一个城市。
语言对我们有意义,是因为我们知道它所表示的对象及概念。我们有逻辑和
常识,而Siri没有掌握现实世界的知识体系,但是,通过我们的知识本体,或者叫
知识图谱,它至少能够有一定程度的进步。知识本体是一个组织体系,能够展现
各种实体——如人、地点、事物等——是如何相互联系的。例如,我们画一张
图,把“电影”这个词写在一张纸的中央,并在这个词的周围画一个圈。下一步,你从这个圆圈开始向外画一些线条,并把这些线条和那些描述电影相关事情的词语连起来,如“片名”“题材”“演员”“评级”“影评”等。从“电影”出发的一条线可能连
接到在大圆圈中的一个词语——“电影事件”。反过来,这个词又有线条把它和“剧
院名称”“放映时间”“票价”连在一起。
知识本体可能对Siri理解那些最细微的观点帮助不太大,但是对生活中的那些
简单问题,它至少为Siri提供了理解世界运转方式的思路。如果一位用户提出了有
关电影的问题,Siri就会想到影片会有演员、会有评分、会在特定地点上映。这就
能让语音助理成功地回答“最适合孩子看的电影是哪一部?”或“现在有没有汤姆·
汉克斯主演的影片上映?”这些问题。知识本体甚至能帮助Siri联想到后续相关问
题:“你需要多少张电影票?”及“你想什么时候去看电影?”
知识本体也能帮助Siri理解对于不同的请求应该使用哪些外部服务。即使完成
一个单一性任务,也可能需要多元化服务的能力。假设一位用户问:“在旧金山哪
里能买到千层饼?”Siri就会查询菜谱大全应用程序查看哪家餐厅的菜单上有千层
饼,通过Yelp点评网查看哪家店最受好评,再通过OpenTable软件完成预定。
创建Siri的最后一个要素是用户体验。虽然计算机程序和各种应用程序看起来
很复杂,但是它们都有很友好的视觉界面——下拉菜单和按钮——这能引导用户
使用软件提供的服务。当有了一个语音助理后,这些可以提供的服务就不用再被
定义得那么死板了。这一产品的定位既然是智能的虚拟人,那么人们就有理由认
为它“能说会道”。因此,Siri的团队成员,尤其是格鲁伯,在确定人们对产品的期
望值方面下了一番功夫。他们为Siri设计的一个特性是,它会向用户提议:“如果
你愿意的话,让我告诉你我都能做些什么。”
Siri身后的绝大多数核心技术——基于代理的架构、自然语言理解、知识本体
——都是在实验室里被长期搁置的技术。Siri使这些“蒙尘已久”的技术整合到了一
起。“人工智能是一个有50多年历史的领域,因为它太难太复杂,所以被分解为多
个子领域。这些子领域都处于独立发展之中。”摩根泰勒说。Siri正在把人工智能
的“碎片”汇聚起来。
Siri正处在可以作为智能手机应用程序投入应用的阶段,但是它还无法与电影
里那些高级的人工智能相提并论。Siri还有一个重大问题:用户可以输入文本信息,但他们不能对Siri讲话。因此公司创始人在2009年向董事会提议,他们想把
Siri的上市时间再推迟一整年,以便能够赋予它语音功能。
当创始人在年后的一次会议上展示了Siri的语音功能后,董事会成员都认为推
迟上市是值得的,他们的耐心得到了回报。“语音功能是一个神奇的功能,让整个
产品变得与众不同。”吉特劳斯说。董事会的所有成员会后纷纷给他发邮件,他们
谈到的感受包括“我感觉我今天见证了历史”,还有“这真让人不敢相信”。
Siri在硅谷引起了一些反响。苹果公司在正式上市之前就想试用这款产品,Siri的创始人希望借此推广Siri应用程序。当Siri的创始人抵达苹果公司总部去做产
品展示时,他们发现桌边围满了人,大家都想先睹为快。
但是,与在董事会上的表现不一样,Siri在这里马失前蹄。在语音识别方面,Siri使用的是第三方公司的技术。但是在苹果公司演示这天,运气非常不好,这家
第三方公司正好出了技术问题。“在公司历史上,这是我们做过的最糟糕的一次展
示。”吉特劳斯这样说。他对Siri说:“我要买两张大学生篮球超级联赛的票。”可
是语音识别服务器错听成了:“马戏团下周会来镇上演出。”
Siri的创始人随后说服了苹果公司的人,让他们相信这个语音识别失灵只是一
个偶然。但是在Siri应用程序推出几个月之前,苹果公司的人仍然处于紧张不安之
中。甚至有一个杰出的硅谷投资人曾经对这几个创始人说:“和手机对话而不是只
简单地使用一个应用程序或进行一次网络搜索就可以了,这是很愚蠢的。”这位投
资人难以理解人们为什么会想要这样做。
温阿尔斯基特别强调,这次产品上市必须做到尽善尽美。公司不只是想实现
对那些先驱产品的改善,而是要创造一个全新的语音助理产品。“我们相信这次产
品上市对公司至关重要,”温阿尔斯基说,“如果失败或效果不好,那么公司将不
会再有第二次机会。”
不过,温阿尔斯基至少还有乐观的理由。在2009年秋天的一天,他正坐在飞
机上等待起飞,这时机舱广播里传出了飞机延误的通知。坐在温阿尔斯基邻座的
乘客问:“你觉得延误会持续多久?”
“我也不知道,”温阿尔斯基回答道,“让我查一查。”他拿出自己的手机,打
开了这个还没有公开发布的Siri,对着手机说:“Siri,联合航空的第98次航班预计什么时间到?”
Siri没有大声作答,而是弹出了一串字符:“这个航班将在1.5小时后到
达。”温阿尔斯基邻座的旅客瞪大了双眼,在他看来,Siri肯定会受到热烈追
捧。“我只有一个问题,”邻座的旅客对温阿尔斯基说,“你为什么要坐在这里?你
应该是坐头等舱的亿万富翁啊!”
2010年2月,Siri作为一款独立的应用程序上市。如果说人们对它初出茅庐就
会有精彩表现尚存疑问的话,那么几周后发生的事让人们彻底打消了疑虑。当苹
果手机的铃声响起时,吉特劳斯正向Siri办公室的门外走。他刷了一下屏幕上的滑
块去接电话,但不知是什么原因,刷了7次后才把电话接起来。如果你知道了打
来电话的人是谁,那你肯定会感到手机在这个时候出现这个问题简直太戏剧化
了。“嗨,”打来电话的人问,“请问您是戴格吗?”
“我是。”吉特劳斯答道。
“我是史蒂夫·乔布斯。”对方说。
“真的吗?”吉特劳斯问,他万万没想到苹果公司的CEO乔布斯会打来电话。
他转向附近站着的一位同事,有点炫耀地说:“是史蒂夫·乔布斯!”
“不可能!”他的同事回答。
按照吉特劳斯的说法,乔布斯开门见山。“你们正在做的东西很对我们公司的
胃口,”乔布斯说,“你明天能到我家来吗?”吉特劳斯向他要了地址,并问他其他
创始人能不能一起来。(“如果吉特劳斯不叫我们去,那我们非杀了他不可!”切
耶尔说。)
第二天,吉特劳斯、切耶尔和格鲁伯来到位于洛罗阿托的乔布斯的家,这是
一栋低调的砖瓦房,在树木环绕的街区中并不显眼。乔布斯亲自来开门,他穿了
一件黑上衣,吉特劳斯说,他看起来有点像特种部队的军人。在屋内的一面墙上
挂着安西尔·亚当斯的一幅风景画原作,一台古老典雅的吉他音箱放在地板上。乔
布斯把Siri团队带到客厅。接下来,他们围坐在壁炉前长谈了三个小时。乔布斯说,他一直就对语音界面和人工智能很感兴趣。“当我看到你们正在研究的东西,我就知道你们已经成功了。”吉特劳斯记得乔布斯是这么说的。
乔布斯谈到了手机将如何成为计算时代的未来,以及苹果公司将如何赢得手
机之战。乔布斯对苹果公司收购Siri感兴趣,这一点很明显。格鲁伯回忆,乔布斯
的理由之一是,有了苹果公司做后盾,Siri团队就可以专注于技术开发本身,不用
再为资金和利润操太多心。“这样你们就可以一心一意地做产品,不然就只能全身
心地做生意。”乔布斯说。
但是这笔交易当天并未谈成。“我们说:‘谢谢您,我们很荣幸,但我们对此
不感兴趣。’”切耶尔说。在首次募集到850万美元之后,他们又得到了1500万美元
的风险投资,公司有充足的资金来维持其后续发展。投资者们认为,Siri凭一己之
力就能发展成为一家大公司。“现在不能停下来,”格鲁伯记得有投资人这样
说,“你们干得很棒。”
因此,当乔布斯一周以后给吉特劳斯打电话,想正式谈谈收购价格时,吉特
劳斯出了个天价。“我把自己的要求说了,”吉特劳斯说,“他朝我大喊起来:‘你
这家伙是不是疯了!’”
不管他是不是真生气,乔布斯仍然很感兴趣,并且把拿下Siri当成了一项个人
任务。他没有安排大的电话会议或通过中间人协调。相反,他总是直接打电话给
吉特劳斯进行一对一的沟通。他每天打电话,有时深更半夜也打。
这样谈了17天之后,吉特劳斯最终和乔布斯谈出了一个让这几位联合创始人
满意,可以拿到公司董事会上讨论的价格。在听到能被苹果公司收购的消息后,董事会成员都高兴起来,眼里闪耀的都是美元符号的光芒。按照吉特劳斯的说
法,他们的反应可以归结成这样一句话:乔布斯从来没有这样执着地每天都给某
个人打电话。因此,吉特劳斯要继续端着——继续要价!吉特劳斯继续与乔布斯
谈判:“你总得做点让步好让我回去向董事会交代吧。”他这样对乔布斯说。乔布
斯愿意把价格一次性涨到1000万美元。从来没有做过公司CEO的吉特劳斯,在这
个过程中充满压力。当吉特劳斯带着这个最新的报价回到董事会上时,董事会成
员对他说:“用24个小时就拿到这个成果很不错,咱们看看如果再谈48个小时又会
如何。”在谈判进行到中途时,几位创始人已经很认同由苹果公司收购Siri这件
事。“对我来说,钱是很重要,但并非最重要,”切耶尔说,“最重要的是乔布斯对
我们的长远目标非常认同。”当吉特劳斯对乔布斯说现存的唯一障碍是董事会时,他与乔布斯每日电话对谈的重点马上改变了。这位苹果公司的CEO从对手变成了
顾问。乔布斯对吉特劳斯说:“我在三家公司中都遇到过你目前的这种窘境,你拥
有的力量比你所想象的大得多,你可以尽管去说、去做。”
最后,在吉特劳斯和乔布斯在电话里一直谈了37天之后,苹果公司拿出了一
个大家都能接受的收购价格。但是Siri的董事会成员在最后的文件中加入了一个条
款,这个条款对总体价格没有影响,但是改变了支付方案的一些细节。这个不讨
好的差事还是落到了吉特劳斯头上,这个新条款还是要由他与乔布斯在电话里商
讨。
“喔,喔,喔,”按照吉特劳斯的说法,乔布斯这样说,“我没听错吧,刚才你
真是这么说的?这就是想多要钱的花招罢了。”
“史蒂夫,确实如此,”吉特劳斯这样回答,“不过如果你接受这个条款,那么
我们今天就可以签协议。”
电话那头沉默了5秒钟。“好吧,”乔布斯说,“但是在你们被收购后,你们最
好使劲干。”2010年4月30日,距离Siri应用程序的上市时间还不到3个月,这个公
司就被收购了——收购价格未被披露过,传言在1.5亿到2.5亿美元之间。
2011年10月4日,苹果公司正式发布了iPhone 4S并推出了语音助理Siri。在这
之前的一年半时间里,乔布斯不再每天给吉特劳斯打电话。但这段时间乔布斯经
常参加Siri的周会,创始人清楚地感受到,在乔布斯的心中,语音助理是对苹果公
司的未来至关重要的一款产品。切耶尔记得,在产品发布几个月前的某一天,他
看到乔布斯路过公司的一个食堂,他的头低着,满脸倦态。但是当他看到吉特劳
斯和切耶尔时,他停下来,热情地说:“Siri兄弟!你们在这里干得怎么样啊?”
吉特劳斯和切耶尔告诉乔布斯一切顺利,并且他们正在与苹果公司的其他各
个团队协同配合。乔布斯盯着他们看了会儿,然后用手指了指这个热闹的食堂,说:“我希望你们把这里看成是自家的糖果店!”但遗憾的是,乔布斯没有看到Siri大获全胜的这一天。在Siri刚刚推出不久后
的10月5日,他因胰腺癌去世了。“我们知道他在家里关注着发布仪式,”切耶尔
说,“我不知道他会怎么想,但是我觉得他看到了这一切,并且说:‘不错,这就
是未来,苹果公司属于未来。’”
在Siri发布大约一周后,切耶尔去了当地一家购物中心的苹果商店,想看看语
音助理的市场表现怎么样。他甚至不用进到里面就能看到,在前窗玻璃后面,大
屏幕上正显示几个大字“Siri介绍”,还配有一台苹果手机正在显示这个应用程序的
图片。切耶尔身上一阵发冷。他对Siri有着“为人父”一般的骄傲。“如果我把Siri人
格化,”他后来在刊登在《媒体》上的一篇访谈中说,“我想它会把我视作父亲
——我总想给它最好的东西,我会教育它,有时会显得苛刻、烦人,或让人发
窘,但我会爱它,在它成功时我以它为荣。”
切耶尔和同事有理由祝贺自己。正如摩根泰勒后来在一次访谈中所说:“Siri
团队看到了未来,定义了未来,并且创建出属于未来的第一个可行版本。”
但是技术世界不会让人永远躺在功劳簿上。在Siri上市后的几年中,苹果公司
在某种意义上成了Siri的“牢笼”,而非“糖果店”。就像我们接下来将要看到的,Siri不会独领风骚太久。CHAPTER 03 科技巨头
在创立亚马逊公司并跻身世界富豪榜的几十年前,当杰夫·贝佐斯还是一名四
年级学生的时候,他对《星际迷航》这部科幻电视剧怎么也看不够。每一集贝佐
斯都看了许多遍,他还和两位邻居朋友一起用纸片仿制了相位器,在想象中的星
云中探索了一番。有一天,他萌生了到真的太空中探索一番的想法。
这并不仅仅是一般的童年幻想。1982年,在被指定为致告别词的学生代表
后,贝佐斯告诉一家报社,他的理想是“建造太空旅馆、游乐场、游艇,以及能容
纳二三百万居民的太空聚居地”。在普林斯顿大学,他是学生太空探测和开发分会
的会长。在2000年,贝佐斯建立了一家私营的太空探索公司,名叫“蓝色起源”。
贝佐斯可能永远也不会乘着他自己的太空游艇遨游世界,但他确实在2016年
时实现了自己的一个太空梦想。这个瞬间被记录在电影《星际迷航3:超越星
辰》中。在电影一开始,有一名外星人与联邦星舰企业号联系,惊慌失措地请求
援助。“慢点说。”一名星际舰队的长官告诉这位外星人。这位长官的面孔很难被
认出来,但如果你有意识地听声音,那他的声音是能够被辨识出来的。这正是贝
佐斯的声音,在游说派拉蒙影业公司许多年之后,他终于在影片中跑了一次龙
套。
2010年12月,贝佐斯对《星际迷航》的喜爱——包括其中所展示的一些技术
——已经为贝佐斯的技术顾问格雷格·哈特所知。贝佐斯与哈特进行头脑风暴,一
起探讨未来人们会如何与计算机进行互动这个问题。贝佐斯有一个想法——受童
年时爱看的节目影响是产生这个想法的部分原因。在《星际迷航》中,当团队成
员登上企业号以后,他们需要来自船舶计算机系统的信息。打字或者盯着屏幕并
非他们仅有的选项,而只要简单地对计算机讲话,他们就能听到语音回复。
在与哈特讨论之后,贝佐斯又给他和其他同事发了邮件,提出一个新的产品
构想。贝佐斯让哈特负责开发这款产品,并且当他们在2011年秋天第一次坐下来
谈这件事情时,贝佐斯就已经认定,这个设想从大的方面看是很清晰的,没有什
么值得疑虑的。
他告诉哈特,这次的目标就是创造“星际迷航”。
即使是对贝佐斯这样一个不以谦虚著称的人物而言,发明一台语音计算机也
是一个大胆得有些离谱的想法。没有任何一家科技公司开发过这种东西,亚马逊
公司不像是应该带头吃螃蟹者。
谷歌公司的工程师们梦想在现实世界中创造出《星际迷航》中那样的计算机
已经有很多年了,他们在这方面有更足的底气。对用户在搜索框中输入文字时的
目的进行分析以确定他们希望得到什么,这是谷歌公司十多年来一直在做的事
情,由此他们获得了在自然语言理解方面的积累。在引领以语音为唯一界面的计
算装置方面,苹果公司比亚马逊公司准备得更加充分。这家公司开发出了很受欢
迎的消费类电子产品,并且通过推出Siri在智能语音领域领先了一大步。
在消费类电子产品的开发方面,亚马逊公司并没有特别丰富的经验,他们只
开发过Kindle。亚马逊公司在语音识别和自然语言处理方面也没有聚集起一支强
大的研发专家队伍,整个亚马逊公司在这一领域拥有经验的只有两人,在这方面
也算是“白手起家”。“如果我们能够开发出来——我也不知道我们是否能开发出来
——那么这将是一款超级棒的产品。”哈特记得自己当时是这么想的。
组建起一个语音计算团队尤其不容易,因为亚马逊公司非常想让项目处于保
密状态。不能让新闻媒体和竞争对手探听到风声,在公司内部也要“神不知鬼不
觉”,只有那些直接参与的人才有知情权。这个项目甚至有了个代号:多普勒项
目。
项目的保密要求使得哈特只能用最模糊的语言来吸引应聘人员,告诉他们这
是一个开发出一款前所未有的产品的绝佳机会。他会问面试对象这样的问题:“如
果要给盲人设计一款Kindle产品,你会怎样做呢?”他从亚马逊公司内部正式挖来
的第一位员工是林赛,他后来成了工程方面的带头人。林赛回忆当时哈特是这么
说的:“我们认为这个项目对亚马逊公司很重要,这其中也包含非常严峻的挑战。
我可以告诉你的是,这与语音技术有关,但我不会告诉你项目的运作方式或者背
景。”
依托招聘和收购实现的跨国运作使多普勒项目从零起步。项目中心自然是在
亚马逊公司位于西雅图的公司总部。2011年9月,亚马逊公司并购了Yap公司,这是一家位于北加利福尼亚的公司,专长是基于云端的语音识别。126实验室是公
司负责硬件制造的工厂,位于加利福尼亚的森尼韦尔市,Kindle就是在这里问世
的。这个工厂的工程师们负责设计这一产品。2012年,多普勒项目团队在波士顿
开设了一个分支机构,得益于整座城市丰富的学术机构资源,这里成为适宜自然
语言处理人才成长的温床。2012年10月,亚马逊公司并购了Evi这家位于英国剑桥
的公司,它专注于研究对语音问询的自动回答。2013年1月,亚马逊公司又收购
了波兰公司Ivona,这家公司能够人工合成计算机语音。
从大的方面看,多普勒项目团队必须解决的问题可以分成两个部分。第一部
分是关于工程方面的,如语音识别和语言理解。虽然解决这些问题不容易,但如
果能付出足够的努力,那么这是可以运用目前已知的技术来解决的。
第二部分是需要通过发明创造才能解决的——需要采用全新的方法。其中首
先要解决的是所谓远场语音识别问题。当你处在一间屋子中,不管还有其他什么
声音——音乐、婴儿的哭声——语音产品都要能够听清你说的话。“当我们开始做
这个产品时,远场语音识别在任何商业产品中都还没被应用过,”哈特说,“我们
不知道是否能够解决这个难题。”
2013年4月,亚马逊公司聘用了科学家西特·普拉萨德来负责多普勒项目的自
然语言处理工作,他是唯一能胜任这项工作的人。从20世纪90年代起,普拉萨德
就开始为美国军方做远场研究了,研究的目的是在会议场合把每个人说的话都记
录下来。普拉萨德帮助他们开发出的技术在精准度方面达到了以前人们所开发的
同类产品的两倍。但要想达到每说出10个词最多只有3个错误这一称得上完美的
水准,他们还有很长的路要走。普拉萨德研究这个课题很多年了,他认为得益于
一些新的技术,如深度神经网络技术,多普勒项目能够做得更好一些。
对远场问题的一个可能的解决方案,简单地说就是应用强力。126实验室的
工程师们通过在整个屋子中布满麦克风的方式来进行试验,这样无论用户位于房
间中的哪一个位置,都至少有一个麦克风能够捕捉到他的语音。但是亚马逊公司
的高管们,尤其是贝佐斯,认为这不是一个好的方法,按照公司的说法就是,这
不够“神奇”。
后来工程师们设计出了一个天才的替代方案。他们设计了一个冰球模样的装
置,在其四周有六个定向麦克风,在中间也有一个。普拉萨德团队开发出的软件能够巧妙地与它们配合。这个软件能够放大麦克风采集到的声音,而麦克风也能
够采集到冲着装置发出的语音。这个软件还能降低从其他麦克风采集到的声音,因为这些麦克风采集到的可能是干扰性的背景声音。这种把从某一特定方向传来
的声音筛选出来并进行采集的过程被称为“波束形成”。
为了做到这一点,这个产品需要判断出用户正在冲它讲话,而不是和屋内的
其他人说话。普拉萨德和他的同事们认定,这个产品应该被一个“唤醒词”激发,这个“唤醒词”能够准确无误地提示这位用户的声音需要被装置捕捉到。从语音识
别的角度看,一个在语音上更加独特的“唤醒词”当然更合适。但是为了易于使
用,并且为了让产品更加引人注目,一个较短又好听的“唤醒词”似乎更为合适。
因此,多普勒项目的负责人要在这些需求之间进行平衡取舍。
在《星际迷航》中,机组成员只要简单地喊一声“计算机”,就能召唤数字帮
手。但是这个词太常见了,因此,也不能被采用。据报道,贝佐斯直到开发的最
后阶段,还是支持把“亚马逊”作为这样一个“唤醒词”来使用。但工程师们担心的
问题是,在平常的谈话中,这个词也很容易被偶然地带出来。备用“唤醒词”的名
单越来越长,最后的备选词达到了50个之多。贝佐斯最终敲定了一个发音响亮又
相对独特的词——亚历克莎。它能让人隐约联想到人类古代伟大的知识财富宝库
亚历山大图书馆。它不但成了这样一个“唤醒词”,而且还成了这一语音产品的身
份标识——亚马逊公司基于云的人工智能的名字,这个词终有那么一天会通过无
数语音产品说出来。
另一个大的争论是对亚历克莎的定位——它应该能干些什么?到了2018年,就像国际消费类电子产品展览会所展示的那样,亚历克莎看起来能应付任何事
情。但是在2011年到2014年,当这一技术刚刚被开发出来时,亚马逊公司的员工
还不敢确定什么样的应用是可行的、哪种应用最能得到消费者的喜爱。据说,贝
佐斯希望功能越多越好。但是从短期来看,它还是要更聚焦。普拉萨德说,让它
在收到用户的语音指令后就能播放音乐,很明显这是一个“门面性特征”。但贝佐
斯可不想它就只能做这么一点事情。于是,多普勒项目团队把它设计成能够提供
重要新闻、体育消息、天气信息,还能回应基本的事实性请求的一个产品。
为了进行测试,亚马逊公司建立了样板房,想看看它能否在日常生活的声音
环境中正确识别人声。公司也开始让一些信得过的雇员在家里测试这一产品——
前提是他们愿意全家人都签署保密协议。在所有的测试和开发工作完成以后,公司高管们到了必须为产品正式发布确定最佳时机的时候了。它是不是足够快,足
够准确,漏洞足够少?总体使用感受是不是令人惊叹?在最终决策时,所有这些
评价维度中的指标,应该经过多少次测试?公司高管们反复研讨,以判断这一产
品是不是已经足够成熟。
《彭博商业周刊》上的一篇文章声称,在2014年夏季之后,这一智能语音产
品已经到了紧要关头。由于那个夏天亚马逊公司的Fire手机的首秀遇冷,126实验
室研究人员们的信心也受到了打击,所以这一产品的发布日期被多次推迟。他们
觉得让这个产品热销的难度正在增加,他们的压力很大。但是林赛对这种想法提
出质疑。他说整个项目开发过程中的压力都很大——这是因为这个项目的雄心很
大,而不是因为Fire手机跌了跟头。
无论前景如何,亚马逊公司最后还是决定要在这年秋季推出这款产品。这是
一个圆柱形的音箱,被称为“闪光(Flash)”。不过,在最后一刻,亚马逊公司决
定把这个名字改成了现在人们所熟悉的“回声(Echo)”。2014年11月6日一经发
布,产品便迅速引爆市场。刊登在《边缘》上的一篇文章指出:“亚马逊公司用一
台能够与人对话的疯狂音箱震惊了世人。”
苹果公司卖出第一个一百万台iPhone手机用了74天。根据一个未经证实的说
法,亚马逊公司卖出同样数量的回声音箱仅仅用了两周。但是实际情况没有这么
简单。对回声音响的第一波评论从赞扬到抵触都有。评论家们提出的问题是:既
然你的口袋里面已经有了Siri,那还在桌面上摆个回声音箱做什么用呢?另外一些
人提出的对隐私方面的担忧——这是由把语音产品连接到云上这一前景所引发的
——一直持续至今。但还是有一小部分评论者意识到亚马逊公司正走在干大事的
路上。“不要嘲笑或者小看亚马逊公司新的智能家居产品,”一位《计算机世界》
的评论员写道,“这样的产品很快就会像面包机一样普及了。”
回到2011年10月4日,亚当·切耶尔对亚马逊公司处于保密状态的多普勒项目
还一无所知。他说,Siri的首秀让他感觉“自己是世界上最幸福的人”。Siri迅速成
为热销品,有市场分析人士说是Siri推动了iPhone销售量的飙升——推出后的第一
个周末就售出400万部,截至当年年底售出3700万部。在2011年的最后3个月里,苹果公司的产品销售总额达到463亿美元,在那时,与之前历史上的任何一家科技公司相比,这个金额都是最高的。切耶尔感觉自己正处在大变革的浪潮上。他
认为这将是有史以来人类所开发的最重要的软件。
然而到了2012年后半年,当人们发现了Siri的一些不足之处后,开始出现了一
些批评的声音。用户在YouTube上上传了一些Siri说错话的视频;评论者们还发表
了一些“毒舌”评论。“苹果公司的语音助理乘着自吹自擂的飞毯向我们飘来,许诺
将彻头彻尾地改变一切,”曼约奥·福哈德,这位很有影响力的技术记者在一本杂
志上发表了这样的评论,“但事与愿违的是,由于语言理解能力的贫乏,这位‘让
人深感失望’的语音助理成了一个‘骗人的、戏弄人的小玩意’。”
苹果公司开展了商业推广活动,佐伊·丹斯切尔、塞缪尔· L. 杰克逊、约翰·马
尔科维奇和马丁·斯科塞斯都来捧场。但是一些用户认为这些推广活动中的广告做
了虚假承诺,有欺诈之嫌,对苹果公司提起了集体诉讼。史蒂夫·沃兹尼亚克是苹
果公司最早的联合创始人之一,他也来凑热闹,对一名记者暗示说,在被苹果公
司购并之前,Siri的运作很好。甚至连Jack in the Box这部电视剧也在其广告中把
Siri之类的语音助理的语音识别功能讽刺了一把。
在广告中,杰克问语音助理:“盒子里最近一个的杰克在哪里?”
“我发现有四个地方卖袜子。”语音助理回复说。
苹果公司在某种程度上是在为一个雄心勃勃但尚不成熟的产品的首次推出
而“交学费”。因为不存在一个可以与之进行比较的先行产品,所以很多人也许是
在以科幻小说中完善的人工智能作为标杆来衡量它。又或者,从某种程度上说,用户是在拿它的语言理解能力和真人的对比。当然,苹果公司那些浮夸的市场宣
传也在诱导人们对此浮想联翩。Siri的类人化的界面,再加上抖机灵的笑话和淘气
的调侃,也让人产生它有高度智能的错觉。总之,还得说是人们把Siri想得太好了
——并且到了一个不切实际的地步。(同时,后续的语音助理产品,将因为有了
Siri作为主要对标物而大获其益)。
当然,Siri的问题也不能完全归因于人们不够公允的期望。在推出几天后,就
面向百万级用户启动一个新的计算平台,这是一个艰巨的考验。虽然苹果公司的
员工们在夜以继日地工作来应对这个考验,但仍然不能避免Siri速度变慢甚至停摆
的问题。几年以后,一些Siri过去的开发者在报纸上抱怨,最开始的Siri软件有很多漏
洞,根本没有做好大规模应用的准备。他们声称,它的代码存在根本的结构性问
题,使其新能力的提升速度放慢。这引发了一场经久不息的争论——Siri是应该渐
进式地修修补补,还是彻底推倒重来?然而,吉特劳斯不承认他的公司把一个劣
等品卖给了苹果公司的指责。他于2018年在推特上愤怒地写道:“这完全是错误的
说法。实际上Siri在推出之后运行良好,但和任何一个新平台一样,在超出预料的
大负载之下,它不但需要在规模上调整适应,而且还需要24小时不停地运行。”
对于切耶尔来说,他当然知道Siri还远非完美。苹果公司发行的Siri仅仅是1.0
版,切耶尔对此已经有了一个具体的改进计划。大体方案是建立起一种对话式模
式,通过一个代表着用户的人工智能代理进入数字世界。要想实现这一计划,Siri
必须能够接入尽可能多的第三方应用程序,只有这样它才能实现当初的创建者对
其寄予的期待。
然而,苹果公司发布的这个版本的Siri也是有第三方接入限制的。乔布斯希望
做一些接入限制,以便Siri尽可能运转顺畅。因此,他没有选择与数量处于不断增
长中的第三方应用程序做更多的连接——Siri并购前的版本有45个这样的连接——
而只是允许与一小部分苹果公司自主开发的应用程序进行连接。这是一个重大的
局限,想象一下如果谷歌网站能够提供的连接只是自己开发的站点而不是全网,那会怎么样?但是切耶尔并不为此担忧。乔布斯已经告诉过切耶尔,他支持逐步
对Siri扩展外部接入。这可以与iPhone的发展历史相互印证,在向数以万计的外部
开发者打开大门之前,当初iPhone也只向用户提供苹果公司自己开发的应用程
序。
但是,乔布斯的去世改变了所有的事情。语音助理失去了一个“啦啦队长”,只有他才能让公司所有的高管们沿着当初的目标共同前进。苹果公司对待Siri的方
式早已让一些领导者感到不满,他们中的不少人“急流勇退”,这很快导致了一场
管理风波。
吉特劳斯是第一个离开的,在语音助理推出三周以后他就辞职了。切耶尔挺
到了2012年5月。“我离开了高薪的工作,我喜欢的人们,还有我很在意的项
目,”切耶尔这样说,“但我觉得我难以再待在这里了。”吕克·茱莉亚在吉特劳斯
离开后成为Siri项目的主管,他在2012年10月也离开了。理查德·威廉姆森和斯科
特·福斯特尔是负责Siri项目的高管,也在这年年底被迫辞职。正如斯坦福的未来学家保罗·萨福对一位记者说的那样,Siri成了一个人工智能“孤儿”。
随着绝大部分主创团队成员纷纷离去,项目的运转乱了套。一篇发表在The
Information网站上的文章写道,“Siri的各个团队陷入了对Siri的理想版本到底应该
是什么样子的激烈争吵之中……负责这一项目的领导者和中层管理者,像走马灯
一样换来换去,他们都缺乏乔布斯的那种眼光和影响力。”因为缺少一位强大的领
导人(或者至少有切耶尔那样的眼界),苹果公司没有打开Siri的道路,从而使之
成为整个数字世界的新的对话界面。它在很大程度上走向了封闭。
约翰·伯基从2014年到2016年是Siri高级研发团队的一分子,他认为,由于对
这一软件最知根知底的那些人大多离开了,因此Siri的开发过程陷入了停滞。剩下
的成员就像是深受观众喜爱的摇滚乐队的明星人物去世后剩下的那些乐队成员,想打造出热门作品,但已经回天乏力。伯基并不接受原来的软件就有缺陷这样的
指责,但认同由于最精通它的开发人员离开了,这个系统变得越来越笨重难用,就像是用口香糖和强力胶带粘起来凑合着用一样。
就在苹果公司对Siri撕扯不清时,竞争对手们并未袖手旁观。谷歌公司没有拿
出像Siri这样轰动一时的产品,而是渐进地推出了自己的语音人工智能,其特点是
能够在较少的监视之下实现改进。它的起步可以追溯到2008年,那时谷歌公司刚
刚推出一款iPhone手机上的应用程序,用户可以对着手机说出他们的搜索请求,而无须输入文字。搜索结果是以传统方法呈现的,是一个目视化的链接列表,这
项技术能够让谷歌公司在语音处理方面得到一些有价值的经验。
到2012年,谷歌公司推出了一个语音助理,称为Google Now,它能够提供人
性化的、符合情境的相关信息——体育比赛比分、日历事项提醒、天气预报、驾
驶指南等。甚至在你询问这类信息之前,它就会主动提供。例如,在你的日历上
发现你在这个城市有一个约会,但是交通堵塞,它就会提醒你早点动身。运用文
本或者语音,用户也可以启动网络搜索、用手机打电话、发电子邮件、找音乐曲
目或者问路等功能。
虽然没有在营销上过分用力,但这一产品使谷歌公司向前迈出了重要的一步
是有目共睹的。这家公司正在变得不那么局限于搜索框,而是更注重用自然语言
进行交流。谷歌公司把它当作一个高度个性化的助理产品来推广。Google Now也
显示了公司对语音越来越浓厚的兴趣。斯科特·霍夫曼是谷歌公司负责工程的副总,他告诉一位记者:“这是历史上开天辟地的一次人与机器的成功对话。”
同时,在微软公司,语音技术作为计算技术的未来,也让这里的人们感到欢
欣鼓舞。率先把这一愿景变为现实的人是拉里·黑克,他是语音人工智能方面
的“大佬”。和切耶尔一样,他也在SRI工作过。2009年,那时大家还不知道Siri,黑克就建立起团队,开始进行语音助理的开发工作。比Siri更进一步的是,黑克的
团队所开发的人工智能,从设计上就是要直接模仿真正人类行政助理的行为,能
够掌握每个用户包括日程安排和联系人在内的细节信息。与苹果公司不同的是,微软公司有自己强大的搜索引擎——必应,能够用以提升人工智能答复问题的能
力。
虽然开局不错,但微软公司没有像苹果公司和谷歌公司一样推出实际的语音
助理产品。在2013年接受科技资讯网采访时,微软公司执行官斯特凡·维茨解释
说,公司想等到能拿出比Siri或Google Now更好的产品时再推出,在他看来,这
两款产品功能的局限性都太大了。“我们希望能拿出革命性的而不是改良性的产品
后再启动。”他说。最终,在2014年4月,微软公司宣布推出他们自己的语音助理
产品:微软小娜。
科技记者们为微软小娜的问世献上了礼貌性的喝彩,但并没有激动到起立鼓
掌致敬的程度。反观苹果公司,虽然它作为一项新技术的“吃螃蟹者”而受到过责
备,但也因此而得到勇于创新探索的赞誉。但是2014年,微软公司推出的这款基
于智能手机的语音助理即便更加成熟好用,但也只是以模仿而非创新的面目出现
在世人面前。美国有线电视新闻网在报道时用了这样的标题:“遇见微软小娜,这
是微软版的Siri。”很多评论者们坚持微软小娜纯粹就是个跟风者。《瘾科技》杂
志的一名评论者认为,“微软小娜感觉就像是融合了Google Now的世俗气和Siri的
迷人魅力。”
对Siri来说,两个竞争对手的出现为它带来了困扰,但等到2014年秋天,局面
又变得没那么糟糕。苹果公司已经丢掉了盛气凌人的“先行者”的主角光环,并且
让对手们有了追上自己的时间。内部管理的暗战还在持续,在接下来的几年中,公司又有另外几位顶尖的语音人工智能专家出走。但是从积极的方面来看,Siri算
是走过了磕磕绊绊的“童年时代”,正在卖力地处理来自数以百万计的用户的请
求。Siri已经转变成为一个更加强大的以机器学习为基础的系统。苹果公司的一位
高管总结说,Siri就像做了“大脑移植”。只要iPhone手机不断创下销售纪录并获得大量利润,就能保证Siri作为语音助理产品的领军者地位。
只要智能手机还是通往这一技术的最主要接入点,苹果公司作为语音领域领
导者的牢固地位就是可以维持的。但亚马逊公司在2014年11月,带着回声音箱异
军突起。突然间,市场上出现了一个新的产品——智能家居音箱。这是一台“人工
智能唱主角”的产品,意味着语音助理不再像在手机上那样,只是一种附加的特
色,而是其本质特征。
按照伯基的说法,苹果公司不愿意看到这番景象。他们对亚马逊回声音箱上
市的反应是“先傲慢地藐视,而后又陷入惊慌失措”。
刚问世时,亚历克莎和Siri激起了很大的波澜。2016年上半年,这项技术
的“大玩家”们才开始纷纷宣布语音是计算技术的未来,就好像他们在按照同一剧
本念台词。
2016年1月3日,扎克伯格表态,他将努力打造一个自己的语音助理——就像
《钢铁侠》中的贾维斯一样。“我将开始教它通过理解我的话来控制家里的所有东
西——音乐、灯光、温度等。”扎克伯格这样写道。这位“贾维斯”也将学习如何通
过辨认面孔,把正在按门铃的扎克伯格的朋友们迎进家中。如果“贾维斯”能够侦
测到在扎克伯格家中发生的任何事情,他就会提醒扎克伯格应该如何看好自己一
岁大的小女儿。
扎克伯格最终会花一百到一百五十个小时来打造一个简单的语音助理原型产
品,他成功地让语音助理做到了预想中的那些典型的智能性家居任务。在他的指
挥之下,语音助理甚至打开了烤箱。但这个“贾维斯”有时又很“傻”,例如,当扎
克伯格坐下来要看电视时,它可能会关掉电灯;扎克伯格可能要把命令重复四
遍,“贾维斯”才会真正按照指令行动。但至少“贾维斯”有一个特色是那些把制造
聊天机器人当作业余爱好的人士所难以办到的。扎克伯格在一次颁奖典礼上邂逅
了摩根·弗里曼,于是就把他拉去录了一段音频,这样他开发出的语音助理就可以
模拟这位演员的声音来说话了。在一段宣传的视频中,当一台语音控制的“T恤大
炮”从衣柜里把衣物射向扎克伯格时,弗里曼版本的“贾维斯”喊道:“小心炸弹!”
虽说“贾维斯”只是扎克伯格个人的一个项目,但这明确显示出他对语音技术的兴趣。脸书公司也对此十分感兴趣。2015年8月,这家公司开始测试一款被称
为M的语音助理产品,它可以通过文本短信息与一个包含数千用户的软件验收测
试池接起来。就像一位尽职的助理一样,它会为了满足一位苛刻老板的各种心血
来潮的需求而东奔西走,M的确很能干。有一位测试M的用户很幸运,他让M为
他订了航班,拿到了有线电视费的折扣,写了歌曲,还订了一杯南瓜拿铁咖啡,并送到了自己的办公桌上。
脸书公司并不是突然间创造出了一个人工智能产品。M所接收到的请求有时
是由一个真人团队来帮助处理的,他们在幕后忙碌着。脸书公司的计算机科学家
们想要训练M,让它能以人类助理为榜样来学习如何帮人干活——真人会用什么
样的语言,真人会采取什么样的行动。
M项目立足于长期的研发,而非作为一款短期推出的产品。“这是一个实验,我们想看看人们会提出什么问题,以及会以什么方式提出问题。”脸书公司负责人
工智能和短讯功能的产品主管克马尔·埃尔·穆佳德这样说。但在2016年4月举行的
脸书公司年度开发者会议上,扎克伯格在他的主题演讲中提到,公司正加紧推出
新的语音技术。他在一开始就说道,他从未遇到过愿意通过给商家打电话的方式
来获取信息的人。人们也不喜欢为可能会用到的单项服务安装一个专门的应用程
序。扎克伯格提出了另外一个选择:“我们觉得你应该像给朋友发信息那样和商家
联系。”
扎克伯格接着揭开了一项新技术的面纱。这项技术能够让开发者创建微型的
商用聊天机器人,它能够自动提供产品信息并回答一些一般的消费者问询。这些
都将建在脸书公司的通信平台上,如果需要与这些聊天机器人中的某一个进行互
动,那用户仅需要把它作为一个联系人添加上就可以了。扎克伯格在台上展示了
他如何从CNN的机器人处获得最高法院提名人和寨卡病毒的有关信息。然后他又
通过鲜花网机器人订了一束“爱的拥抱”鲜花。“我发现这非常有讽刺意味,”扎克
伯格开玩笑说道,“因为现在你从鲜花网订鲜花,再也无须拨鲜花网的电话了。”
几周之前,微软公司在他们的开发者大会上给了脸书公司一记重击。微软公
司声称使用他们的“微软机器人框架”(Microsoft Bot Framework),开发者们能够
为任何商家创建一个自然语言的界面。公司基于云端的人工智能服务能够对此提
供支持,以解析语言、组织对话,甚至还能分析出隐藏在人们语言之后的感情。比扎克伯格更进一步,微软公司的CEO萨蒂亚·纳德拉在这幅关于语音人工智
能的大图景上又涂抹了一层诗意的色彩——就像他说的那样,“语音技术发挥了平
台型技术的作用。”机器正变得愈加聪明,语音界面变成了新的通用界面。“我们
认为这会产生像以往的平台转换一样的效果。”纳德拉说道。
在2016年,还有另外一家公司做出了重要声明,那就是谷歌公司,他们在5
月举行了自己的年度IO开发者大会。语音人工智能显然已经在公司的谋划之中。
脸书公司和微软公司描绘出的是一个充满来自不同公司的数以千计的机器人的世
界,而谷歌公司描绘的是一个更加一体化的整合性方案——当你发出指令,它就
会去做任何需要做的事情,并告诉你任何你想要知道的事情。
这场年度IO开发者大会在华盛顿州海岸线市的圆形剧场举行。在会议的主题
演讲中,公司CEO桑德尔·皮蔡说:“公司现在已经走到了一个重要关头。借助最
先进的机器学习和人工智能技术,公司希望采取进一步措施,为用户提供更大的
帮助。”在这个场合,他最终向世人公开了谷歌助理。“我们设想这就是语音助
理,”皮蔡说,“我们希望用户和谷歌助理之间能够进行不间断的双向沟通。”
这是一款比Google Now更加成熟的产品,用户可以通过智能手机使用它;也
可以通过一个啤酒罐大小,被称作谷歌家庭的智能音响使用它。人们可以通谷歌
公司开发的一款全新的名为Allo的即时通信应用程序与这款语音助理产品对话。
在得到用户的同意之后,当感觉能够提供某些有用的信息时,这款语音助理
就能够参与进你通过Allo即时通信应用程序进行的任何文本交流中。如果你正在
与朋友商量一起去吃饭,它就会把推荐的餐馆的消息给你弹出来。这款语音助理
也能自动给出对某人的信息该如何回复的建议,如果用户中意的话,那就可以直
接发出去。例如,如果有人发给你一张可爱的宠物照片,这款语音助理就能够运
用图像识别技术,给出回复建议,“可爱的伯尔尼山地犬!”当你需要回答一个事
实性的问题时——哪个球队在大学足球赛的复赛中取胜了?——助理马上就能给
出答案。
相当有趣的是,谷歌公司虽然开发出了语音助理产品、智能家居产品和Allo
即时通信应用程序,但它并没有以“先驱者”的面目出现。皮蔡甚至为亚马逊公司
能开发出如此激动人心的智能家居音箱而大声喝彩。谷歌公司采取的是“快速追赶
者”策略。脸书公司也使用过同样的策略,脸书公司并不是第一批社交网络中的一员,它虽然在Friendster和MySpace之后才加入社交网络的竞争中,但最后却把后
两者远远抛在后面。谷歌公司同样如此,它是第一代搜索引擎的模仿者,但最终
也打败了它的竞争者们。
就语音助理产品来说,谷歌助理比Siri晚了5年;谷歌家庭比亚马逊回声音箱
晚了两年。但是在IO开发者大会上,皮蔡看起来非常自信,几乎像是在嘲笑竞争
对手们的不专业。“我们最近十年都在开发世界上最好的自然语言技术,”他
说,“我们在对话理解方面的能力远超其他语音助理产品。”
而亚马逊公司相对于对手们保持了一种更低调的姿态。但在2016年5月底,贝佐斯就亚马逊公司对亚历克莎的投入揭示了一个夺人耳目的事实。在一次访谈
中,贝佐斯说,亚马逊公司在亚历克莎平台上投入了1000多名研发人员。他说,目前世人所见不过“就是冰山的一角”。
苹果公司在2016年5月13日发布了一项声明:他们允许Siri与更多的第三方应
用程序相连接。开发者将提供选项让用户能够通过与Siri对话调用6个领域内的应
用程序:短信、音频和视频通话、付款、拍照、锻炼、乘车预订。因为接口还被
苹果公司紧紧控制着,所以这很难说就是切耶尔提倡的那种开放门户的方式。但
这毕竟只是一个开始。Siri现在能够帮助用户预订Uber车辆、打Skype电话、用
PayPal给朋友转账、启动跑步软件等。
但你可能争辩说,2016年春天与Siri相关的最大新闻并没发生在苹果公司。最
初的Siri开发者中的三位——切耶尔和吉特劳斯,再加上一位在SRI年代就成为团
队一员的名叫克里斯·布里格姆的计算机科学家——透露说,他们创建了一家公
司,并且开发出了新的语音助理产品。它的名字叫Viv,是从拉丁语中的life这个
词衍生出来的。
从某些方面来看,Viv不过是切耶尔在其职业生涯的大部分时间里都在探求
的这种语音计算技术的一个最新迭代版本。这是一个基于互联网的语音助理产
品,它与那些第三方应用程序连接着,能用自然语言沟通交流,能够听从用户的
差遣。但是创建者们声称,Viv比此前开发的任何一个产品都更强大、更灵活。
Viv无须按照提前编码的规则一步一步地去完成任务,而是能够在工作状态下现
写程序以完成用户的语音请求。假如一位用户问Viv:“在去我哥哥家的路上,我需要买点与宽面条相配的便
宜葡萄酒。”通过查询一个食谱数据库,Viv确认宽面条是香辣味的,并且确认了
它的配料有奶酪、番茄汁和绞碎的牛肉。然后Viv又通过查阅Wine.com网站确认
这些配料与浓郁醇厚的葡萄酒相配。Viv还通过查询地址簿确定他哥哥家的位
置,并通过MapQuest地图网站设计了驾驶路线——包括要绕道去最近的红酒商
店。在屏幕上,Viv还显示出了价格合适的葡萄酒的产品说明和列表。
在TechCrunch公司于2016年5月举行的创新大会上,吉特劳斯上台第一次公开
展示了Viv。当要对这个产品进行大胆预言时,他没有含糊。“这是一个自编写软
件。”吉特劳斯说。三星公司这家消费类电子和手机制造商很认同Viv将大展宏图
的说法。2016年10月,三星公司以2.14亿元美元的高价收购了这家公司。
从2016年各公司纷纷发出声明之后,尘埃就已落定,这些科技巨头们在展望
人与计算机的交流方面显然设想的第一种方式明显是通过语音;但文本输入也是
可行的选择,并且脸书公司、微软公司和谷歌公司都发现这种方法很有吸引力。
他们这种对基于文字的人机互动的兴趣起源于认为应用程序的时代正在逝去
这样一种看法。平均每台手机都会装100多个应用程序,每一个都只能完成某个
单一化的任务。应用程序的魅力开始让位于审美疲劳,数据显示,普通用户有
80%的时间实际都花在了其中寥寥3个应用程序上。
然而,这些科技公司的高管们认识到,即时通信应用程序仍然非常受欢迎。
因此他们推测,开发即时通信应用程序是个方向。他们的预想是,用户们不愿意
每干一件事都打开一个专门的应用程序,而是倾向于更多地使用即时通信应用程
序,并与机器人进行交流。微软公司的纳德拉在2016年的主题演讲中点透了这个
观点,他称:“机器人就是新的应用程序。”
这个看法不是纳德拉和他的同事们喝着浓咖啡在白板前面进行头脑风暴想出
来的。相反,这是进行案例研究的产物,他们观察到很多国家都直接越过了桌面
机阶段而进入移动互联网阶段。以中国为例,微信用户在2016年达到了7亿,微
信成了人们手中数字版的瑞士军刀(用户数现在已经达到了10亿人)。人们使用
这一应用程序进行搜索、预约车辆、购物。人们用微信付款,不管是大商场还是
街边的小吃摊,都可“畅通无阻”。人们通过微信与1万多家公司建立起联系,这些
公司提供的服务从静态的网页到互动性的聊天机器人都有,都可以通过发送短消息实现。
到2016年春天,脸书公司的即时通信平台已经达到9亿用户,到2018年达到
了13亿用户,很明显它把自身定位成了西方世界的微信。同时,微软公司也有新
动作。它正鼓励开发人员使用“微软机器人框架”来创建聊天应用,并将其设置在
像脸书公司的即时通信这样的平台上。同时,微软公司也希望有开发者能为他们
的Skype开发聊天机器人。再说谷歌公司,这家公司现在有Allo即时通信应用程
序,人们可以通过这个平台相互之间发送消息,也可以与聊天机器人及语音助理
进行短信联系。
对于那些处于技术世界之外的公司而言,可以用来与用户沟通的语音选项越
来越多,这既让人激动也让人困惑。那些眼光超前的公司高管认为,就像当年的
网站和应用程序一样,他们必须拥抱这些以数字化手段呈现自我的新方法;不这
样做就意味着要冒在数字化环境下被人视而不见的风险。但是该如何做呢?是用
聊天机器人、即时通信平台,还是Skype网络电话?从2016年开始,这些公司尝
试了很多方法,我们来看看到底哪个能够奏效。
雅诗兰黛、丝芙兰和欧莱雅的聊天机器人能够给出护肤建议,帮助用户选择
色号最合适的粉底。作为一家快时尚零售商,优衣库有一款被称为IQ的机器人,它能够为人们提供购物帮助,例如,当你输入“我需要新裤子”时,这个机器人就
会以图片的形式向你推荐一些款式。
起亚汽车有文本输入和聊天机器人,能够帮助消费者得到关于不同汽车型号
的信息或是因价高而滞销的车型这类信息,还能回答诸如“在城市中行驶,一加仑
汽油最少能跑上25千米的SUV车型有哪些”等问题。这家汽车公司认为,机器人的
用户转化率比网站高三倍,机器人帮助公司卖出了超过22000辆汽车。富国银
行、同盟金融和美国银行的聊天机器人能够帮助用户找到ATM机,查询存款并提
款,还能进行转账和支付。
你饿了吗?来试试邓肯甜甜圈、星巴克、赛百味、丹尼快餐、多米诺快餐、必胜客等外卖平台的亚历克莎和谷歌语音应用程序吧!
Match.com这家婚恋网站有一台名叫拉腊的聊天机器人,它能够撮合现实世界和虚拟世界中的浪漫情缘,还能够推荐约会对象,并把照片和简介信息发到用
户的手机上。如果用户同意与对方接触,那么它还可以在言谈方面给你些建议,就约会这件事来说,它甚至还可以为你推荐餐馆。如果你想约对方去看电影或者
听音乐,那么来自StubHub、Fandango或Ticketmaster等票务网站的机器人能够帮
助你订票。一些名人,包括凯蒂·佩里、肯伊·威斯特,甚至能让你通过与他们个
人的机器人替身进行沟通从而在表演之后仍与他们保持联系。
如果你现在要启程出发,那么荷兰皇家航空、联合航空和汉莎航空都有专门
的机器人能够帮助你办理登机手续并取到登机牌。如果你最终下榻在拉斯维加斯
大都会酒店,那么前台人员会递给你一张卡片,上面印着这样的话——“知道我的
秘密”或者“我是你从未问过的问题的答案”。如果你输入卡片上的号码,你就会与
一位名叫罗斯的机器人接上头。
总之,在2016年迄今的这股热潮中所开发出来的聊天机器人和语音应用中,既有失败之作也有成功之作。开发者们意识到,开发自然语言的应用程序,即使
是聚焦于非常具体的领域,也可能会非常困难。当计算机能够以接近人类的方式
沟通时,人们就会期望它具有像人一样的智能,他们的期望值也会水涨船高。所
以,设计者们正在学习如何把当前这一代语音对话界面的能力和局限性向用户说
明白,这是他们的第一个收获。
他们的第二个收获是,这样的聊天机器人并非新的应用程序——或者至少不
是始终如此,当要把很多信息呈现出来时(如很多天的天气预报或者可选航
班),视觉呈现会比语音呈现更有效率。所以,这些科技公司推出了一些两者的
混合体——亚马逊公司的回声秀(Echo Show)或者支持谷歌助理的联想智慧显
示(Lenovo Smart Display)。这些混合体既有屏幕也有语音对话能力。对于手机
上的即时通信应用程序,机器人制造商通常会在其线程中包含图像和按钮,而不
仅仅依赖于文字。
他们的第三个收获是,设计者们不再着眼于简单地复制那些早已存在的智能
手机应用程序,而是更多地聚焦于创造出一些能让自然语言交流大显身手的场
景。他们所瞄准的场景是那些人们手头正在干着其他事情不能同时盯着屏幕的情
况,如开车和做饭。这些公司正在把聊天机器人和语音应用程序当作多渠道战略
营销的一部分来展开,而不是把它们分割开来。罗伯特·霍夫原先认为“伶俐小孩”这款软件因其能以自然语言进行互动而极大
地提高效率——让人们得到信息的速度大大加快。但他很快意识到,这项技术的
真正威力可不在这里。“当你讲话的时候,你能很快对它产生亲切感,”霍夫
说,“它能给你赋能,让你能做很多事情,其他手段不会有这个能力。”
与计算机建立起亲密关系,就像和人一样,意味着这会让人轻松起来,更投
入感情,更有参与感。这些特征可以应用在所谓的高接触性应用程序中,在这样
的应用程序中,信任、人性化和默契都很有价值。这样的应用程序范围非常广
泛,可能会包括医疗保健、市场营销和虚拟陪伴等,在本书后面的部分,我们会
深入讨论这类应用程序。
要在网络上测试出哪些应用程序运行良好,需要好几年时间。智能手机上的
应用程序推出之初也是趔趄而行,其中有很多居然是为了完成一些让人疑窦丛生
的任务,如按照指令合成放屁的效果。语音人工智能的发展也走了相似的弯路,但有迹象显示,在走过蹒跚学步的阶段之后,它正走得越来越稳健。
在2016年时,135个亚历克莎技能(Alexa Skill)还没有被启动,基于即时通
信平台的机器人也没有出现。到了2018年春天,亚历克莎技能已经有了惊人的增
长,超过30000个,并且谷歌命令(Google Action)也达到了1700多个。在即时通
信平台上有300000个机器人,与用户之间累计产生了几十亿条信息。皮尤研究中
心的一个研究项目显示,在2017年年中,在美国从18岁到49岁的成年人中超过一
半人使用语音助理,并且还有另一项研究发现,在2018年年中,仅美国一个国家
就有将近5000万智能音箱用户,智能语音时代已经到来。
第二部分 创新CHAPTER 04 探索之旅
一直以来,人类都会深刻而持久地迷恋能够与其交谈的对象。人类的这种迷
恋在前人工智能时代就已经显现出来,我们希望能与这样的对象交谈的愿望十分
强烈。直到最近,那些致力于创新的人还是经常被视为神秘的人、梦想家或江湖
骗子。即使到了数字时代,智能语音还往往只是某些公司的研究人员、专业学者
及发烧友们的探索目标,看起来他们为之付出的努力并不具有推动变革的力量。
他们创造出的东西横跨科学、娱乐和艺术领域。只有具备长远的目光,我们才能
意识到,这些探索者们正在引导未来越过时代的拐角。
在真正的语音技术形成之前,智能语音长期以来都只是一种假想。一些无生
命的事物突然有了“生命”,对这方面最早的一些传奇故事来说,最令人惊奇的不
只在于它们已经流传了多久,而在于它们与现在的人工智能有多少共同之处。看
起来,人们长期以来就梦想着能有栩栩如生的对话对象出现,它们能够为人类提
供帮助——但对这样的可能性,他们同时也有些焦躁。
在古代,有人相信古埃及人创造出了能够与人交谈的雕塑。在希腊神话中,火神赫菲斯托斯的金色机器人女仆能够说话,而代达罗斯的雕像能够自己走来走
去。代达罗斯的精力非常充沛,因此,必须被锁在基座上以免走丢。
很多文化都有一些关于便携的、能够提供信息的发明物的传说——这相当于
几千年前的苹果手机。从形状上看,这些发明物都有好几个脑袋,因此它们能够
交谈。在挪威的神话中,以智慧著称的米尔神在一次战斗中身首异处。后来,奥
丁神对着他的头颅唱歌,并且用药草把这颗头颅保存起来。从此以后,奥丁神就
把这颗头颅带在身边,并经常向其讨教。家庭供奉的小神像——《圣经》里提到
过这些不敬神的能讲话的神像——人们普遍认为它们有着木乃伊化的人的头颅,刻着咒语的金板插在它们嘴中。公元6世纪,一位希腊哲学家曾写过一个传奇故
事,说有一位学者的脑袋被砍了下来,以此来分享他的智慧。
在中世纪,有关于黄铜人头的神话故事,相传有人能制成会说话的人头,而
不用再径直从人的脖子上扭下来。英国主教罗伯特·格罗斯泰特,德国神学家阿尔
伯特·马格纳斯,还有英国修士、哲学家罗吉尔·培根都以拥有自己的青铜头颅而
被人熟知。这些神话故事得到大量传播,同时也引起了一些人的质疑。就像人工智能历史学家帕梅拉·麦克杜克所写的那样,“会说话的青铜头颅与知识丰富的学
者之间的关系,就像猫与女巫的关系一样。”
对青铜头颅最早的文字记述可能是由12世纪英国马姆斯伯里的历史学家威廉
所写成的。在《英国国王编年史》一书中,他描述了一个青铜头颅的制作过
程。“他出于自己的目的,铸造了一个雕塑的头颅……这个头颅只在有人对他讲话
时才回话,不过他会马上道出真相,不管是对或错,它都直言不讳。”在13世纪,人们赞誉马格纳斯的青铜头颅像一位美丽的女士。但马格纳斯的学生托马斯·阿奎
纳明显觉得它很不顺眼,所以在马格纳斯死后就把它烧毁了。一个心怀恐惧的人
摧毁了有对话能力的人工智能生命体的寓言故事就这样流传下来了。
另一个故事的主角是哲学家勒内·笛卡儿,他在1649年陪着皇后到了瑞典。在
航行过程中,笛卡儿可能告诉了其他旅客,他在带着女儿佛朗辛旅行。但是大家
从未见到他的女儿现身,因此产生了怀疑,于是跑去他的座位看。他们发现了一
个盒子,打开这个盒子,他们发现里面有一个已经造好的笛卡儿的机械人偶。让
他们大吃一惊的是,这个人偶会动还会说话。旅客们把这个人偶拿给船长看,船
长担心它会带来恶劣的天气,就令人把它丢到船外了。
这种会动会说的人偶虽然名声不好,但并未阻挡17世纪的人们对它产生好奇
感。在这个时候,人们开始创造世界上最早的机器人——一个精巧的全机械仿生
装置,被称为自动人偶。一个名叫托马斯·阿尔松的英国人展示了一个令人印象深
刻的装置。他的这个作品形式上是个木制的人偶,如果你朝着它的耳朵低声问
话,它就会回复你。其实,这个人偶就是由一个原始的云计算模型来驱动的。一
根隐蔽起来的长管子把这个人偶和一间房子连了起来,房间中藏着一位博学的教
士,他偷听到了人们问的问题,并给出答案。
到了18世纪,在来自匈牙利的发明家沃尔夫冈·冯·肯佩伦的帮助下,语音合
成朝着成为实实在在的具体技术迈出了第一步。肯佩伦因为一件创造物而声名远
扬——这就是一个叫特克的装置。这个装置有点神秘,它在一张桌子后面,下象
棋能够战胜人类玩家。肯佩伦带着特克在世界各地旅行,特克打败了包括本杰明·
富兰克林和拿破仑·波拿巴在内的挑战者们,赢得了众人的喝彩。这个特克当然是
个骗人的装置。在桌子下的柜子里藏着一位侏儒症患者,他偷偷控制着棋子的移动。这个人坐在一个滑行平台上,当肯佩伦打开门给人们展示柜子的这一半空间
时,他就滑到另一边躲起来。
但肯佩伦不仅是一个魔术师,他还用自己的才能帮助残障人士。他为虚弱的
人设计了活动床,为盲人设计了打字机。从1769年开始,他投入到一个项目中,一干就是20多年。他对后来聊天机器人的发明产生了深刻影响,他希望它能帮助
哑人发声。
在人们对讲话发音的原理并不了解的年代,肯佩伦作为一名先行者,投入了
20年的漫长时间来研究人的语音——从开口音a到摩擦音z——对人类如何发音进
行了理论化的阐述。语音装置就体现了他的这些思想。肯佩伦用一个风箱来代
替“肺脏”工作,通过一根管子鼓气,并让气流通过一个风笛的簧片,簧片的震动
就能模仿声带的震动。他用手把一个橡胶漏斗型的假嘴挤压成不同的形状,以发
出元音。先收缩关闭,再快速打开,这样就能模仿破擦音,如p和b。从模仿喉咙
的位置伸出的几根金属管子可以用翘板来操控,以发出s和sh这两个像嘶嘶声的
音,还有鼻音n和m。这个装置甚至还有一条机械舌头。
1783年,肯佩伦开始了一次为期两年的环欧洲旅行,以展示他的语音装置特
克,旅行全程就只有这个装置与他为伴。虽说被更有戏剧性的棋手抢了风头,但
他的语音装置还是因为能够发出人可以听明白的简短的单词和短语而给观看者留
下深刻的印象。肯佩伦的不幸之处在于,他所收获的任何赞誉都被来自批评家的
负面报道掩盖了,因为这些批评家发现特克只是一个假的装置,而不是一台真正
的智能的装置。虽然肯佩伦承认了这件事情,但他还是被视为一个骗子而非一位
科学家,这样的坏名声使他在语音合成方面的工作变得有些黯淡无光。1791年,也许是想让世界相信他对这件事情的诚意,肯佩伦出版了《人类语言的机理》一
书,这本500页的书详细介绍了他的研究工作和对语音装置的设计。肯佩伦在其
有生之年没有得到人们充分的肯定,但这部语音装置的确在他于1804年离世之后
产生了重要影响。他的研究启发了后代的研究者,在我们今天讨论智能语音的时
候,他的科研传奇还被人称颂。
在受到肯佩伦著作影响的人中,有一个名叫约瑟夫·法勃尔的修补匠。1841
年,他向巴伐利亚国王展示了自己制造的一台既有神韵,又有机械之巧的语音装
置。可是,当未能用这台装置获取更多利益之后,心浮气躁的法勃尔把它毁掉
了。1844年,在移民到美国之后,他又建造了语音装置的第二个版本,并在纽约进行了展示,那些听到过这台装置发声的人们都对此留下了深刻的印象。可是法
勃尔并未得到任何资金支持以进一步深化自己的研究,所以他又一次毁坏了这台
能发声的装置,当时的一本杂志把他的这个举止描述为“突然发飙”。
1845年,法勃尔以前所未有的精巧程度再次“复活”了自己的语音装置。他用
风箱当作“肺脏”,催动空气流经哨子、簧片和震动着的共鸣器,气流调节器和入
口又对声音进行了进一步加工。法勃尔把这台装置放在一张华丽的桌子上,他像
弹钢琴一样来操作这台装置。他通过敲击17个按键来控制声音的音域,这些按键
都被标上了当被按下时能让机器发出的声音,如a、e、o或l。他在这台装置对着
听众的这一面放了一张女子的面具,还顶了一头打卷的假发。法勃尔有时还会为
它穿上衣服以营造戏剧性的效果,当它说话时,他还会用撬板让它的塑料嘴唇一
张一合地动起来。
约瑟夫·亨利是一位杰出的科学家,也是史密森尼学会的首任会长,他对法勃
尔的作品称赞不已。他在一封信中声称,“这台装置能够讲出完整的句子。”亨利
感兴趣的是,能不能对这台装置进行改进,使其能够把通过电报线路传输的电子
脉冲转化为语音。作为一名忠诚的长老会教徒,亨利也在幻想,牧师们能不能用
这项技术把他们布道的声音同时传播到多个教堂。
与肯佩伦曾经的遭遇类似,法勃尔也没能用这台装置赢得财富和尊荣。
正如一位名叫约翰·霍林斯赫德的伦敦剧院经理在参观了这位发明家的工作 ......
您现在查看是摘要介绍页, 详见PDF附件(1741KB,233页)。





