合成语音_____感知学习；模型；合成语音

合成语音感知学习模型的建立和效应验证

http://www.100md.com 《第四军医大学学报》 2006年第4期

     Perceptual learning of synthetic speech sound: Model building and verification

    WANG LiFeng, LIAO QiMei, MIAO DanMin

    1Department of Psychology, School of Aerospace Medicine, 2Department of Computer Science, School of Biomedical Engineering, 3Department of Biochemistry and Molecular Biology, School of Basic Medicine, Fourth Military Medical University, Xian 710033, China

    【Abstract】 AIM: To build a model of synthetic speech sound learning and to verify its effectiveness. METHODS: The perceptual learning model was programmed and applied in 29 college students, who were randomly divided into 4 groups (6 students in group 1 and 2 respectively, 7 in group 3 and 10 in group 4). Paired ttest and ANOVE were utilized to verify its effectiveness. RESULTS: The model was employed in 4 kinds of experimental procedures. The average performance of all groups was markedly improved from (11.76±0.87)% before learning to (20.69±1.59)% after learning (P<0.01). Of the 4 groups, the programoptimized group achieved the most remarkable learning effect, improved by an average of (14.10±2.52)%(P<0.001). CONCLUSION: A good learning effect is observed in our model, which presents generalization rather than rote memorization. The model lays a basis for indepth research in the field of more complex cognitive activities.

    【Keywords】 perceptual learning; model; synthetic speech sound

    【摘要】目的：建立合成语音的感知学习模型并验证该模型的学习效应. 方法：编写合成语音感知学习模型的计算机程序，并在29名大学本科生中应用该程序模型. 将被试学员随机分为4组：组1(n=6),组2(n=6)，组3(n=7),组4(n=10). 采用配对t检验和方差分析验证该模型的学习效应. 结果：依照4种不同的实验模式实施该模型，各组平均得分由学习前的(11.76±0.87)%提高到学习后的(20.69±1.59)%，且具有显著性差异(P<0.01). 其中程序模型改良组的学习效果最为显著，成绩平均提高了(14.10±2.52)%(P<0.001). 结论：本研究所建立的英语合成语音感知学习模型有良好的学习效应，学习的过程体现出了人的概括和泛化能力. 该模型为深入研究比较复杂的认知活动奠定了基础.

    【关键词】感知学习；模型；合成语音

    0引言

    针对感知学习的研究模型有许多种，其中绝大多数是针对记忆的，包括研究程序性记忆的运动技能学习[1]，研究知觉表征系统的视觉[2]或听觉[3]辨别任务等. 在合成发音的感知学习过程中，人们对于不同字符组合发音规律的学习和掌握反映除记忆之外的其他学习技能，其模型为人们深入研究学习的生理心理机制提供了帮助[4]. 本研究旨在尝试建立基于英语语音的感知学习模型，并以中国青年为被试验证该模型的学习效应.

     1对象和方法

    1.1对象

    29名健康男性大学生，年龄19～21 (平均20.7)岁. 裸眼视力或矫正视力正常，听力正常，均已通过英语四级考试，右利手，熟悉计算机键盘操作，从未参加过类似实验. 全部被试根据所采用的程序和词汇列表随机分为4组. 组1和组2各6人，组3为7人，组4为10人. 模型中采用的单词为辅元辅结构的单音节英文词(如bad, tap等)，词汇的选取来源于各个英语音素分布均匀的语音均衡表[5]. 单词的发音由程序合成，在PⅢ计算机上运行并测试，语音通过Yong Wei耳机(YW810MV)播放.

    1.2方法

    模型设计了两个略有差别的程序(A和B). 程序A与B均包含测试、练习(多组)和再测试三个阶段，练习包括学习和复习两个环节，程序B练习的学习环节单词的发音能够点击重听. 程序A有两个版本的词汇列表(L1和L2)，程序B仅有一个版本的词汇列表(L2)，L1完全来源于Fenn等[4]的设计，L2是范围限制在四级词汇之内的语音均衡词汇. 具体程序为： ① 测试阶段包含100个单词，要求被试在听到单词的(合成)发音后在计算机上键入与之对应的拼写，每个单词的发音只出现1次，而且不会重复，单词之间间隔10 s. ② 练习包括两个单元，每单元两组或者三组，每组50个单词. 每组间被试休息2 min，单元间休息10 min. 每组被试先学习，即在听到每个单词的发音后随即看到与之对应的拼写(程序A中每个单词的发音只呈现1次，而程序B中，被试在同样的时间间隔内能通过点击操作重复听到当前单词的发音). 50个单词之后，被试可以进行复习. 复习时，被试在听到发音之后，有6 s时间可以将单词键入空栏，并在随后看到该单词的正确拼写. 在整个学习的过程中，被试所听到单词没有重复，也不与测试及再测试中的单词重复. ③ 再测试与测试的形式与要求相同，单词不与测试及练习中的单词重复. 组1采用程序A和词汇列表L1，完成6组练习；组2采用程序A和词汇列表L1，完成4组练习；组3采用程序A和词汇列表L2，完成6组练习；组4采用程序B和词汇列表L2，完成6组练习.

    统计学处理：统计学分析用SPSS10.0统计分析软件包，结果采用(x±Sx)表示. 统计方法采用配对t检验，单因素方差分析和协方差分析. P<0.05表示有显著性差异.

     2结果

    2.1英语合成语音感知学习模型的学习效应所有被试在测试时语音识别的平均得分(11.76±0.87)%，练习后，绝大部分被试的正确率都有所提高，平均提高(8.93±1.25)% (t=7.125, P<0.001)(图1).

    尽管组1和组2所使用的词汇列表与组3和组4不同，但是，各组被试在测试时反映出来的正确率却未见显著差异(F(3,25)=1.322, p=0.29). 组1在学习阶段完全采用了文献所报道的实验方法，经过6组共300个单词的学习后，语音识别的正确率由测试的(13.00±2.03)%提高到学习后再测试的(20.50±2.38)%，平均提高(7.50±2.00)% (t=3.758, p=0.013). 与之相比较，组2平均提高(5.00±1.91)% (t=2.611, p=0.048). 组3学习后正确率平均提高(6.14±1.12)% (t=5.476, p=0.002)(图2).

    2.2学习形式影响语音感知学习的效果基于组1, 2, 3的实验结果，我们发现，通过练习或者学习，被试的成绩尽管有显著的提高，但是提高幅度不是很理想(平均约6.21%). 为了防止实验过程中有可能出现的“地板效应”，我们通过问卷调查的形式，总结出了一些可以促进学习效果的方法，并且将它们以可执行的操作方式加入了改良后的程序B. 在使用程序B的组 4中，我们发现该组被试的正确率由学习前的(13.40±1.63)%提高到了学习后的(27.50±3.13)%(图2)，平均提高(14.10±2.51)% (t=5.618, p=0.0003). 而各个组之间以测试正确率为协变量(总均数为11.76)比较的协方差分析也表明，组4成绩的提高与组1, 2, 3相比较均有显著差异，同时组1, 2, 3成绩的提高之间则未见有显著差异(表1).表1各组所提高成绩的比较和协方差分析(略)

     3讨论

    针对感知学习的研究在揭示人类的学习、记忆等高级认知活动的生理和心理机制方面有着极为重要的作用[5-6]. 感知学习的研究模型有很多种，主要集中在视觉[2, 7, 8]、听觉[9-10]和运动[1, 11]三大领域. 这些模型大多数都是只针对视觉或者听觉的刺激信息来做出的识别、记忆或者辨别反应. 然而，除了记忆之外，学习的过程中还有更复杂的感知活动参与. 语音学习时，由于在不同的字符(音素)组合中，相同的发音单元(字符)常会因为其前后所连接字符的不同而表现出不同的发音，而不同的发音单元(字符)也会由于其前后所连接字符而表现出相同的发音. 因而，对于语音发音规律的学习和掌握就不是单凭记忆不同音素的发音模式可以完成的. 它还需要记忆之外的概括和泛化能力[4]. 语音学习任务为人们进一步深入的研究感知学习提供了非常有意义的模型.

    人工合成的英语发音非常难于识别，即使在母语是英语的被试中，初次识别的成功率也只有33%左右[4]. 这主要是因为机械的发音模式与人类自然的语音发音有明显的区别，人们在对合成发音初次感知时，很容易产生错误的知觉. 不过，有研究表明，一段时间的规律学习能使得对合成发音识别的正确率提高平均约45%，而即使只是短期的一次性集中学习，正确率也能提高平均约20%[4]. 本研究尝试了以中国青年为被试的合成英语语音感知学习模型. 由于英语不是母语，而且人工合成发音本身难于识别，因此，在整个实验过程中，被试对语音识别的正确率普遍都比较低(测试时平均约11.76%). 尽管如此，学习或者说练习能够有效的提高被试的成绩(练习后提高了平均约8.93%). 由于被试听到的单词不重复，在识别单词的发音时，成绩的提高就完全有赖于对一过性的发音和拼写进行高度的概括和泛化，并把获得的规律应用到新单词中去，以此来适应新的测试内容. 从影响感知学习效果的因素方面考虑，我们认为词汇的难易程度、练习量以及学习的方式都是比较重要的影响因素. 本研究中，我们发现优化后的学习程序使被试正确率的提高达到了平均约14%, 与Fenn等[4]所得到的数据接近，可以说是较为显著的提高了学习的效果. 我们由此认为，学习方式对感知学习的效果有显著影响. 选择不同的词汇列表以及调整练习的数量并未在不同的被试分组之间得出差异显著的结论，考虑到本研究所涉及的被试数量较少，我们正在尝试扩大被试数目以及对词汇的难易程度和练习量进一步的分级，以期能够更好的对上述各因素做出解释.

     【参考文献】

    [1] Fischer S, Hallschmid M, Elsner AL, et al. Sleep forms memory for finger skills [J]. Proc Natl Acad Sci, 2002,99:11987-11991.

    [2] Karni A, Sagi D. Where practice makes perfect in texture discrimination: Evidence for primary visual cortex plasticity [J]. Proc Natl Acad Sci USA, 1991,88:4966-4970.

    [3] Gaab N, Paetzold M, Becker M, et al. The influence of sleep on auditory learning: A behavioral study [J]. Neuroreport, 2004,15:731-734.

    [4] Fenn KM, Nusbaum HC, Margoliash D. Consolidation during sleep of perceptual learning of spoken language [J]. Nature, 2003,425:614-616.

    [5] Egan JP. Articulation testing methods [J]. Laryngoscope, 1948,58:955-991.

    [6] Walker MP, Stickgold R. Sleep, Memory, and Plasticity [J]. Annu Rev Psychol, 2005, [Epub ahead of print]

    [7] Hauptmann B, Karni A. From primed to learn: The saturation of repetition priming and the induction of long-term memory [J]. Brain Res Cogn Brain Res, 2002,13:313-322.

    [8] Maquet P, Laureys S, Peigneux P, et al. Experience-dependent changes in cerebral activation during human sleep [J]. Nat Neurosci, 2000,3:831-836.

    [9] Atienza M, Cantero JL, Stickgold R. Posttraining sleep enhances automaticity in perceptual discrimination [J]. J Cogn Neurosci, 2004,16:53-64.

    [10] Roth DA, Kishon-Rabin L, Hildesheimer M, et al. A latent consolidation phase in auditory identification learning: Time in the awake state is sufficient [J]. Learn Mem, 2005,12:159-164.

    [11] Walker MP, Brakefield T, Morgan A, et al. Practice with sleep makes perfect: Sleep-dependent motor skill learning [J]. Neuron, 2002,35:205-211.

    通讯作者：苗丹民. Tel: (029)84774814Email: psych@fmmu.edu.cn

    作者简介：王立锋. 硕士生(导师苗丹民). Tel: (029)84774816Email: philipstd@hotmail.com

    (第四军医大学： 1航空航天医学系心理学教研室， 2生物医学工程系计算机应用教研室， 3基础部生物化学与分子生物学教研室，陕西西安 710033)

    编辑杨湘华

    收稿日期：20051117, 百拇医药(王立锋，廖琪梅，苗丹民)

百拇医药网 http://www.100md.com/html/DirDu/2006/04/12/96/34/34.htm