当前位置: 首页 > 期刊 > 《中国中医药图书情报》 > 20146
编号:13657261
古籍数字化过程中汉字处理对策研究(1)
http://www.100md.com 2014年12月1日 《中国中医药图书情报》 20146
     摘要:古籍数字化是解决古籍保护与利用之间矛盾的有效手段。本文概述了国内外古籍数字化过程中汉字字库的研究情况,并以庐陵文化古籍文献数字化实践为基础,从输入法的选择、偏僻字的录入技巧、自造古字等方面,探讨图书馆在古籍数字化过程中面临的汉字字库不足问题所采取的应对策略,并提出汉字处理过程中需注意的若干问题,以期对从事古籍数字化的同仁有所启发和帮助。

    关键词:图书馆;古籍数字化;汉字处理;对策研究

    古籍数字化是加快古籍流通,有效保护古籍的重要手段。中文古籍数字化肇始于1978年,美国人P·J·Ivanhoe使用电子计算机编制了《戴震孟子字义疏证索引》《王阳明大学问索引》《王阳明传习录索引》《朱熹中庸章句索引》《朱熹大学章句索引》机读目录。目前在美国,由北美36家图书馆组成的美国图书馆研究学会,拥有25000条数据的数据库做到了馆际资源共享,并还在不断地扩充完善中。哈佛燕京图书馆拥有的“线装古籍计算机检索系统”中的1000余种家谱的资料,目前已经编目完成。在英国,大量中国珍贵文献和古籍收藏在大英图书馆,大英图书馆开发的“古版书简明标题目录”是当前全球古籍文献数据库最大的联机数据库。以上这些成果为我国古籍数字化建设提供了宝贵的经验。
, 百拇医药
    据2010年不完全统计,我国大陆地区有179家单位从事古籍数字化,形成各类数据库(包括各种古籍书目数据库、古籍全文数据库等)415个,许多数据库的字数都在l亿以上。较权威的统计表明,2012年我国公藏机构已经拥有超过20亿字的数字化文本格式的古籍。一些己成规模的大型古籍数据库还在原有基础上不断拓展和完善。

    中国大陆地区开始中文古籍数字化工作以来,制约古籍数字化进程的主要问题是汉字字库问题。业界就这一问题进行了深入的研究和探讨。

    1、国内外古籍数字化过程中对汉字字库问题的研究概况

    1.1 汉字字库的研究情况

    我国从20世纪50年代就开始了计算机中文信息处理的理论和技术的研究,自20世纪70年代中期开始,我国逐渐加快在计算机中文信息处理方面的发展步伐,在汉字键盘输入技术、汉字输出技术、汉字编码技术、汉字储存、检索和识别、电子照排、中文平台等多方面取得了一系列重大成就。陆续开发的汉字键盘输入方法,解决了汉字进入计算机的难题;汉字输出实现了多字体、多字号;汉字字库的制作也由点阵字库、矢量字库逐步过渡到曲线轮廓字库;汉字自动识别技术达到国际先进水平,并有商品投入市场;ISO/IEc 10646的CJK字符集,由早期的20 902个CJK统一汉字逐步扩充,扩充集A和扩充集B已经完成,现在正讨论扩充集c1。待扩充集c1完成后,中日韩编码汉字已经7万多。这些成就,促进了中国计算机的普及,为发展计算机应用技术和信息化创造了基本条件。
, http://www.100md.com
    1.2 汉字字库的不足

    中国古籍数字化经过近30年的努力,汉字字库得到了飞速发展,并开发出了超大字符集字库。在汉字信息化标准制定方面,国内外相继制定了多个汉字编码标准。最新的GB 18030-2005标准可以涵盖70 244个汉字。然而,古籍中的汉字大约有10万多个,GB 18030-2005的字库还是远没有覆盖所有汉字。因此,在古籍数字化时依然会碰到不少缺字现象,补字工作不可避免。汉字字库的不足是影响古籍数字化质量及进程的主要问题之一。

    2、我馆古籍数字化过程中应对汉字字库问题的策略

    井冈山大学地处素称“江南望郡”、“金庐陵”、“文章节义之邦”的吉安,一直以来注重庐陵文化相关文献资料的购买和收藏,为充分挖掘庐陵文化的精髓和内涵,又组织力量对相关的馆藏资源进行数字化加工,建成了特色数据库,为研究者提供了更快捷、更丰富、更深层次的服务。
, http://www.100md.com
    所谓庐陵文化,主要是指读书人多,建功立德者多,文教设施多,发表著述多等等。在数字化庐陵文化名人的古籍作品时,比如在《欧阳修文萃》的数字化过程中,尽管安装了超大字符集字库,对计算机也作了相应的设置,但还是碰到不少问题。故笔者将三年来数字化庐陵古籍文献中的实践经验进行总结,希望对从事古籍数字化的同仁有所启发和帮助,以期更多的古籍文化得以展示和传承。

    2.1 选择合适的输入法

    在古籍数字化过程中,安装大的汉字字体库,能解决大部分汉字的输入与显示问题。目前比较成熟的输入法有很多,但任何一种输入法都难以囊括字体库中的所有汉字。因此,对输入法的选择至关重要。合适的输入法,不但决定了汉字的输出能力,更影响着古籍数字化的效率。

    笔者建议选择“极点五笔”输入法,其一,此输入法既可单独进行“五笔字形、拼音输入法”的选择,也可选择“五笔拼音输入法”,在这种输入状态下,对于那些目前还不能通过五笔输出的汉字,可直接输入该字的拼音进行输出,省去了在五笔和拼音之间来回切换的操作;其二,该输入法的繁简切换非常直观、明了、方便,对于那些不是很熟悉的繁体字,通过输入其简体字就能显示对应的繁体字,这样建库人员能很快地确定其正误。比如“萧”和“齑”,不仔细区别感觉像是同一个字,但实际上它们分别是“斋”和“齐”的繁体字。
, 百拇医药
    2.2 偏僻字的录入技巧

    目前汉字字库中有大量的生僻字,无法通过五笔输入法输出,需通过拼音输入法才能输出,此时可在Word中输入与生僻字偏旁和笔画相近的字,并选定该字,点击右键,在弹出菜单中选择“符号”,便很快能找到所需文字,双击该字,即可直接输入到Word中,这样建库人员在不知道其读音的情况下,也能很快地输入该字,从而提高古籍数字化的进程。

    2.3 自造古字

    目前在古籍文献数字化处理的过程中,通用于业界的Uni code字符集具有近7万字的容量,但在古籍数据库建设中还是不够用。因此,我们使用微软操作系统自带的“TrueType”造字程序进行造字,避免数据库中使用符号或说明性文字代替目前输入法无法正常输出的文字现象。, http://www.100md.com(李玖蔚)
1 2下一页