从数字图书到DNA图书(1)
联合国教科文组织对图书的定义是:凡由出版社(商)出版的不包括封面和封底在内49页以上的印刷品,具有特定的书名和著者名,编有国际标准书号,有定价并取得版权保护的出版物。
然而,图书的内涵是,它是信息和知识的载体。因为图书是人类用来记录一切成就的主要工具,也是人类交流感情,取得知识,传承经验的重要媒介。从形式上看,图书经历了石书、龟甲书、竹简书、布书(养蚕业与织布提供了布料)、纸书(蔡伦发明纸之后)和数字图书的历程。不过,现在一种新的图书——DNA(脱氧核糖核酸)图书已经进入人们的生活。
信息技术和生物技术结合的图书
DNA图书是数字(信息)技术与生物遗传技术结合的新结晶。
数字图书是用数字技术处理和存储各种文字、图片和音频的图书。数字图书是当今最先进的图书,是由数字技术编辑加工而成。数字技术的本质是电子计算机和网络信息技术,借助这些技术和设备可以将各种信息,包括图、文、声、像等转化为电子计算机能识别的二进制数字0和1,再进行加工、制作、存储、传送、传播、还原和出版。
在加工、存储和出版等环节中要借助计算机对信息进行编码、压缩、解码等,因此称为数码技术、计算机数字技术、数字控制技术等。依靠这些技术出版的图书称为数字图书。
DNA是包括人在内的高级生物的细胞的细胞核,其蕴藏的遗传信息不仅是海量的,而且也是有序的。这种有序就是其中的4个碱基的互补排序。DNA的稳定双螺旋结构是由4种不同的碱基来支撑的。它们英文名称的首字母分别称之为A(腺嘌呤)、T(胸腺嘧啶)、G(鸟嘌呤)和C(胞嘧啶)。
根据DNA的这种稳定搭配,研究人员设想,可以把数字技术与生物技术结合起来,编撰一种全新的图书——DNA图书。编撰DNA图书的可行性在于,可以利用计算机的二进制数字0和1与4种碱基进行转化编码、编程,把数字图书所编码的所有文字、图像、符号等再编码到DNA中,制作成DNA图书。在阅读时,再利用DNA测序技术把DNA密码还原为数字编码,就可以解码和阅读。
当然,DNA图书最吸引人的还是它与传统图书和数字图书相比的巨大优势。它的蕴藏量是无限的,其体积更小,远比光盘、U盘、硬盘更小,而且信息可以长久地在DNA中保存。根据DNA的半衰期,如果在零下5摄氏度的理想条件下保存,DNA的4个碱基可以保存680万年。这也意味着,制成的DNA图书至少可以保存上百万年。
比较起来,数字图书保存信息的弱点之一是存储时间较短。目前数字信息的载体都是磁盘(软盘、硬盘)和光盘。虽然数字生产厂商号称硬盘保存信息、数据的寿命不低于10万小时,但这只是理论值,在实际使用过程中,有许多因素会缩短这个时间。一般而言,硬盘保存信息比较保险的时限是3~5年,读写频繁的硬盘保存信息时间3年多一点,负荷不重的硬盘保存信息时间5年左右。光盘据说可以保存信息100年,但也是理论值。保险的做法是,10年左右要把光盘拿出来读一读,如果发现读取困难时,要及时翻刻一次。
同时,因特网上的信息储存更有时限。数字信息容易创建,也容易修改、删除,并消失。目前网上有超过40亿个公共网页,平均每天还有700多万新的网页出现,但是,网页的平均寿命为44天。所以,DNA图书在保存信息和数据上具有空间大、保存时间长的更大优势。
第一本DNA图书《再生》
美国哈佛大学维斯生物工程研究所的乔治·丘奇等人在2012年9月28日的美国《科学》杂志上发表文章称,他们成功地编撰出一本5.27兆比特的DNA图书,这本书不仅有文字,还有图,是图文并茂的DNA图书,书名叫作《再生》。这本书有5.34万个单词,还有11张JPG格式的图片和一段Java Script程序(Java Script又称爪哇脚本,是一种程序设计语言,即依据一定的格式编写的可执行文件,又称作宏或批处理文件)。
DNA图书编撰的原理是,把需要编撰的内容先转化为数字信息(电子文件),然后把数字信息按DNA的碱基顺序编码并合成,读取时再用DNA测序仪按编码规则将DNA图书转换解读为数字文件,就能在电脑上阅读和使用了。
根据这个原理,研究人员编撰了DNA图书《再生》后,再利用DNA测序仪来阅读这本书,内容可以成功地读出,这证明DNA能够被用来长期储存数字信息,也即可以用DNA来生产图书。这种新图书所储存的信息量是DNA原来储存的生物遗传信息量的1000多倍。也就是说,DNA图书不仅比传统的纸质图书储存的信息要多得多,也比DNA本身储存的遗传信息要多很多。
DNA图书的具体制作是,首先将《再生》这本书的文字内容和图片转化为HTML格式的文件,然后将这些文件编译为由0和1组成的大小为5.27兆比特的二进制序列。然后再用DNA的一个核苷酸(一个碱基)对应一个比特,把这个5.27兆比特的二进制序列按照顺序分配到多个96比特长的核苷酸片段中。
研究人员用的是短DNA序列而不是长DNA序列来编码数据,因为这可以降低写入和读取数据的困难和成本。在DNA上编码数据也相似于把数据储存到硬盘上,只不过在硬盘中数据是被写入被称作扇区的小硬盘块中。
用于编码和储存信息的DNA不过是一滴DNA液滴,当《再生》的全部信息(数据)和其他信息被编码到DNA之中后,DNA液滴被放置到微阵列芯片上储存。这些芯片在4摄氏度下保存3个月,然后溶解它们并测序,以便降低储存信息时的错误。每个核苷酸片段的每个拷贝被测序高达3000次,利用这种方式可以把这个5.27兆比特内容的书籍中的错误降低到只有12个。也即是说,存储在DNA中的内容能被准确无误地读取出来。
《再生》这本DNA图书的优势在于,它能长期存储信息,它的内容至少在1000年时间内也能够被读出。而且,由于DNA能储存更多信息,理论上计算,1克DNA即能储存上千亿个千兆字节,相当于1000亿张DVD光盘的内存。全世界一年的数码信息总量约为1.8ZB信息,可以被存储在约4克的DNA中(ZB是信息量单位,等于10的21次方,常见的GB是10的9次方)。纸质和磁盘存储信息是平面的,但DNA能折叠变化,即可以立体存储信息,存储密度非常高。当然,DNA图书也容易保存,因为DNA在室温下就非常稳定。 (林森)
然而,图书的内涵是,它是信息和知识的载体。因为图书是人类用来记录一切成就的主要工具,也是人类交流感情,取得知识,传承经验的重要媒介。从形式上看,图书经历了石书、龟甲书、竹简书、布书(养蚕业与织布提供了布料)、纸书(蔡伦发明纸之后)和数字图书的历程。不过,现在一种新的图书——DNA(脱氧核糖核酸)图书已经进入人们的生活。
信息技术和生物技术结合的图书
DNA图书是数字(信息)技术与生物遗传技术结合的新结晶。
数字图书是用数字技术处理和存储各种文字、图片和音频的图书。数字图书是当今最先进的图书,是由数字技术编辑加工而成。数字技术的本质是电子计算机和网络信息技术,借助这些技术和设备可以将各种信息,包括图、文、声、像等转化为电子计算机能识别的二进制数字0和1,再进行加工、制作、存储、传送、传播、还原和出版。
在加工、存储和出版等环节中要借助计算机对信息进行编码、压缩、解码等,因此称为数码技术、计算机数字技术、数字控制技术等。依靠这些技术出版的图书称为数字图书。
DNA是包括人在内的高级生物的细胞的细胞核,其蕴藏的遗传信息不仅是海量的,而且也是有序的。这种有序就是其中的4个碱基的互补排序。DNA的稳定双螺旋结构是由4种不同的碱基来支撑的。它们英文名称的首字母分别称之为A(腺嘌呤)、T(胸腺嘧啶)、G(鸟嘌呤)和C(胞嘧啶)。
根据DNA的这种稳定搭配,研究人员设想,可以把数字技术与生物技术结合起来,编撰一种全新的图书——DNA图书。编撰DNA图书的可行性在于,可以利用计算机的二进制数字0和1与4种碱基进行转化编码、编程,把数字图书所编码的所有文字、图像、符号等再编码到DNA中,制作成DNA图书。在阅读时,再利用DNA测序技术把DNA密码还原为数字编码,就可以解码和阅读。
当然,DNA图书最吸引人的还是它与传统图书和数字图书相比的巨大优势。它的蕴藏量是无限的,其体积更小,远比光盘、U盘、硬盘更小,而且信息可以长久地在DNA中保存。根据DNA的半衰期,如果在零下5摄氏度的理想条件下保存,DNA的4个碱基可以保存680万年。这也意味着,制成的DNA图书至少可以保存上百万年。
比较起来,数字图书保存信息的弱点之一是存储时间较短。目前数字信息的载体都是磁盘(软盘、硬盘)和光盘。虽然数字生产厂商号称硬盘保存信息、数据的寿命不低于10万小时,但这只是理论值,在实际使用过程中,有许多因素会缩短这个时间。一般而言,硬盘保存信息比较保险的时限是3~5年,读写频繁的硬盘保存信息时间3年多一点,负荷不重的硬盘保存信息时间5年左右。光盘据说可以保存信息100年,但也是理论值。保险的做法是,10年左右要把光盘拿出来读一读,如果发现读取困难时,要及时翻刻一次。
同时,因特网上的信息储存更有时限。数字信息容易创建,也容易修改、删除,并消失。目前网上有超过40亿个公共网页,平均每天还有700多万新的网页出现,但是,网页的平均寿命为44天。所以,DNA图书在保存信息和数据上具有空间大、保存时间长的更大优势。
第一本DNA图书《再生》
美国哈佛大学维斯生物工程研究所的乔治·丘奇等人在2012年9月28日的美国《科学》杂志上发表文章称,他们成功地编撰出一本5.27兆比特的DNA图书,这本书不仅有文字,还有图,是图文并茂的DNA图书,书名叫作《再生》。这本书有5.34万个单词,还有11张JPG格式的图片和一段Java Script程序(Java Script又称爪哇脚本,是一种程序设计语言,即依据一定的格式编写的可执行文件,又称作宏或批处理文件)。
DNA图书编撰的原理是,把需要编撰的内容先转化为数字信息(电子文件),然后把数字信息按DNA的碱基顺序编码并合成,读取时再用DNA测序仪按编码规则将DNA图书转换解读为数字文件,就能在电脑上阅读和使用了。
根据这个原理,研究人员编撰了DNA图书《再生》后,再利用DNA测序仪来阅读这本书,内容可以成功地读出,这证明DNA能够被用来长期储存数字信息,也即可以用DNA来生产图书。这种新图书所储存的信息量是DNA原来储存的生物遗传信息量的1000多倍。也就是说,DNA图书不仅比传统的纸质图书储存的信息要多得多,也比DNA本身储存的遗传信息要多很多。
DNA图书的具体制作是,首先将《再生》这本书的文字内容和图片转化为HTML格式的文件,然后将这些文件编译为由0和1组成的大小为5.27兆比特的二进制序列。然后再用DNA的一个核苷酸(一个碱基)对应一个比特,把这个5.27兆比特的二进制序列按照顺序分配到多个96比特长的核苷酸片段中。
研究人员用的是短DNA序列而不是长DNA序列来编码数据,因为这可以降低写入和读取数据的困难和成本。在DNA上编码数据也相似于把数据储存到硬盘上,只不过在硬盘中数据是被写入被称作扇区的小硬盘块中。
用于编码和储存信息的DNA不过是一滴DNA液滴,当《再生》的全部信息(数据)和其他信息被编码到DNA之中后,DNA液滴被放置到微阵列芯片上储存。这些芯片在4摄氏度下保存3个月,然后溶解它们并测序,以便降低储存信息时的错误。每个核苷酸片段的每个拷贝被测序高达3000次,利用这种方式可以把这个5.27兆比特内容的书籍中的错误降低到只有12个。也即是说,存储在DNA中的内容能被准确无误地读取出来。
《再生》这本DNA图书的优势在于,它能长期存储信息,它的内容至少在1000年时间内也能够被读出。而且,由于DNA能储存更多信息,理论上计算,1克DNA即能储存上千亿个千兆字节,相当于1000亿张DVD光盘的内存。全世界一年的数码信息总量约为1.8ZB信息,可以被存储在约4克的DNA中(ZB是信息量单位,等于10的21次方,常见的GB是10的9次方)。纸质和磁盘存储信息是平面的,但DNA能折叠变化,即可以立体存储信息,存储密度非常高。当然,DNA图书也容易保存,因为DNA在室温下就非常稳定。 (林森)