恐龙的灭绝 6000 多万年后,专家赢得了一块有史前时代蚊子琥铂,从蚊子血中赢得了霸王龙基因,从而使遥不可及的微生物复生。讲这个整个故事《侏罗纪公园》,至今仍然位居全球电影票房前十。该系列整个故事基本原理非常简单:DNA 储存了霸王龙的生物信息,高新科技使它再次表述。
如今,用 DNA 想像另一个小故事:在宇宙空间长河中,「人们新世纪」也寂灭了。另外一种智慧生物发生,TA 们去研究远古传说的「人类发展史」。有什么会承重人类发展史的回忆?温度变异,地球上巨大大数据中心独留遗址。
而冻土层中有一份 DNA,它很轻,仅有 1 KG,看上去是一些被装封在胶襄中的白色晶体。读取后,里边却记录了地球上的曾经有的大量信息。短视频、文本、编码彰显了人们历程里的成千上万创造发明和文艺创作。因此那一个漫长文明行为痕迹在宇宙中间再度进行。
这是另一个科幻片设定了。其背后的技术性恰好是现阶段被关注的一个最前沿方位:DNA 储存信息。在大自然里,DNA 承担储存基因遗传信息。单独组织细胞的平均直径是 5 到 200 μm,这里面的 DNA 能够包括一个人所有的基因遗传信息:30 亿对碱基。
那为什么不能用碱基储存其他信息?这一科幻片一样的构想,已经离开试验室,被当成信息储存未来的发展计划方案。
01 基因数据信息太多,该怎么办?
原来是科学家想处理分子生物学持续发展的难题。
11 年以前,一群微生物信息学者在德国的一家酒店里探讨「数据储存难题」。Nick Goldman 也在其中,那是他在美国微生物信息所(EBI)出任高端科学家的第二年。
大规模基因组测序正在进行中,随着所产生的数据规模持续增长。储存、缩小这些信息就是一个烦心事,已有的技术规范看上去不咋地。据估计:基因组必须达到 2-40EB 的存储量。这也许超出一个国际级科技有限公司的云储存量——全球苹果手机用户储存在谷歌云里的数据信息总产量约是 8 EB。这 8EB 数据信息,每月储存费必须 2.18 亿美金。(1EB= 102^3GB)
科学家们陷入消沉。
Nick Goldman 手里拿着储存了沙士比亚全部十四行诗、一张照片和「我有一个梦想」演说精彩片段的 DNA| 由来:EBI
有些人灵光乍现:是啥东西拦截了我们要用 DNA 来储数据信息呢?
看上去是一句开玩笑的话,可是科学家们意识到这不仅仅是个玩笑话,她们拿出手头的纸巾,用圆珠笔芯用心测算起可行性分析。
DNA 储存基因遗传信息的基本原理不复杂,它是由四种核苷酸 A、T、G、C 构成,彼此之间两组相匹配,构成双螺旋结构。核苷酸的编码序列,展示了基因遗传信息。
在数字世界,每一个信息实质上是 0 和 1 构成的信息串。要想 DNA 储存数据信息,简易了解,原就是把 0 和 1 的开放阅读框转化成核苷酸的编码序列。DNA 储存的优势是密度高,大概在你面前分号那么尺寸,1 立方毫米的 DNA,就能容下 9TB(1TB=1024GB)的信息。
用 DNA 存储数据,也并不一定是新的念头,之前就有专家试过。但是归属于科学和艺术的先峰跨界营销试验。
1988 年,艺术大师 Joe Davis 和美国哈佛大学的研究者,将一副名叫「小维娜斯」(Micro Venus)的花纹储存到 DNA 挎包中。
储存进 DNA 这个小维娜斯(microvenus)照片 由来:有关毕业论文
这一图案设计编号简单,纯白色的地区标识为 0、灰黑色线条一部分标识为 1,图片大小仅有 35bits,使用了 28 个核苷酸的长度 DNA 传动链条来储存。
在那一次酒店餐厅讨论的 2 年以后,2013 年,Goldman 精英团队发布了科研成果。此次,她们储存了 5 种不同格式文件,一共有 0.75MB。为了保证信息读取不出错,专家储存时,每一份信息依照四倍多余的使用量来储存。
五个文档各是:
154 首莎士比亚的 14 行诗(ASCII 编号格式)
明确提出 DNA 双螺旋结构的论文(PDF 版)
一张照片(JPEG 格式)
乔治· 路德金「我有一个梦想」演说在其中 26 秒精彩片段(MP3 格式)
一串费舍登陆密码
这么多年,DNA 存储量的发布逐渐被提升。2019 年,国外一家初创公司 Catalog 在 DNA 中存放了 16GB 的wiki百科。这个公司表达自己已经基本建设世界上第一个根据 DNA 大规模的数据数据储存和计算平台。
02 编码和解码,需要处理的事情很多
在一些科学家来看,用 DNA 来储存是一件非常「丝滑」事情。「大自然编号语言表达十分类似大家在计算机相关所使用的二进制语言表达。在电脑硬盘上我们应用 0 和 1 来意味着数据信息,而 DNA 中,大家有着 4 种方式的核苷酸,A、C、T 和 G」。在瑞士联邦理工大学的科学家 Robert Grass 说。
DNA 储存的关键所在之一是用四个核苷酸去投射 0 和 1 两个数字。计划方案能够非常简单。例如:A 相匹配 00,C 相匹配 01,G 相匹配 10,T 相匹配 11。然后依照所需的核苷酸编码序列,像珠串一样,把核苷酸们连接成一串。(这便是 DNA 合成)必须读取信息时,再应用基因测序技术,把那一串核苷酸编码序列读取出去,再译成 0 和 1 的字符串数组。这种步骤便是编号—DNA 合成—测序—编解码。
这一听上去是「把小象放进电冰箱」流程,使用起来必须考虑的还有一些。要不然专家就不必一直科学研究一个新的编码方案了。
在大自然存有的 DNA 中,A 和 T,C 与 G 两组匹配,在一条 DNA 中,CG 与 AT 的出现占比基本上匀称,为 50% 上下。假如 C 和 G 含量太高,可能会使 DNA 链产生一些繁杂的物理性质。这就会使 DNA 测序(编解码)变得复杂。
DNA 储存的流程| 由来:DNA Data Storage Alliance
并且在「珠串」(其实就是合成 DNA 传动链条)的过程当中,差错率难以避免。现阶段大概每合成 100 个碱基就容易出现一个错误。它是由现阶段的有机化学合成技术性所带来的短板,每合成一个碱基,有 99.9% 以上准确率。但当碱基串拉长,0.01% 的几率乘积,不正确就在所难免。现阶段人力合成 DNA 的多肽链长度一般不超过 100 个碱基,极限值在 300 个碱基上下。但在大自然的 DNA 动则有几千个碱基对。
换句话说,尽管 DNA 的储存能力强,但是它们迫不得已以许多条挎包的形式存有。倘若储存的信息量非常大,这种 DNA 挎包如同一本散称的书籍。它能够储存许多信息,表现形态则是一张张标着页数的纸。自然,能将一条条 DNA 挎包拼凑发展链。这也就意味着增强了一道工艺流程。在测序的过程当中,又需要将长链切断成挎包。主要是因为现阶段技术性没法一次性读取长链。
在测序的过程当中,也存在着差错率。虽然现阶段的差错率早已低到 10^-3 量级,相比商业服务电脑硬盘的读写能力差错率,仍相距最少 9 个量级。
准确率遭受合成和测序这两项科技的危害,专家想起设计方案编码方案来预防:在编号中加入纠错机制。那样,就算碱基合成和测序中出现了不正确,依然能够确保被储存进 DNA 内容能被恰当读取出去。
03 摆脱试验室,还要考虑到速度与成本费
DNA 储存也在试着摆脱试验室。
2020 年 10 月,微软公司、西数和高通量测序大佬 Illumina、DNA 合成新成立公司 Twist Bioscience 等联合成立了 DNA 数据储存同盟。
这也是世界上第一个这一领域的学术和全产业链同盟。这一同盟期待制订技术以及格式规范,最后建立一个能够通用商业部门。
微软研究院在 2015 年就创立 DNA 储存的一个项目,并聘请了南加州大学的电子计算机科学与工程学院的副教授职称 Karin Strauss 出任高端顶尖科学研究主管(Senior Principal Research Manager)。
2013 年,她与同事去英国 EBI 浏览,了解到了 Goldman 和同事们有关 DNA 储存的探索,就给这个方向形成了非常大的热情。Strauss 说,「DNA 的相对密度、可靠性和成熟情况使我们激动。」
在他的实验中,想研发的是另一个作用:任意读取。比较常见的 DNA 测序技术中,一定要把所有的碱基串一次性读取完,才可以得到信息。要不不读取,要不全读。假如只想要信息中的某一个小片段,就会很不便。
2016 年,她们发布了一项科学研究,还可以在 DNA 早已储存的信息中搜索到指定图象,精准定位后,用酶来拷贝所需要的 DNA 精彩片段,随后仅需读取这一小段就可以。
Karin Strauss(右)和二位科学研究合作方|由来:csenews
想让 DNA 储存离商业更进一步,还要处理合成速度与成本费。如今合成平均速度是每秒钟储存上百个字节数(KB),完善的云储存计划方案已有每秒钟千兆字节(GB)之上。
这就意味着,撰写 DNA 速度还要提高 6 个量级。怎么让提高数据处理方法量?如同并行处理可以提升数据处理方法速率,专家期待 DNA 在合成时才能够并行处理好几条,与此同时解决。
2021 年,微软公司研发出第一个纳米 DNA 储存器,可以在每一个立方厘米的地区上,与此同时合成 25X106(2650)条碱基编码序列。这一新技术把原先与此同时合成碱基编码序列数字的从个位数提高到了百位数。这一货运量,让 DNA 合成速率成了每秒钟兆字节(MB)。
新方法让 DNA 合成的列阵总数大大增加|由来:微软研究院
更多的货运量,就意味着较低的成本费。如今 DNA 储存成本每万亿元字节数(TB)8 亿美金。而录音带存储成本早已降到了每万亿元字节数 16 美金下列。那样相比好像没什么竞争能力。但现实中的大型数据中心的维护费用非常高,还需要及时更新硬件配置;DNA 存取时间大、体型小、能够长期不发霉变质优点就会变成降维攻击。
因此量多、读取频率低的「冷数据」,被称之为 DNA 储存最近的应用领域。Twist Bioscience 最近在一份市场报告中强调,这种技术能够帮助科技企业在「大规模、低功耗」情况下更有效地部署。
另外一些乐观的科学家,更相信技术的进步。
自 2003 年人类基因组计划完成以来,测序成本降低了 200 万倍。2016 年时,面对每秒千字节的速度,Goldman 说,「(读写的速度提升)6 个数量级对基因组学来说没什么大不了的。你只需要再等一会儿。」
那这「一会儿」是多久呢?这个领域似乎到了临门一脚,仍在等待突破。