奥兰多Florin Rosu - Fotolia

关于DNA数据存储及其潜在用途的引物

DNA存储不仅仅是一个未来的概念,许多公司都积极参与其开发和推广。在数据归档中有一个主要的用例。

存储技术的历史一直是在更小的空间以更低的成本编码更多的信息。一旦信息存储数字化,人们的努力就集中在创造更小的磁性、光学和硅结构来编码少量信息。当技术继续在芯片或磁盘上压缩更多的比特时,在紧密缠绕的DNA双螺旋中编码数据有望达到更高的密度。

DNA上(非常)细微的印记

10个DNA碱基对的间距为3.4纳米长,直径为2纳米。根据美国国家人类基因组研究所(National Human Genome Research Institute)的说法,每一对碱基对都是两种核苷酸的组合:腺嘌呤(a)和胸腺嘧啶(T),或者胞嘧啶(C)和鸟嘌呤(G)。如果每一对代表一个位,例如AT或TA为零,CG或GC为1,那么DNA链可以想象每6.8平方纳米含有10位。换句话说,DNA信息密度为1.47太比特/毫米2具有/或950 t比特信息能力2的800多倍hdd的密度

当我们考虑到微小的人类基因组中有30亿个碱基对紧密缠绕在每个细胞中时,DNA数据存储的机会是巨大的。

不幸的是,我们的粗略计算大大简化了DNA存储过程。今天我们用来合成、储存和测序DNA的技术充满了错误。它要求任何DNA数据存储系统拥有大量冗余并使用复杂的数据编码。

尽管如此,数据生成的爆炸性增长将需要革命性的存储技术,特别是用于存档目的的存储技术。Gartner有很高的期望他指出,“人类所有的知识都可以储存在少量的合成DNA中。”该组织称,到2024年,30%的“数字企业”将进行DNA数据存储试验。由于DNA可以无限保存,Gartner认为音乐、视频和统计数据的档案存储是DNA存储的潜在应用。

DNA数据存储更接近于商业现实,而不是科幻小说。

基本技术、挑战和限制

DNA数据存储和检索是一个将数字比特流转换为碱基对序列的六步过程。它在概念上类似于将位编码为一系列凹坑和落在光盘

完成此过程的步骤包括:

  1. 编码将比特流转换为碱基对序列,这是一个活跃的研究领域。在我们的规模估计中,有些方案使用上面描述的简单的“每对一位”场景。然而,更先进的技术使用Huffman编码,有时与Reed-Solomon错误校正码配对,以抵抗来自长期储存
  2. 合成与组装利用各种生物反应产生DNA短序列,并将其组装成更长的链。因为生成几百个碱基对的DNA片段比生成类似基因组的长序列要快得多,也便宜得多,所以DNA数据存储将数据分成编码和索引的块。该技术在概念上类似于磁盘驱动器如何将文件或数据库分解为逻辑块或IP网络如何在传输之前对数据进行打包。
  3. 存储将DNA保存在溶液和小瓶中,以减少随时间的降解。在室温下,暴露在水和氧气中大大加速了DNA的降解。因此,大多数存储宿主的样品在体外惰性溶液或固体。事实上,在正确的环境中,DNA可以保持完整的千年——科学家最近提取来自百万年前西伯利亚猛犸象牙齿的基因组。
  4. 检索从更大的样本中提取DNA的子集。有几种从更大的DNA池中随机提取的技术,通常使用聚合酶链反应扩增,就像在新冠病毒-19检测中一样。
  5. 测序通过类似于医学基因测试使用的技术读取一系列DNA核苷酸碱基对。DNA片段通常是平行排列的,以加速这一过程。
  6. 解码通过解码和重组数据段,将碱基对序列转换为二进制流。

用途和著名公司

DNA数据存储正迅速从实验室走向生产。然而,由于合成和排序过程比电子信息处理缓慢,唯一可行的应用是档案存储。例如,尽管有一种实验性的并行处理技术,但目前写几个g的数据需要几个小时要求达到每天1tb。

DNA存储具有高误差率的容忍度。不像在制药领域,DNA序列中的小错误可能产生深远影响,采用复杂冗余和编码算法的能力意味着存储系统可以在合成和测序过程中保持完整的数据保真度,错误率达到10%或更高。

视频流媒体行业产生了一个引人注目的例子,证明了DNA用于档案数据存储的新兴用途。Twist Bioscience最近与Netflix合作,展示了DNA保存视频的可行性。苏黎世联邦理工学院的研究人员编码了Netflix系列的第一集生物黑客转化成DNA核苷酸,然后利用Twist生物科学公司的硅平台将其合成成DNA链。未压缩的原始4K视频的速度约为250mbps,相当于50分钟一集的750gb。这令人印象深刻地证明了DNA作为档案媒介的潜力。

Twist Bioscience是DNA数据存储领域的领导者,最近在2021年斯坦福大学压缩研讨会上展示了其技术。Twist Bioscience、Illumina、Microsoft和Western Digital最近成立了DNA数据存储联盟,以推广该技术,并开发行业路线图、用例和教育材料。其他成员包括:

  • Ansa生物技术
  • 目录
  • 克劳德·诺布斯基金会
  • DNA脚本
  • École polytechnique fédérale de Lausanne——文化遗产与创新中心
  • 苏黎世联邦理工学院——瑞士联邦理工学院
  • Imec
  • Iridia
  • 分子组装
  • 华盛顿大学分子信息系统实验室
  • 量子

还有其他几家重要公司——包括Evonetix、Helixworks、Kilobaser和Synthomics——在DNA合成和存储材料等技术方面处于领先地位。这项工作将促进DNA数据存储和其他治疗应用。

DNA数据存储更接近于商业现实,而不是科幻小说。负责归档策略的数据存储专业人员应该跟随该领域的发展,并将DNA技术纳入路线图LTO磁带的演化及其他档案存储介质。

下一个步骤

概述Microsoft Project Silica及其存档的使用

深入挖掘数据中心存储

搜索灾难复苏
搜索数据备份
搜索聚合基础设施
关闭
Baidu