DNA数据存储的发展显示出巨大的潜力

尽管听起来有点未来主义，但向基于DNA的数据存储写入数据正在成为一种可能。主流应用可能还有一段路要走，但发展一直是稳定的。

通过

罗伯特·谢尔登

出版：2018年10月19日

在过去的十年里，大学和企业的研究人员已经将他们的注意力转向脱氧核糖核酸作为一种可能的存储数据的方法。DNA数据存储的密度和耐用性远远超过当今任何存储媒体——无论是磁带、闪存还是光驱。DNA已经存在了数十亿年，所以它不太可能在短期内被淘汰。

难怪科学家们如此关注基于DNA的数据存储马上世界产生的数据比以往任何时候都多，而且这些数字只会继续增长。根据IDC的报告《2025年数据时代：数据向生命关键型的演变》，世界将产生163个数据泽字节每年的数据到2025.要存储此数量的数据，您需要大约16个现代12 TB硬盘驱动器。即使这是经济上可行的，驱动器也需要大量的空间和能量，同时遭受相对较短的寿命。DNA有可能解决许多这些问题。

这并不是说基于DNA的存储没有它自己的挑战；它成本高、速度慢而且容易出错。尽管如此，研究人员在应对这些挑战方面取得了稳步进展，最近取得了一些显著的成功。

DNA是如何储存的

DNA是一种在生物细胞内自然形成的自我复制物质。DNA编码有关细胞特征和功能的信息，提供塑造细胞宿主有机体所需的遗传指令。

DNA包含四种分子结构，称为核苷酸--腺嘌呤、胞嘧啶、鸟嘌呤和胸腺嘧啶——结合成碱基对，每对有两个不同的核苷酸。碱基对一起形成线性链，或寡核苷酸，每一对碱基对都代表寡核苷酸阶梯上的一个梯级，从而形成了在科学杂志和公司标识中常见的双螺旋链。

DNA数据存储使用核苷酸来表示二进制的1和0为今天的数字数据提供了基础。在DNA中存储数据是一个基本的两步过程:

翻译软件将文件的二进制数据转换成与比特模式相关的核苷酸碱基对序列。
合成器根据核苷酸序列构建DNA链。合成器是一种科学仪器，利用合成生物工程技术制造人工DNA分子，这一过程被称为合成．

检索已编码到合成DNA中的数据也是一个两步过程:

测序器按照精确的顺序对寡核苷酸中的DNA核苷酸进行解码，并返回它们的遗传密码，这一过程称为排序．和合成器一样，测序仪也是一种科学仪器，但在这种情况下，它被用来自动化测序操作。
翻译程序根据最初用于转换数据的相同位模式，将音序器返回的结果转换为二进制格式。

DNA的合成和测序已经成为当今生物工业的标准做法。因此，支持DNA数据存储所需的许多技术已经存在。

DNA的承诺

研究人员正在转向DNA储存因为与当今的存储介质相比，它具有许多潜在的优势。最大的优点之一是它的密度，比传统的密度大很多数量级任何当前存储介质. 一克DNA可以保存数百万GB的数据。

DNA也非常耐用。通过一些估计，如果DNA保持冷却并且干燥，而不会暴露于光或辐射，它可能持续数千年，从未过时过。此外，鉴于DNA在蜂窝发育中的核心作用，科学家毫无疑问继续研究它并追求更好的方法来综合和序列，如果没有DNA数据存储，则遭受与过时的软盘相同的命运。

DNA还具有节省大量成本的潜力，部分原因是它需要很多成本存储空间和能量更少与今天的媒体相比，这也是因为随着研究人员对DNA内部工作机制的深入研究，合成和测序技术将在价格下降的同时继续提高效率。

尽管基于DNA的数据存储具有挑战，但该技术对科学家们表示足够的承诺继续寻找实用解决方案。

然而，尽管有节省成本的潜力，以任何重要方式采用基于DNA的数据存储的当今最大的挑战之一是合成和测序DNA的高昂价格。用这种方式存储几百兆字节的数据很容易要花费数千美元。

另一个挑战是，将数据写入DNA是一个极其缓慢的过程，这是试图将所有这些位模式转换为核苷酸的结果。另外,内存很难用DNA数据存储来实现，这要求DNA以大的块进行测序，同时也减慢了读取过程。此外，合成和测序过程本身很容易发生在分子水平上的错误，这可能导致数据丢失或损坏。

让DNA起作用

尽管基于dna的存储会带来挑战，但这项技术显示出足够的希望，让科学家们继续寻找切实可行的答案。例如，Catalog Technologies的研究人员提出了一种方法，通过分离合成和测序过程，使DNA存储对长期数据存档更经济。他们合成了大量相对较少的DNA类型，作为编码数据的基石，而不是将单个比特映射到核苷酸碱基对上。

意大利帕多瓦大学的研究人员也在寻找通过使用细菌纳米网络和单个质粒，以携带遗传信息的细菌细胞内的特征来改善DNA数据存储以实现归档的目的。这种细菌可以使用一种称为“细菌”的技术，从不同的存储位置可靠地访问特定数据分子定位系统它使细菌能够感知化学物质的释放，并向特定的位置移动。

Urbana-Champaign的伊利诺伊大学的研究人员正在研究一种解决基于DNA的数据存储的无差错RAM的解决方案。它们的方法是基于特定数据的选择性放大，以加速读取而不需要序列整个DNA池。要执行此方法，它们增加了两个独特的序列（底漆)到每个寡核苷酸，每端一个，使用一个简单的键-值结构来识别引物。

微软与华盛顿大学也一直在共同研究一种类似的技术，以实现无错误的RAM。这些组织的研究人员最近展示了从超过400mb的数据中检索特定文件的能力。微软计划到2020年推出商用DNA数据存储系统的原型。

许多其他组织，如国防高级研究项目机构，也会严重看待DNA进行储存。与此同时，合成和测序过程稳步改善，价格下跌。鉴于大量的数据分析人士预计，存储这些数据的任何希望都取决于比当今媒体先进得多的技术。如果DNA的实际应用能够充分实现，它当然有能力满足这一需求。

DNA数据存储的发展显示出巨大的潜力