2019-07-08 13:00

一条DNA单链放下整部维基百科？这家美国公司做到了

本文来自微信公众号：硅星人（ID：guixingren123），作者：光谱、杜晨，标题图来自视觉中国

我们的祖辈，用纸笔写下族谱并保护起来。因为作为介质的纸，一场大火足以付之一炬；

我们的父辈，开始用磁带、软盘和光盘，保存重要的资料。然而现如今，想要找到读取它们的设备越来越难；

今天，关于这一代所有的记录，都可以在我们的手机、电脑、钱包里的U盘和远方的“云”上找到。

一次次的科技进步，为我们带来更小、更高效、更持久和抗摧毁的数据存储方式。

但是很多人都没意识到，大自然也有着一项“天然”且十分“保险”的存储介质。它极其微小，且被每一个人所拥有。在遗传学家看来，这一介质承载了作为物种的人类，从类人猿进化到智人的所有数据记录。

这一介质，就是DNA。

最近，一家位于美国波士顿的医学科技公司Catalog宣布，在人造DNA作为数据存储介质的研究方面实现重要里程碑。

该公司成功在一条人造DNA单链当中，保存了整部维基百科（英文版）。

“人类在工程上的许多壮举，来自于我们对其它物种的模仿。我们看到会飞的鸟，发明了能让人类也飞起来的飞机。”Catalog科学家Milena Lazova在一则视频里表示，“DNA也是同理，我们看到人体存储了信息，为什么不用DNA来存储数据呢？”

DNA（脱氧核糖核酸）是一种生物大分子，构成基因的主要方式。通常，DNA是以双螺旋结构（double helix），也即两条链相互配对且紧密结合的形态存在的。

许多人可能都在生物课中学过DNA工作的基本原理。通俗来讲，DNA链条上通常包含四种碱基（A，T，C，G），而不同碱基的排列组合方式，最终决定了我们的长相、智力，以及不同病症的发病风险等。

对于包括人类在内的大部分物种，正是因为DNA上面含有信息，才能决定遗传的结果。

在过去的几年里，用于医学的基因编辑技术取得了长足的进展。人们现在可以在极小的、可接受的误差范围内，对已有的基因序列进行“Ctrl-x、c 和 v”。这一技术使得人类有机会攻克一些曾被认为无法根除的绝症，但也引发了一些道德争议[1]。

从DNA结构首次被发现到今天已经过去了将近70年，基因学家仍无法百分之百明确DNA序列的全部意义并利用它；但是，在数据存储的语境下，一切其实并没那么复杂：毕竟大部分的数据信息，最终还是回到1和0。

科学家将A、T、C、G分别定义为01、10、00和11。这样，一条含有四种碱基排列组合的DNA单链实际上就变成了一条二进制的数字串。

而Catalog的厉害之处，在于他们找到了一种更快、更廉价地按照要求排列碱基，从而将数据编码到DNA分子里的方法：简单来说，大规模排列提前生产好的碱基片段，再进行合成。

比方说bagel这个词：

ASCII: b a g e l
二进制: 01100010 01100001 01100111 01100101 01101100
碱基排列: ATGT ATGA ATAC ATAA ATCG

研究人员只需要把上面这五段碱基序列，再用酶合成，就制成了一条DNA；同理，一句话，一本书里的全部单词，甚至是一张JPEG照片，都可以转化成二进制编码，再编码到DNA里。

Catalog自主开发了一台“DNA写入机”（详细资料不足，目测大约一台冰箱大小）。这台机器每天可以写入1TB左右的数据，从而实现了大规模人工编写DNA信息。

市面上买到DNA测序仪并不难，所以任何人（只要有钱）都可以重新读取这些DNA信息，把它们转化为原来的文字或图片格式。

Catalog由两位科学家联合创建，团队不足10人。CEO朴显俊（Hyunjun Park）在威斯康辛州大学麦迪逊分校完成微生物学博士学位，创业前在麻省理工学院担任博士后研究员。首席技术创新官Nathaniel Roquet拥有哈佛大学生物物理学博士学位。

朴显俊和Roquet在2016年参加了IndieBio生物科技加速器。在当时，他们还没有发明出前面提到的那台机器，Roquet必须用滴管来完成操作，花了足足4个小时，做完手都肿了。

幸运的是，他们完成了概念验证，首次成功在一段DNA中注入了美国著名诗人罗伯特·弗罗斯特的《未选择的路》，一段大约1KB的信息[2]。

在靠创始团队自己出资支持两年之后，Catalog 终于在2018年获得了恩颐投资（NEA）、DataCollective等在内的约800万美元注资。从《未选择的路》，到《银河系漫游指南》，到今天的英文版维基百科——因为DNA写入机的成功开发，Catalog的数据录入效率越来越高。

对于大部分人，Catalog开发的技术属于“杀鸡焉用牛刀”，毕竟基于硬盘或闪存芯片的本地或云端存储，目前已经十分廉价。

最适合使用DNA存储信息的，其实是那些需要长期存储海量数据，或者对于海量数据的全球运输有频繁需求的机构，比如数据中心和云计算公司。

硬盘本身的确便宜，但在数据中心里让大量机柜持续运转，费用极高，而且对于一些存储方案来说，断电会导致数据丢失，因此还要考虑灾备的进一步成本。

相比之下，DNA的信息存储密度大约是闪存的一百万倍。

据Catalog计算，一座大型数据中心的存储容量大约在1EB（一千PB或一百万TB）左右。而1EB数据如果写入到DNA上，大约只有一块方糖大小。

因为存储密度大，DNA还很适合用于海量数据的运输。

举例：你的公司最近要把10PB的数据迁移到亚马逊AWS上，知道AWS会怎么做吗？

答案：AWS会派来一辆卡车，把你的数据都保存到硬盘上，放到集装箱里，再运到数据中心里上传，费用大约是50万美元；当然，你也可以选择把硬盘寄给亚马逊。

为什么：数据量太大，带宽不够，效率太低。集装箱实际上是最高效的运输手段。

如果用DNA存储呢？这些数据还不到刚才那一枚方糖的大小。所以，在纸上滴一滴DNA，寄给对方就可以了。

而且，把DNA存储当作灾备方案也很合适，因为DNA分子链很稳定，保存长达几千甚至上万年都不会丢失数据——当然，前提是未来的人们还在用DNA测序仪。

更进一步，如果未来人类真的走到行将灭绝的路口，需要提前将所有历史、知识、数据进行数字化保存……使用DNA进行存储的话，全人类的文明只要一个冰箱就能装下[3]。

“我热爱发明前人未曾想到的东西。但是更让我们感到激动的，是想到我们的发明能够为将来的世界带来巨大的价值。”Roquet表示。

[1] “基因编辑婴儿”闹剧收场：三部门叫停科研，查处违法违规 https://www.pingwest.com/w/180735

[2] How to make DNA data storage a commercially viable solution — and bring physical data ownership back https://synbiobeta.com/how-to-make-dna-data-storage-a-commercially-viable-solution/

[3] Introduction to DNA-based data storage and CATALOG https://www.youtube.com/watch?v=yXjGFSgqRC4

本文来自微信公众号：硅星人（ID：guixingren123），作者：光谱、杜晨，标题图来自视觉中国

AI原生产品日报频道: 前沿科技

硅星人

这里本来有条个人简介

认证作者

已在虎嗅发表 837 篇文章

本内容由作者授权发布，观点仅代表作者本人，不代表虎嗅立场。
如对本稿件有异议或投诉，请联系 tougao@huxiu.com。

正在改变与想要改变世界的人，都在虎嗅APP

赞赏

支持一下修改

确定