全球新動(dòng)態(tài):你身體里的DNA能存下整個(gè)宇宙的數(shù)據(jù)
恐龍滅絕 6000 多萬(wàn)年后,科學(xué)家們獲得了一塊有史前蚊子的琥珀,從蚊子血中獲得了恐龍的基因,從而讓遙遠(yuǎn)的生物復(fù)活。講這個(gè)故事的《侏羅紀(jì)公園》,至今仍位列全球電影票房前十。這個(gè)系列故事的原理很簡(jiǎn)單:DNA 存儲(chǔ)了恐龍的生物信息,科技讓它重新表達(dá)。
(資料圖)
訪問(wèn):
阿里云服務(wù)器精選特惠:1核1G云服務(wù)器低至0.9元/月
現(xiàn)在,用 DNA 想象另一個(gè)故事:在宇宙長(zhǎng)河中,“人類世紀(jì)”也寂滅了。另外一種智慧生物出現(xiàn),TA 們?nèi)ヌ骄窟h(yuǎn)古的“人類文明”。有什么會(huì)承載人類文明的記憶?氣溫異變,地球上的龐大數(shù)據(jù)中心徒留遺跡。
而凍土中有一份 DNA,它很輕,只有 1 公斤,看起來(lái)是一些被封裝在膠囊里的白色粉末。讀取后,里面卻記載了地球上曾有的巨量信息。視頻、文字、代碼展現(xiàn)了人類歷史進(jìn)程中的無(wú)數(shù)發(fā)明和文藝作品。于是那個(gè)遙遠(yuǎn)文明的痕跡在宇宙間再次展開(kāi)。
這是另一個(gè)科幻設(shè)定了。背后的技術(shù)正是目前被關(guān)注的一個(gè)前沿方向:DNA 存儲(chǔ)信息。在大自然里,DNA 負(fù)責(zé)存儲(chǔ)遺傳信息。單個(gè)人體細(xì)胞的平均直徑是 5 到 200 微米,這其中的 DNA 可以包含一個(gè)人全部的遺傳信息:30 億對(duì)堿基。
那為什么不能用堿基存儲(chǔ)別的信息?這個(gè)科幻般的設(shè)想,正在走出實(shí)驗(yàn)室,被當(dāng)作信息存儲(chǔ)的未來(lái)方案。
01 基因組數(shù)據(jù)太多了,怎么辦?
本來(lái)是生物學(xué)家想解決生物學(xué)發(fā)展的問(wèn)題。
11 年前,一群生物信息學(xué)家在德國(guó)的一家酒店里討論“數(shù)據(jù)存儲(chǔ)問(wèn)題”。Nick Goldman 也在其中,那是他在歐洲生物信息所(EBI)擔(dān)任高級(jí)科學(xué)家的第二年。
大規(guī)模的基因組測(cè)序正在進(jìn)行,隨之產(chǎn)生的數(shù)據(jù)規(guī)模快速增長(zhǎng)。存儲(chǔ)、壓縮這些數(shù)據(jù)是個(gè)麻煩事,現(xiàn)有的技術(shù)方案看起來(lái)不太行。據(jù)估計(jì):人類基因組需要高達(dá) 2-40EB 的存儲(chǔ)容量。這可能超過(guò)一個(gè)世界級(jí)科技公司的云存儲(chǔ)量——全世界蘋果用戶存儲(chǔ)在Google云上的數(shù)據(jù)總量大約是 8 EB。這 8EB 數(shù)據(jù),每月存儲(chǔ)費(fèi)需要 2.18 億美元。(1EB= 102^3GB)
生物學(xué)家們陷入了沮喪。
Nick Goldman 拿著存儲(chǔ)了莎士比亞所有十四行詩(shī)、一張照片和“我有一個(gè)夢(mèng)想”演講片段的 DNA| 來(lái)源:EBI
有人靈光乍現(xiàn):是什么東西阻止了我們用 DNA 來(lái)儲(chǔ)數(shù)據(jù)呢?
看起來(lái)是一句玩笑話,但是生物學(xué)家們意識(shí)到了這不僅僅是個(gè)玩笑,他們拿起手邊的餐巾紙,用圓珠筆認(rèn)真計(jì)算起可行性。
DNA 存儲(chǔ)遺傳信息的原理并不復(fù)雜,它由四種核苷酸 A、T、G、C 組成,彼此兩兩對(duì)應(yīng),組成雙螺旋結(jié)構(gòu)。核苷酸的序列,記錄了遺傳信息。
在數(shù)字世界,所有的信息本質(zhì)上是 0 和 1 組成的數(shù)據(jù)串。想要 DNA 存儲(chǔ)數(shù)字信息,簡(jiǎn)單理解,原就是將 0 和 1 的編碼序列轉(zhuǎn)換成核苷酸的序列。DNA 存儲(chǔ)的優(yōu)勢(shì)在于密度大,大約在你眼前逗號(hào)這么大小,1 立方毫米的 DNA,就可以容納 9TB(1TB=1024GB)的信息。
用 DNA 存儲(chǔ)數(shù)據(jù),也并不是完全新的想法,之前就有科學(xué)家嘗試過(guò)。不過(guò)屬于科學(xué)和藝術(shù)的先鋒跨界實(shí)驗(yàn)。
1988 年,藝術(shù)家 Joe Davis 和哈佛大學(xué)的研究員,將一副名為“小維納斯”(Micro Venus)的圖案存儲(chǔ)到 DNA 短鏈中。
存儲(chǔ)進(jìn) DNA 的小維納斯(microvenus)圖片 來(lái)源:相關(guān)論文
這個(gè)圖案編碼簡(jiǎn)易,白色的地方標(biāo)記為 0、黑色的線條部分標(biāo)記為 1,文件大小只有 35bits,用了 28 個(gè)核苷酸長(zhǎng)度的 DNA 鏈條來(lái)存儲(chǔ)。
在那次酒店討論的 2 年之后,2013 年,Goldman 團(tuán)隊(duì)發(fā)表了研究成果。這次,他們存儲(chǔ)了 5 種不同格式的文件,一共有 0.75MB。為了確保信息讀取不出錯(cuò),科學(xué)家存儲(chǔ)的時(shí)候,每份信息按照四倍冗余的量來(lái)存儲(chǔ)。
五個(gè)文件分別是:
?154 首莎士比亞的 14 行詩(shī)(ASCII 編碼格式)
? 提出 DNA 雙螺旋結(jié)構(gòu)的論文(PDF 版)
?一張照片(JPEG 格式)
?馬丁· 路德金“我有一個(gè)夢(mèng)想”演講其中 26 秒片段(MP3 格式)
?一串霍夫曼密碼
這些年,DNA 存儲(chǔ)容量的上線不斷被突破。2019 年,美國(guó)一家創(chuàng)業(yè)公司 Catalog 在 DNA 中存儲(chǔ)了 16GB 的維基百科。這個(gè)公司表示自己正在建設(shè)世界上第一個(gè)基于 DNA 的大規(guī)模數(shù)字?jǐn)?shù)據(jù)存儲(chǔ)和計(jì)算平臺(tái)。
02 編碼和解碼,要處理的事情很多
在一些生物學(xué)家看來(lái),用 DNA 來(lái)存儲(chǔ)是一件非常“順滑”的事。“大自然的編碼語(yǔ)言非常類似于我們?cè)谟?jì)算機(jī)領(lǐng)域使用的二進(jìn)制語(yǔ)言。在硬盤上我們使用 0 和 1 來(lái)代表數(shù)據(jù),而 DNA 中,我們擁有 4 種形式的核苷酸,A、C、T 和 G”。在瑞士聯(lián)邦理工學(xué)院的生物學(xué)家 Robert Grass 說(shuō)。
DNA 存儲(chǔ)的關(guān)鍵之一是用四個(gè)核苷酸去映射 0 和 1 兩個(gè)數(shù)字。方案可以很簡(jiǎn)單。比如:A 對(duì)應(yīng) 00,C 對(duì)應(yīng) 01,G 對(duì)應(yīng) 10,T 對(duì)應(yīng) 11。然后再按照所需要的核苷酸序列,像串珠子一樣,把核苷酸們串成一串。(這就是 DNA 合成)需要讀取信息的時(shí)候,再運(yùn)用基因測(cè)序技術(shù),把這一串核苷酸序列讀取出來(lái),再翻譯成 0 和 1 的字符串。這個(gè)流程就是編碼—DNA 合成—測(cè)序—解碼。
這個(gè)聽(tīng)起來(lái)像是“把大象裝進(jìn)冰箱”的流程,操作起來(lái)需要考慮的問(wèn)題還有很多。不然科學(xué)家就不必一直研究新的編碼方案了。
在自然界存在的 DNA 中,A 和 T,C 與 G 兩兩配對(duì),在一條 DNA 中,CG 與 AT 的存在比例基本均勻,為 50% 左右。如果 C 和 G 的含量過(guò)高,可能會(huì)讓 DNA 鏈產(chǎn)生一些復(fù)雜的物理結(jié)構(gòu)。這就會(huì)讓 DNA 測(cè)序(解碼)變得復(fù)雜。
DNA 存儲(chǔ)的步驟| 來(lái)源:DNA Data Storage Alliance
而且在“串珠子”(也就是合成 DNA 鏈條)的過(guò)程中,錯(cuò)誤率不可避免。目前大約每合成 100 個(gè)堿基就會(huì)出現(xiàn)一個(gè)錯(cuò)誤。這是由目前的化學(xué)合成技術(shù)帶來(lái)的瓶頸,每合成一個(gè)堿基,有 99.9% 以上的正確率。但是當(dāng)堿基串變長(zhǎng),0.01% 的概率相乘,錯(cuò)誤就難以避免。目前人工合成 DNA 的單鏈的長(zhǎng)度一般不超過(guò) 100 個(gè)堿基,極限在 300 個(gè)堿基左右。而在自然界的 DNA 動(dòng)輒有幾千個(gè)堿基對(duì)。
也就是說(shuō),雖然 DNA 的存儲(chǔ)能力很強(qiáng),但它們不得不以很多條短鏈的方式存在。如果存儲(chǔ)的信息量比較大,這些 DNA 短鏈就像一本散裝的書。它可以存儲(chǔ)很多信息,存在形式卻是一張張標(biāo)著頁(yè)碼的紙。當(dāng)然,可以將一條條 DNA 短鏈拼接成長(zhǎng)鏈。這就意味著增加了一道工序。在測(cè)序的過(guò)程中,又需要把長(zhǎng)鏈打斷成短鏈。這是因?yàn)槟壳凹夹g(shù)還不能一次性讀取長(zhǎng)鏈。
在測(cè)序的過(guò)程中,也存在錯(cuò)誤率。盡管目前的錯(cuò)誤率已經(jīng)低至 10^-3 數(shù)量級(jí),比起商業(yè)硬盤的讀寫錯(cuò)誤率,仍相差至少 9 個(gè)數(shù)量級(jí)。
正確率受到合成和測(cè)序這兩項(xiàng)技術(shù)的影響,科學(xué)家想到設(shè)計(jì)編碼方案來(lái)避免:在編碼中增加糾錯(cuò)機(jī)制。這樣,哪怕堿基合成和測(cè)序中出現(xiàn)了錯(cuò)誤,依舊能夠保證被存儲(chǔ)進(jìn) DNA 的內(nèi)容能夠被正確讀取出來(lái)。
03 走出實(shí)驗(yàn)室,還要考慮速度和成本
DNA 存儲(chǔ)也正在嘗試走出實(shí)驗(yàn)室。
2020 年 10 月,微軟、西部數(shù)據(jù)和基因測(cè)序巨頭 Illumina、DNA 合成初創(chuàng)公司 Twist Bioscience 等聯(lián)合成立了 DNA 數(shù)據(jù)存儲(chǔ)聯(lián)盟。
這是世界上第一個(gè)該領(lǐng)域的學(xué)術(shù)和產(chǎn)業(yè)鏈聯(lián)盟。這個(gè)聯(lián)盟希望制定技術(shù)和格式標(biāo)準(zhǔn),最終建立一個(gè)可以通用的商業(yè)系統(tǒng)。
微軟研究院在 2015 年就成立 DNA 存儲(chǔ)的項(xiàng)目,并聘請(qǐng)了華盛頓大學(xué)的計(jì)算機(jī)科學(xué)與工程學(xué)院的副教授 Karin Strauss 擔(dān)任高級(jí)首席研究經(jīng)理(Senior Principal Research Manager)。
2013 年,她和同事去英國(guó) EBI 訪問(wèn),了解到 Goldman 和同事們關(guān)于 DNA 存儲(chǔ)的研究,就對(duì)這個(gè)方向產(chǎn)生了很大的興趣。Strauss 說(shuō),“DNA 的密度、穩(wěn)定性和成熟度讓我們興奮。”
在他們的研究中,想開(kāi)發(fā)的是另一個(gè)功能:隨機(jī)讀取。常見(jiàn)的 DNA 測(cè)序技術(shù)中,必須要將所有的堿基串一次性讀取完,才能夠獲得信息。要么不讀取,要么全讀。如果只想要數(shù)據(jù)中的某一個(gè)小片段,就會(huì)非常麻煩。
2016 年,他們發(fā)表了一項(xiàng)研究,可以在 DNA 已經(jīng)存儲(chǔ)的信息中搜索到指定的圖像,定位后,用酶來(lái)復(fù)制所需的 DNA 片段,然后只需讀取這一小段即可。
Karin Strauss(右)和兩位研究合作者|來(lái)源:csenews
要讓 DNA 存儲(chǔ)離商用更進(jìn)一步,還需要解決合成速度和成本。現(xiàn)在合成速度是每秒存儲(chǔ)上千個(gè)字節(jié)(KB),成熟的云存儲(chǔ)方案已經(jīng)有每秒千兆字節(jié)(GB)以上。
這意味著,編寫 DNA 的速度還需要提升 6 個(gè)數(shù)量級(jí)。如何讓提升數(shù)據(jù)處理量?就像并行計(jì)算能夠提升數(shù)據(jù)處理速度,科學(xué)家希望 DNA 在合成時(shí)也可以并行多條,同時(shí)處理。
2021 年,微軟開(kāi)發(fā)出首個(gè)納米級(jí) DNA 存儲(chǔ)器,能夠在每個(gè)平方厘米的區(qū)域上,同時(shí)合成 25X106(2650)條堿基序列。這個(gè)新的技術(shù)把原來(lái)同時(shí)合成堿基序列的數(shù)字從個(gè)位提升到了千位。這個(gè)吞吐量,讓 DNA 合成速度變成了每秒兆字節(jié)(MB)。
新的方法讓 DNA 合成的陣列數(shù)量大大增加|來(lái)源:微軟研究院
更大的吞吐量,也就意味著更低的成本。現(xiàn)在 DNA 存儲(chǔ)的成本是每萬(wàn)億字節(jié)(TB)8 億美元。而磁帶存儲(chǔ)成本已經(jīng)降到了每萬(wàn)億字節(jié) 16 美元以下。這樣比起來(lái)似乎毫無(wú)競(jìng)爭(zhēng)力。但現(xiàn)實(shí)生活中的大型數(shù)據(jù)中心的維護(hù)成本極高,還要定期更新硬件;DNA 存儲(chǔ)密度大、體積小、可以長(zhǎng)時(shí)間不變質(zhì)的優(yōu)勢(shì)就變成了降維打擊。
所以量大、讀取頻率低的“冷數(shù)據(jù)”,被認(rèn)為是 DNA 存儲(chǔ)最近的應(yīng)用場(chǎng)景。Twist Bioscience 最近在一份市場(chǎng)報(bào)告中強(qiáng)調(diào),這種技術(shù)能夠幫助科技企業(yè)在“大規(guī)模、低功耗”情況下更有效地部署。
另外一些樂(lè)觀的科學(xué)家,更相信技術(shù)的進(jìn)步。
自 2003 年人類基因組計(jì)劃完成以來(lái),測(cè)序成本降低了 200 萬(wàn)倍。2016 年時(shí),面對(duì)每秒千字節(jié)的速度,Goldman 說(shuō),“(讀寫的速度提升)6 個(gè)數(shù)量級(jí)對(duì)基因組學(xué)來(lái)說(shuō)沒(méi)什么大不了的。你只需要再等一會(huì)兒。”
那這“一會(huì)兒”是多久呢?這個(gè)領(lǐng)域似乎到了臨門一腳,仍在等待突破。
訪問(wèn):
阿里云 - 最高1888元通用代金券立即可用
關(guān)鍵詞: 通信技術(shù) 你身體里的DNA能存下整個(gè)宇宙的數(shù)據(jù) cnBeta
推薦
-
我國(guó)數(shù)據(jù)存力發(fā)展的趨勢(shì)有哪些 我國(guó)算力產(chǎn)業(yè)未來(lái)如何發(fā)展?
我國(guó)數(shù)據(jù)存力發(fā)展的趨勢(shì)有哪些?存力發(fā)展的五大趨勢(shì):一是我國(guó)存儲(chǔ)市場(chǎng)規(guī)模持續(xù)增長(zhǎng),二是非結(jié)構(gòu)化數(shù)據(jù)帶...
來(lái)源:星際派 -
豐田汽車發(fā)布本財(cái)年第一財(cái)季業(yè)績(jī) Q1營(yíng)業(yè)利潤(rùn)或下降15%
豐田汽車將于本周四發(fā)布本財(cái)年第一財(cái)季業(yè)績(jī),根據(jù) Refinitiv 的調(diào)查,由于芯片短缺和供應(yīng)鏈問(wèn)題,預(yù)計(jì)...
來(lái)源:愛(ài)集微 -
探索人機(jī)互動(dòng)信貸技術(shù) 網(wǎng)商銀行對(duì)外發(fā)布“百靈”智能交互式風(fēng)控系統(tǒng)
近日,網(wǎng)商銀行對(duì)外發(fā)布百靈智能交互式風(fēng)控系統(tǒng),在信貸行業(yè)內(nèi)首次探索人機(jī)互動(dòng)信貸技術(shù),可通過(guò)引導(dǎo)小...
來(lái)源:科技日?qǐng)?bào) -
探討算網(wǎng)融合新發(fā)展 中國(guó)聯(lián)通承辦中國(guó)算力大會(huì)新型算力網(wǎng)絡(luò)分論壇
以新型算力網(wǎng)絡(luò),賦能‘東數(shù)西算’為主題的首屆中國(guó)算力大會(huì)新型算力網(wǎng)絡(luò)分論壇在山東濟(jì)南舉...
來(lái)源:人民郵電報(bào) -
改善運(yùn)動(dòng)員訓(xùn)練和生活方式 云計(jì)算掀起體育革命
云計(jì)算對(duì)體育產(chǎn)業(yè)的影響越來(lái)越深刻。人們可以通過(guò)云計(jì)算對(duì)大量的數(shù)據(jù)進(jìn)行分析處理,進(jìn)而改善運(yùn)動(dòng)員訓(xùn)練...
來(lái)源:智東西 -
聯(lián)電第二季度營(yíng)收為213.3億元新臺(tái)幣 毛利率達(dá)46.5%
聯(lián)電公布財(cái)報(bào)顯示,該公司第二季度營(yíng)收為 213 3 億元新臺(tái)幣,季增 8%,年增 79%,毛利率達(dá) 46 5%...
來(lái)源:愛(ài)集微 -
加快向數(shù)字化轉(zhuǎn)型 電信公司展開(kāi)軟件人才爭(zhēng)奪戰(zhàn)
隨著電信運(yùn)營(yíng)商加快向數(shù)字化轉(zhuǎn)型的步伐,最近,很多大型電信運(yùn)營(yíng)商加入軟件人才爭(zhēng)奪戰(zhàn)。由于人才缺口大...
來(lái)源:人民郵電報(bào) -
漳州首個(gè)5G綠色智慧辦公大樓 入選福建年度城鄉(xiāng)建設(shè)領(lǐng)域綠色低碳試點(diǎn)項(xiàng)目
福建移動(dòng)攜手漳州城投集團(tuán)有限公司打造漳州首個(gè)5G綠色智慧辦公大樓,并成功入選福建省住建廳2022年度城...
來(lái)源:人民郵電報(bào) -
安徽省通信管理局組織 召開(kāi)2022年第二季度全省電信服務(wù)工作會(huì)議
近日,安徽省通信管理局組織召開(kāi)2022年第二季度全省電信服務(wù)工作會(huì)議,進(jìn)一步落實(shí)工信部有關(guān)進(jìn)一步規(guī)范...
來(lái)源:人民郵電報(bào) -
日本汽車零部件供應(yīng)商電裝開(kāi)發(fā)新功率半導(dǎo)體器件 可將功率損耗降低20%
日本汽車零部件供應(yīng)商電裝開(kāi)發(fā)了一種用于電動(dòng)汽車的功率半導(dǎo)體器件,可將功率損耗降低 20%。據(jù)《日經(jīng)亞...
來(lái)源:愛(ài)集微
直播更多》
-
第四屆全球工業(yè)互聯(lián)網(wǎng)大會(huì)舉辦地在哪 第四屆全球工業(yè)互聯(lián)網(wǎng)大會(huì)主題是什么?
日前,2022年(第四屆)全球工業(yè)互聯(lián)網(wǎng)大...
-
第四屆全球工業(yè)互聯(lián)網(wǎng)大會(huì)舉辦地在哪 第四屆全球工業(yè)互聯(lián)網(wǎng)大會(huì)主題是什么?
日前,2022年(第四屆)全球工業(yè)互聯(lián)網(wǎng)大...
-
在夜間循環(huán)播出非法藥品廣告 鄭州快速查處一起“黑廣播”案件
7月26日,河南省鄭州無(wú)線電中心聯(lián)合市公...
-
貴州將加快做大做強(qiáng)數(shù)據(jù)中心集群 推動(dòng)數(shù)據(jù)中心向貴安新區(qū)集中
在群山之間,一座森林茂盛的山體被開(kāi)鑿...
-
加快制造業(yè)智能化進(jìn)程 中國(guó)聯(lián)通與山東重工簽署戰(zhàn)略合作協(xié)議
中國(guó)聯(lián)合網(wǎng)絡(luò)通信集團(tuán)有限公司與山東重...
-
Chrome作風(fēng)發(fā)生改變 搜索框下出現(xiàn)視頻網(wǎng)站美妝節(jié)廣告
Chrome 自誕生起,就一直以快速、簡(jiǎn)潔...
資訊更多》
-
二季度全球云服務(wù)...
-
數(shù)據(jù)正確率、及時(shí)...
-
數(shù)字經(jīng)濟(jì)增速連續(xù)7...
-
蹚出科技型企業(yè)轉(zhuǎn)...
-
存儲(chǔ)器模塊廠宇瞻...
-
中國(guó)信通院預(yù)測(cè) 2...
焦點(diǎn)
- 數(shù)字經(jīng)濟(jì)的核心要素是什么 全國(guó)一體化大數(shù)據(jù)中心體系包括哪些子體系?
- 確保防汛無(wú)線電專用頻率安全 聊城扎實(shí)開(kāi)展黃河防汛無(wú)線電頻率保障工作
- 貴州省2021年數(shù)字經(jīng)濟(jì)增加值規(guī)模同比增長(zhǎng)20.6% 連續(xù)7年位居全國(guó)第一
- 全國(guó)網(wǎng)信系統(tǒng)上半年累計(jì)依法約談網(wǎng)站平臺(tái)3491家 網(wǎng)絡(luò)執(zhí)法工作取得明顯成效
- 私人太空公司藍(lán)色起源 計(jì)劃于8月4日進(jìn)行第六次載人航天飛行
- 我國(guó)在用數(shù)據(jù)中心服務(wù)器達(dá)1900萬(wàn)臺(tái) 算力規(guī)模排名全球第二
- 廣西完成二類無(wú)線電監(jiān)測(cè)移動(dòng)站驗(yàn)收 各項(xiàng)指標(biāo)和功能符合要求
- 提高心源性猝死患者搶救成功率 上海電信在15家主要營(yíng)業(yè)廳安裝自動(dòng)體外除顫器
- 新基建提檔升級(jí) 中國(guó)移動(dòng)為千行百業(yè)注智賦能
- 洛杉磯港每月遭受約4000萬(wàn)次網(wǎng)絡(luò)攻擊 比疫情前增長(zhǎng)近一倍