国产精品高清一区二区三区不卡-国产精品一区二区三区免费视频-日韩免费高清一级毛片-亚洲欧美一区二区三区国产精品-日韩欧美一区二区三区不卡视频-亚欧免费视频一区二区三区-亚洲欧美日韩一区成人-欧美日韩视频综合一区无弹窗-精品日韩在线视频一区二区三区-国内精品视频一区二区三区

你好,歡迎進(jìn)入江蘇優(yōu)軟數(shù)字科技有限公司官網(wǎng)!

誠信、勤奮、創(chuàng)新、卓越

友好定價、專業(yè)客服支持、正版軟件一站式服務(wù)提供

13262879759

工作日:9:00-22:00

以前要24小時的基因組測序,中國團(tuán)隊只用了7分鐘

發(fā)布時間:2024-02-08

瀏覽次數(shù):0

臨近過年,最少不了的就是各種庫存匯總。

這不,中國一家機構(gòu)在7分鐘內(nèi)實現(xiàn)了人類全基因組測序30倍測序深度的成就,時隔3個月再次被提及。

序列拼接是什么意思_dnastar拼接序列_序列拼接的目的

看不懂也沒關(guān)系,我們只需要知道,這一成果意味著基因篩查將很可能被納入常規(guī)體檢,遺傳病檢測也可能像咽拭子檢測一樣可用。

例如,所有由基因異常引起的疾病,如鐮狀細(xì)胞性貧血、先天性心臟病等,都可以通過基因檢測來及早發(fā)現(xiàn)、預(yù)防和治療,這對于生殖健康而言具有重要意義。

然而,目前的基因檢測項目大多只篩查常見的遺傳病dnastar拼接序列,一些罕見的遺傳病很難檢測出來。 而且檢測機構(gòu)出具報告通常需要20多天,檢測項目周期過長。

華大基因單基因遺傳病檢測項目的一部分。 ▼

序列拼接的目的_序列拼接是什么意思_dnastar拼接序列

中國團(tuán)隊直接將人類全基因組測序所需時間壓縮至7分鐘,相當(dāng)于為生物界開啟了和諧,獲取生物體全部遺傳信息只需幾分鐘。

如果你想知道7分鐘的意義,我們先來了解一下什么是全基因組測序。

基因測序是將DNA信息轉(zhuǎn)換為人類可以讀取的數(shù)字信息的過程,而全基因組測序是將生物體的所有DNA信息轉(zhuǎn)換為數(shù)字信息的過程。

序列拼接的目的_序列拼接是什么意思_dnastar拼接序列

讀取整條DNA鏈的堿基排列信息不僅速度慢而且容易出錯。 在實際操作中,長DNA鏈被切割成許多小片段并同時測序,可以大大減少測序時間。

雖然獲取小片段序列信息更加快捷、容易,但也帶來了新的問題:如何正確地將這些小片段拼接成完整的序列?

玩過拼圖的人都知道,判斷兩塊拼圖是否相鄰,需要參考它們的圖案是否吻合。

DNA 片段的剪接也是如此。 兩個片段是否相鄰取決于其末端的序列能否完全重疊。

只要兩個序列的開頭和結(jié)尾存在相同的序列,就可以將兩個序列合并為一個。

dnastar拼接序列_序列拼接的目的_序列拼接是什么意思

當(dāng)然,這是運氣好的情況,兩個相鄰的碎片都能順利找到。 如果運氣不好的話,可能在某個斷點處找不到與其匹配的片段。

為了保證測序片段能夠覆蓋整個基因序列,唯一常用的方法就是數(shù)量。 將十倍以上的片段填充到模板中。 如果您仍然無法填空,那么就該買彩票了。

dnastar拼接序列_序列拼接的目的_序列拼接是什么意思

但分片數(shù)量增加一倍的直接后果就是拼接工作量呈指數(shù)級增長。 畢竟,組裝一塊 1,000 塊拼圖所需的時間是組裝 100 塊拼圖所需時間的十倍以上。

這是多少工作? 我們以一個具體的排序案例來計算一下。

dnastar拼接序列_序列拼接是什么意思_序列拼接的目的

以人類全基因組測序為例,人類有23對染色體,總共3.2Gb的堿基對數(shù)據(jù)。 一般測序的片段大小選擇在150-350bp范圍內(nèi),即人類基因組測序所需處理的最小片段數(shù)。

為了提高測序精度和覆蓋率,片段序列數(shù)據(jù)一般遠(yuǎn)遠(yuǎn)超過基因組數(shù)據(jù)。 例如,采用常用的30X測序深度,測序獲得的總數(shù)據(jù)達(dá)到基因組數(shù)據(jù)的30倍,序列數(shù)量增加到約100個片段。

粗略估計,組裝一對小碎片需要一次數(shù)據(jù)讀取,第二次組裝至少需要再讀取一次,以此類推。

序列拼接是什么意思_dnastar拼接序列_序列拼接的目的

現(xiàn)在我們已經(jīng)了解了數(shù)據(jù)讀取的次數(shù),我們來換算一下數(shù)據(jù)的內(nèi)存占用情況。 根據(jù)不準(zhǔn)確的計算,1 bp 堿基大約占用 3B 內(nèi)存,因此 30 倍測序深度的整個人類基因組大概占用接近 300GB 內(nèi)存。

別說讀取分析數(shù)據(jù),光是存儲起來就足以讓電腦崩潰,所以這樣的任務(wù)一般都交給專業(yè)測序公司強大的服務(wù)器來完成。 以目前的行業(yè)水平,完成人類整個基因組的拼接至少需要24小時。

序列拼接是什么意思_序列拼接的目的_dnastar拼接序列

這樣一比較,它能在7分鐘內(nèi)完成24小時的海量數(shù)據(jù)處理工作,確實要好很多。 難道超級CPU已經(jīng)出現(xiàn)了嗎?

CPU仍然是那些CPU,但新的數(shù)據(jù)處理方法已經(jīng)出現(xiàn)。

我們將數(shù)據(jù)讀取和寫入視為將包裹運輸?shù)絺}庫。 各種大大小小的包裹都要裝進(jìn)去,無論大小,都按順序擺放。 不僅運輸效率低,而且空間利用率也低。

正確的方法是將小包裹裝入大盒子中,并與其他大包裹依次放置。 這不僅提高了整體空間利用率,還減少了運輸時間。

這就是為什么24小時的工作可以在7分鐘內(nèi)完成的原因之一。 大數(shù)據(jù)直接寫入,小文件聚合成大文件再寫入。 不僅節(jié)省得更快,而且節(jié)省得更多。

在幾秒鐘內(nèi)處理大量數(shù)據(jù)的另一個秘密是“同一個世界”。

通常,不同類型的數(shù)據(jù)彼此不認(rèn)識,需要使用單獨的協(xié)議進(jìn)行私密對話,調(diào)用不方便。

如果想提高數(shù)據(jù)調(diào)用的效率,就讓他們都到廣場來喊吧。 在露天找人比在社區(qū)挨家挨戶找人要快得多。

只要打破不同數(shù)據(jù)之間的加解密邏輯,采用統(tǒng)一的數(shù)據(jù)訪問協(xié)議,省去加載過程,就可以快速調(diào)用磁盤中的所有數(shù)據(jù)。

dnastar拼接序列_序列拼接的目的_序列拼接是什么意思

除了這兩項突破性的數(shù)據(jù)處理方法之外dnastar拼接序列,一些硬件和軟件的增強也促成了這7分鐘的成績。

例如,壓縮磁盤大小、改造服務(wù)器結(jié)構(gòu)、用相同的卷放置更多的固態(tài)硬盤,實現(xiàn)更大容量的數(shù)據(jù)存儲。

此外,平臺還開發(fā)了多線操作數(shù)據(jù)讀寫模式,可以將數(shù)據(jù)處理的速度提升一個層次; 并且還改進(jìn)了數(shù)據(jù)壓縮算法,可以用更小的磁盤容量處理更多的數(shù)據(jù)。

各種創(chuàng)新技術(shù)的強強結(jié)合,實現(xiàn)了海量數(shù)據(jù)分析從24小時到7分鐘的跨越。 即使是天文數(shù)字量的生物信息也可以在幾分鐘內(nèi)處理完畢。 還有什么不能做的呢?

這7分鐘的意義不僅在于快速獲取所有基因信息,更是數(shù)據(jù)處理領(lǐng)域非常重要的突破。

dnastar拼接序列_序列拼接的目的_序列拼接是什么意思

需要精確計算和海量數(shù)據(jù)的應(yīng)用領(lǐng)域可以使用中國自己的服務(wù)器快速、安全地處理。

比如衛(wèi)星遙感、藥物研發(fā)、能源測量等都需要海量數(shù)據(jù)的分析; 而自動駕駛等技術(shù)則需要數(shù)據(jù)的實時反饋,高速的數(shù)據(jù)處理能力至關(guān)重要。

換句話說,馴服數(shù)據(jù)就相當(dāng)于掌握了科技的命脈。 誰掌握了數(shù)據(jù),誰就贏得了世界。 所有依賴這個基礎(chǔ)的領(lǐng)域都必須再努力一波。

或許一向跌跌撞撞的AR眼鏡很快就會流行起來。

dnastar拼接序列_序列拼接的目的_序列拼接是什么意思

如有侵權(quán)請聯(lián)系刪除!

13262879759

微信二維碼