你好,歡迎進入江蘇優(yōu)軟數(shù)字科技有限公司官網(wǎng)!
發(fā)布時間:2023-06-05
瀏覽次數(shù):0
歡迎來到《生信修行指南》!
由于測序儀機器讀長的限制,在建庫過程中需要先對DNA進行片段化,測序得到的序列只是基因組上的部分序列。 為了確定測序讀數(shù)在基因組上的位置,需要將讀數(shù)與參考基因組進行比較,這一步稱為。
這樣做時,需要考慮以下因素
1、硬件資源消耗
一般來說,基因組越大,占用的顯存就越大。 優(yōu)化內(nèi)存消耗對于小型基因組(例如人類基因組)至關(guān)重要。
2、運行速度
隨著測序價格的提高和數(shù)據(jù)深度挖掘的需要,測序量越來越大,海量測序reads的比對必須足夠快。
3.確定性
SNP/indel、測序錯誤率等誘因會導(dǎo)致測序的reads與基因組上的原始序列存在數(shù)個bp的偏差,因此算法必須支持核苷酸錯配,即gap的存在。 同時,由于測序的短序列可能與基因組中的多個位置存在同源性,因此一個read會與基因組中的多個位置進行比對。 雙端測序技術(shù)在一定程度上可以校準(zhǔn)多個位置。 由于-end reads來自同一個DNA片段,兩者在基因組上的位置不會相差太遠,僅靠這一點并不能解決所有的同源比。 是的,這就需要比對算法對多個位置進行判別和打分,才能給出比對結(jié)果的可靠性。
4.核糖核酸
對于轉(zhuǎn)錄組數(shù)據(jù),真核生物存在可變剪接導(dǎo)致cDNA片段在基因組上的位置不連續(xù),中間可能存在內(nèi)含子。 在比較轉(zhuǎn)錄組數(shù)據(jù)時,需要考慮跳過剪接位點。
目前的工具有很多,如bwa、hisat、star等,其中hisat速度最快,是軟件的升級版。 使用改進后的算法,對于人類基因組來說,只需要大約4.3GB的顯存。同時支持DNA和RNA數(shù)據(jù)的比對。 軟件官網(wǎng)如下
目前最新版本。 安裝過程如下
wget ftp://ftp.ccb.jhu.edu/pub/infphilo/hisat2/downloads/hisat2-2.1.0-Linux_x86_64.zip
unzip hisat2-2.1.0-Linux_x86_64.zip
只需下載并解壓縮。
在比對之前,首先需要對參考基因組建立索引,基本用法如下
hisat2-build -p 20 ? hg19.fa hg19
對于轉(zhuǎn)錄組數(shù)據(jù),在做索引時,可以通過gtf文件獲取cut site和exon的信息,用法如下
hisat2_extract_splice_sites.py hg19.gtf > hg19.ss
hisat2_extract_exons.py hg19.gtf > hg19.exon
hisat2-build -p 20 ?--ss hg19.ss --exon hg19.exon ?hg19.fa hg19
支持多種格式的輸入文件,常用格式如下
法斯塔
快速地
-f參數(shù)表示輸入文件格式為fasta,-q參數(shù)表示輸入文件格式為fastq。 輸入文件可以是gzip壓縮后的文件,默認輸入文件是fastq格式。
對于推拉數(shù)據(jù),使用-U指定輸入文件; 對于雙端數(shù)據(jù),使用-1和-2分別指定R1和R2的輸入文件。
讀取映射到基因組上的一個位置,我們稱之為 . 軟件會對所有的項目進行評分和判斷,只有滿足過濾條件的才稱為有效,只有有效才能輸出。
與blast類似,每個玩家也有相應(yīng)的計分機制。 hisat評分從以下幾個方面
1.錯配核苷酸懲罰
不匹配核苷酸的懲罰由--mp參數(shù)指定,它的值是由冒號分隔的兩個數(shù)字,第一個數(shù)字是最大懲罰,第二個數(shù)字是最小懲罰
2. reads的gap
空位罰分為兩部分,第一空位罰分和空位延長罰分。 讀取的間隙懲罰由 --rdg 參數(shù)指定,其值是由冒號分隔的兩個數(shù)字。 一個數(shù)字是空位第一位置的罰分,第二個數(shù)字是空位延伸的罰分。
3.差距處罰
上面的gap 由--rdg參數(shù)指定,它的值是兩個用冒號隔開的數(shù)字。 第一個數(shù)字是空位第一位置的罰分dnastar序列比對,第二個數(shù)字是空位延伸的罰分。
經(jīng)過一系列懲罰機制后,每個人都會有一個對應(yīng)的分數(shù),然后通過一個閾值來判斷這個分數(shù)是否滿足有效要求。
hisat 通過--score--min 參數(shù)指定閾值。 指定方法是與讀取程度相關(guān)的函數(shù)。 默認值為L、0、-0.2dnastar序列比對,對應(yīng)函數(shù)為
f(x) = 0 - 0.2 * x
根據(jù)reads的寬度,可以估計score的閾值,小于閾值的就認為是有效的,可以輸出。 L代表線性函數(shù)。 此外,還支持其他類型的函數(shù),例如常數(shù)、自然對數(shù)等,更多選項請參考官方文檔。
一次讀取可能有多個有效值。 輸出時,不會全部輸出,只輸出-k參數(shù)指定的N個。 -k 參數(shù)的默認值為 5。
輸出結(jié)果保存為SAM格式,默認輸出到屏幕,可以通過-S參數(shù)指定輸出文件。
一般情況下,默認的參數(shù)就可以滿足我們的需求。推拉數(shù)據(jù)對比的用法如下
hisat -x hg19 -p 20 -U reads.fq -S align.sam
雙端數(shù)據(jù)使用如下
hisat -x hg19 -p 20 -1 R1.fq -2 R2.fq -S align.sam
·結(jié)尾·
—喜歡就分享給您的同事吧—
掃一掃關(guān)注微信,更多精彩內(nèi)容等你來!
如有侵權(quán)請聯(lián)系刪除!
Copyright ? 2023 江蘇優(yōu)軟數(shù)字科技有限公司 All Rights Reserved.正版sublime text、Codejock、IntelliJ IDEA、sketch、Mestrenova、DNAstar服務(wù)提供商
13262879759
微信二維碼