国产精品高清一区二区三区不卡-国产精品一区二区三区免费视频-日韩免费高清一级毛片-亚洲欧美一区二区三区国产精品-日韩欧美一区二区三区不卡视频-亚欧免费视频一区二区三区-亚洲欧美日韩一区成人-欧美日韩视频综合一区无弹窗-精品日韩在线视频一区二区三区-国内精品视频一区二区三区

你好,歡迎進入江蘇優(yōu)軟數(shù)字科技有限公司官網(wǎng)!

誠信、勤奮、創(chuàng)新、卓越

友好定價、專業(yè)客服支持、正版軟件一站式服務(wù)提供

13262879759

工作日:9:00-22:00

hisat2:比對基因組工具簡介

發(fā)布時間:2023-06-05

瀏覽次數(shù):0

歡迎來到《生信修行指南》!

由于測序儀機器讀長的限制,在建庫過程中需要先對DNA進行片段化,測序得到的序列只是基因組上的部分序列。 為了確定測序讀數(shù)在基因組上的位置,需要將讀數(shù)與參考基因組進行比較,這一步稱為。

這樣做時,需要考慮以下因素

1、硬件資源消耗

一般來說,基因組越大,占用的顯存就越大。 優(yōu)化內(nèi)存消耗對于小型基因組(例如人類基因組)至關(guān)重要。

2、運行速度

隨著測序價格的提高和數(shù)據(jù)深度挖掘的需要,測序量越來越大,海量測序reads的比對必須足夠快。

3.確定性

SNP/indel、測序錯誤率等誘因會導(dǎo)致測序的reads與基因組上的原始序列存在數(shù)個bp的偏差,因此算法必須支持核苷酸錯配,即gap的存在。 同時,由于測序的短序列可能與基因組中的多個位置存在同源性,因此一個read會與基因組中的多個位置進行比對。 雙端測序技術(shù)在一定程度上可以校準(zhǔn)多個位置。 由于-end reads來自同一個DNA片段,兩者在基因組上的位置不會相差太遠,僅靠這一點并不能解決所有的同源比。 是的,這就需要比對算法對多個位置進行判別和打分,才能給出比對結(jié)果的可靠性。

4.核糖核酸

對于轉(zhuǎn)錄組數(shù)據(jù),真核生物存在可變剪接導(dǎo)致cDNA片段在基因組上的位置不連續(xù),中間可能存在內(nèi)含子。 在比較轉(zhuǎn)錄組數(shù)據(jù)時,需要考慮跳過剪接位點。

目前的工具有很多,如bwa、hisat、star等,其中hisat速度最快,是軟件的升級版。 使用改進后的算法,對于人類基因組來說,只需要大約4.3GB的顯存。同時支持DNA和RNA數(shù)據(jù)的比對。 軟件官網(wǎng)如下

目前最新版本。 安裝過程如下

wget ftp://ftp.ccb.jhu.edu/pub/infphilo/hisat2/downloads/hisat2-2.1.0-Linux_x86_64.zip
unzip hisat2-2.1.0-Linux_x86_64.zip

只需下載并解壓縮。

在比對之前,首先需要對參考基因組建立索引,基本用法如下

hisat2-build -p 20 ? hg19.fa hg19

對于轉(zhuǎn)錄組數(shù)據(jù),在做索引時,可以通過gtf文件獲取cut site和exon的信息,用法如下

hisat2_extract_splice_sites.py hg19.gtf > hg19.ss
hisat2_extract_exons.py hg19.gtf > hg19.exon
hisat2-build -p 20 ?--ss hg19.ss --exon hg19.exon ?hg19.fa hg19

支持多種格式的輸入文件,常用格式如下

法斯塔

快速地

-f參數(shù)表示輸入文件格式為fasta,-q參數(shù)表示輸入文件格式為fastq。 輸入文件可以是gzip壓縮后的文件,默認輸入文件是fastq格式。

對于推拉數(shù)據(jù),使用-U指定輸入文件; 對于雙端數(shù)據(jù),使用-1和-2分別指定R1和R2的輸入文件。

讀取映射到基因組上的一個位置,我們稱之為 . 軟件會對所有的項目進行評分和判斷,只有滿足過濾條件的才稱為有效,只有有效才能輸出。

與blast類似,每個玩家也有相應(yīng)的計分機制。 hisat評分從以下幾個方面

1.錯配核苷酸懲罰

不匹配核苷酸的懲罰由--mp參數(shù)指定,它的值是由冒號分隔的兩個數(shù)字,第一個數(shù)字是最大懲罰,第二個數(shù)字是最小懲罰

2. reads的gap

空位罰分為兩部分,第一空位罰分和空位延長罰分。 讀取的間隙懲罰由 --rdg 參數(shù)指定,其值是由冒號分隔的兩個數(shù)字。 一個數(shù)字是空位第一位置的罰分,第二個數(shù)字是空位延伸的罰分。

3.差距處罰

上面的gap 由--rdg參數(shù)指定,它的值是兩個用冒號隔開的數(shù)字。 第一個數(shù)字是空位第一位置的罰分dnastar序列比對,第二個數(shù)字是空位延伸的罰分。

經(jīng)過一系列懲罰機制后,每個人都會有一個對應(yīng)的分數(shù),然后通過一個閾值來判斷這個分數(shù)是否滿足有效要求。

hisat 通過--score--min 參數(shù)指定閾值。 指定方法是與讀取程度相關(guān)的函數(shù)。 默認值為L、0、-0.2dnastar序列比對,對應(yīng)函數(shù)為

f(x) = 0 - 0.2 * x

根據(jù)reads的寬度,可以估計score的閾值,小于閾值的就認為是有效的,可以輸出。 L代表線性函數(shù)。 此外,還支持其他類型的函數(shù),例如常數(shù)、自然對數(shù)等,更多選項請參考官方文檔。

一次讀取可能有多個有效值。 輸出時,不會全部輸出,只輸出-k參數(shù)指定的N個。 -k 參數(shù)的默認值為 5。

輸出結(jié)果保存為SAM格式,默認輸出到屏幕,可以通過-S參數(shù)指定輸出文件。

一般情況下,默認的參數(shù)就可以滿足我們的需求。推拉數(shù)據(jù)對比的用法如下

hisat -x hg19 -p 20 -U reads.fq -S align.sam

雙端數(shù)據(jù)使用如下

hisat -x hg19 -p 20 -1 R1.fq -2 R2.fq -S align.sam

·結(jié)尾·

—喜歡就分享給您的同事吧—

掃一掃關(guān)注微信,更多精彩內(nèi)容等你來!

如有侵權(quán)請聯(lián)系刪除!

13262879759

微信二維碼