你好,歡迎進(jìn)入江蘇優(yōu)軟數(shù)字科技有限公司官網(wǎng)!
發(fā)布時(shí)間:2023-06-19
瀏覽次數(shù):0
RNA-seq 是轉(zhuǎn)錄組研究的一項(xiàng)基本技術(shù)。 自推出以來,已經(jīng)開發(fā)了數(shù)百種分析工具,分析中不同步驟所涉及的權(quán)衡(如速度、資源消耗、靈敏度、準(zhǔn)確性等)是至關(guān)重要的。 RNA-seq分析包括序列比對(duì)、轉(zhuǎn)錄本組裝、表達(dá)定量、差異分析、可變剪接、融合基因檢測(cè)、突變分析、RNA編輯等。一般分析不需要貫穿整個(gè)過程,可以簡(jiǎn)化基于你自己的需要。 那么,在給定成本和性能限制的情況下,此類分析工具是否存在確定性的最佳組合?
2017 年,他發(fā)表了關(guān)于轉(zhuǎn)錄組分析過程的研究。 針對(duì)15個(gè)樣本(正常樣本、癌細(xì)胞和干細(xì)胞、短讀長(zhǎng)和長(zhǎng)讀長(zhǎng)測(cè)序數(shù)據(jù))的轉(zhuǎn)錄組數(shù)據(jù),借助39個(gè)工具,對(duì)約120個(gè)常見組合進(jìn)行了約490個(gè)深度分析RNA-seq 的形式,并以測(cè)序質(zhì)量控制聯(lián)盟 (SEQC) qPCR 測(cè)量結(jié)果作為陰性對(duì)照,以綜合評(píng)估 RNA-seq 的分析工作流程。 研究人員總結(jié)出一套普適過程,如右圖所示:
RNA-seq 分析的第一步通常是識(shí)別一組表達(dá)的轉(zhuǎn)錄本,這通常涉及將讀數(shù)與適當(dāng)?shù)膮⒖夹蛄羞M(jìn)行比對(duì),然后根據(jù)比對(duì)構(gòu)建轉(zhuǎn)錄本。 一般以基因組或轉(zhuǎn)錄組序列為參考dnastar拼接序列,以參考基因組為參考可查新轉(zhuǎn)錄本,但需要耗費(fèi)資源的reads ; reads 使用轉(zhuǎn)錄組序列作為參考相對(duì)容易,但不允許檢查新的轉(zhuǎn)錄本。 如果研究物種沒有可靠的參考序列(基因組或轉(zhuǎn)錄組),可以采用de novo 來鑒定轉(zhuǎn)錄本,即沒有“參考”的轉(zhuǎn)錄組,沒有合適的參考序列,組裝轉(zhuǎn)錄本序列從頭開始,然后轉(zhuǎn)錄量化書。 下面從幾個(gè)方面比較不同工具和工具組合的性能。
1. 序列比對(duì)質(zhì)量評(píng)估
研究人員評(píng)估了 STAR 和 STAR 在對(duì)齊和切點(diǎn)預(yù)測(cè)方面的性能。 STAR 仍然具有最高比例的唯一映射讀取對(duì),即在基因組上具有唯一對(duì)齊位置的讀取比例最高。 與STAR不同的是,STAR只保留-end reads與基因組比對(duì)的序列,對(duì)低質(zhì)量比對(duì)具有較高的容忍度(容忍更多的錯(cuò)配核苷酸和soft-clip干擾)。 soft-clip干擾表明reads末端存在低質(zhì)量核苷酸或,造成無法比對(duì)的干擾。 STAR會(huì)手動(dòng)嘗試剪掉未對(duì)齊的部分,只保留對(duì)齊的部分,不允許soft-clip storm。 在平均比較速度方面,分別比STAR和STAR快2.5倍和約100倍。
2. 解理位點(diǎn)檢查與評(píng)價(jià)
轉(zhuǎn)錄組或RNA測(cè)序獲得的reads與DNA測(cè)序的區(qū)別在于reads可能來源于兩個(gè)(或多個(gè))外顯子區(qū)域,導(dǎo)致reads的一端在比對(duì)時(shí)與第一個(gè)外顯子對(duì)齊。 前面部分,另一端與第二個(gè)外顯子的后面部分(如右邊的reads)進(jìn)行比較,然后產(chǎn)生切點(diǎn)(site),帶有site的reads稱為reads,有a on the 剪接、鑒定、替代剪切分析和差異分析都非常重要。
研究人員使用維恩圖顯示了不同比較工具測(cè)量的共同和獨(dú)特的切點(diǎn)(如右圖所示)。 數(shù)字代表刀具測(cè)得的切割點(diǎn)數(shù),百分比代表每組切割點(diǎn)數(shù)。 驗(yàn)證比率。 dbEST 數(shù)據(jù)庫中至少有兩個(gè)表達(dá)序列標(biāo)簽支持的站點(diǎn)被用作陰性對(duì)照。
結(jié)果顯示所有樣品中拼接點(diǎn)驗(yàn)證率最高 (80%-91%),盡管測(cè)量或預(yù)測(cè)的拼接點(diǎn)總數(shù)明顯多于 STAR。
3. 基于比對(duì)的轉(zhuǎn)錄組組裝評(píng)價(jià)
在基于剪接的比對(duì)之后,轉(zhuǎn)錄組組裝可用于識(shí)別表達(dá)的轉(zhuǎn)錄本組。 研究人員比較了兩種最廣泛使用的用于下一代測(cè)序數(shù)據(jù)的轉(zhuǎn)錄組組裝工具和 . 對(duì)于比較部分, , STAR 和 。
除了short-read 檢測(cè)方法,研究人員還對(duì)IDP( and )預(yù)測(cè)工具進(jìn)行了研究。 IDP采用混合方法,利用短讀長(zhǎng)輔助長(zhǎng)讀長(zhǎng)進(jìn)行檢測(cè)(與基于GMAP相比)。 將預(yù)測(cè)的亞型或轉(zhuǎn)錄本與 v19 中的參考轉(zhuǎn)錄組注釋進(jìn)行比較以測(cè)試準(zhǔn)確性,并且 v19 中缺失的轉(zhuǎn)錄本被認(rèn)為是假陽性 (FP),即假陰性。
通常,每個(gè)轉(zhuǎn)錄本中包含的外顯子數(shù)量可以作為轉(zhuǎn)錄本組裝質(zhì)量的評(píng)價(jià)標(biāo)準(zhǔn),單外顯子轉(zhuǎn)錄本通常被認(rèn)為具有最差的有效性。 從單外顯子轉(zhuǎn)錄本的數(shù)量來看,約占30%,約占15%,此類單外顯子轉(zhuǎn)錄本約90%為假陰性(FP)。 就拼接轉(zhuǎn)錄本的數(shù)量而言,比它多了50-200%。 IDP組裝了所有的多外顯子轉(zhuǎn)錄本(很難識(shí)別單外顯子轉(zhuǎn)錄本),其外顯子數(shù)量分布與v19更相似。 并且Iso-Seq算法有94%的單外顯子轉(zhuǎn)錄本和77%的多外顯子轉(zhuǎn)錄本缺失,反映出Iso-Seq方法在檢查新轉(zhuǎn)錄本時(shí)具有更高的靈敏度,但False 較高。
對(duì)于基因水平的組裝,IDP的準(zhǔn)確性和靈敏度最好,IDP組裝了更多的多轉(zhuǎn)錄本基因(右圖b),比IDP更準(zhǔn)確和靈敏。
對(duì)于轉(zhuǎn)錄本級(jí)組裝,IDP 比其他工具準(zhǔn)確 20%,靈敏度介于(更靈敏)和(稍不靈敏)之間。 基于短讀長(zhǎng)的組裝工具中,轉(zhuǎn)錄水平的準(zhǔn)確率平均比IDP高11%,轉(zhuǎn)錄水平的靈敏度高25%; 組裝速度比IDP快60倍左右,比IDP快50倍左右。
4. 成績(jī)單從頭組裝評(píng)估
當(dāng)參考基因組或轉(zhuǎn)錄組缺失時(shí),可以使用從頭組裝構(gòu)建轉(zhuǎn)錄本。 研究人員評(píng)估了三種廣泛使用的轉(zhuǎn)錄本從頭組裝工具 Oases 和 -Trans。
傾向于預(yù)測(cè)更長(zhǎng)的亞型和更多的基因和轉(zhuǎn)錄本,Oases 仍然在所有樣本中形成最高的 N10 到 N50 值,表明其在檢查長(zhǎng)亞型方面的優(yōu)勢(shì)。 -Trans 在高表達(dá)基因處有一個(gè)峰值,表明測(cè)量高表達(dá)亞型的強(qiáng)烈傾向,并且在比對(duì)質(zhì)量(與參考的一致性比率)方面平均比 Oases 高 3%。 將構(gòu)建的轉(zhuǎn)錄本與參考注釋進(jìn)行比較,-Trans和-Trans分別具有更高的內(nèi)含子水平精度和靈敏度,Oases和-Trans在內(nèi)含子鏈水平精度方面優(yōu)于-Trans。
5.表達(dá)式的定量比較
傳統(tǒng)的表達(dá)分析是直接將reads與參考基因組或轉(zhuǎn)錄組進(jìn)行比對(duì),然后估計(jì)轉(zhuǎn)錄本產(chǎn)量。 如果您需要檢查新識(shí)別的轉(zhuǎn)錄本的產(chǎn)量,您可以使用轉(zhuǎn)錄組組裝工具,例如和。 當(dāng)只關(guān)注已注釋基因的定量時(shí),可以使用reads直接比對(duì)參考轉(zhuǎn)錄組,然后使用RSEM等工具提高生產(chǎn)力。 例如,經(jīng)典的無參考轉(zhuǎn)錄組首先與基于從頭組裝工具的參考轉(zhuǎn)錄組組裝在一起。
另一種基于轉(zhuǎn)錄本的量化方法是直接判斷reads從哪些轉(zhuǎn)錄本開始,無需比對(duì),在估算資源上更經(jīng)濟(jì)。 , , quasi- 和 是這種估計(jì)方法的代表,解決了每個(gè)reads是由哪個(gè)異構(gòu)體產(chǎn)生的問題。
研究人員比較了基于基因組比對(duì)的定量工具(使用不同的比對(duì)工具)、基于轉(zhuǎn)錄組比對(duì)的定量工具與-Aln、無比對(duì)的定量工具、-SMEM 和-Quasi,以及基于長(zhǎng)讀長(zhǎng)的 IDP(使用不同的短讀長(zhǎng)和長(zhǎng)讀長(zhǎng)比較工具),利用上述組合得到一個(gè)樣本的基因表達(dá)譜,對(duì)表達(dá)量取對(duì)數(shù),進(jìn)行秩和相關(guān)分析,評(píng)價(jià)表達(dá)譜的相似性。 結(jié)果表明,定量結(jié)果與其他工具的相關(guān)性最差(大于0.4),無需將直接定量工具與估計(jì)結(jié)果進(jìn)行比較,相關(guān)系數(shù)為0.6-0.8。 -具有基于轉(zhuǎn)錄組比對(duì)的工具和 -Aln 的 SMEM 集群,并且 -SMEM 運(yùn)行得更快。
研究人員還比較了同一樣本的不同測(cè)序讀數(shù)(MCF7-100 和 MCF7-300)的數(shù)據(jù),以評(píng)估定量穩(wěn)定性。 兩個(gè)對(duì)齊無關(guān)的量化工具和-SMEM 具有最一致的量化結(jié)果。 總體而言,STAR-based比對(duì)結(jié)果的定量穩(wěn)定性高于STAR-based比對(duì),盡管作為短讀比對(duì)工具,它在預(yù)測(cè)一致性方面最有效。 綜上所述,non--based 是高效的,和 的組合是-based量化工具中性能最好的,但是速度比non--based工具慢了一個(gè)數(shù)量級(jí)。 通過比較不同的比較工具,研究人員認(rèn)為在分析具有挑戰(zhàn)性的樣本時(shí),Sum 優(yōu)于 STAR。
6. 差異表達(dá)分析與評(píng)價(jià)
識(shí)別不同樣本或不同處理?xiàng)l件下的差異表達(dá)基因集是許多RNA-seq的重要目標(biāo),檢查差異表達(dá)基因的方法有很多,包括-based、limma和edgeR、-based和無需比較和量化用于差異分析。 在 SEQC 樣本(SEQC-Avs.SEQC-B 和 SEQC-Cvs.SEQC-D)中通過 qRT-PCR 量化的 1001 個(gè)基因被用作對(duì)照來評(píng)估差異分析工具的性能。
在所有組合中,性能最好,而 、limma 和 edgeR 的性能稍差。 對(duì)于準(zhǔn)確性, 和 的準(zhǔn)確性仍然高于基于 的工具。 基于的工具比基于的工具效率更高,無需比對(duì)直接量化的工具可以獲得高質(zhì)量的差異分析結(jié)果。 對(duì)于 AUC-30 的恐懼,edgeR 表現(xiàn)最好,但與它相差不大。
7. RNA-seq 變異分析的評(píng)價(jià)
測(cè)量基因組和轉(zhuǎn)錄組變異對(duì)于理解基因表達(dá)的調(diào)控和可能影響基因表達(dá)的癌癥相關(guān)變異至關(guān)重要,而 GATK 通常用于 RNA-seq 變異分析。 分析發(fā)現(xiàn),與STAR不同的是,GATK和STAR在用于對(duì)比時(shí)具有相似的性能,總體上兩者在不同樣本上的執(zhí)行時(shí)間相似。
8. RNA 融合檢查評(píng)估
RNA-seq 的另一個(gè)重要應(yīng)用是融合基因的測(cè)量,融合基因通常在各種疾病類型的發(fā)展中發(fā)揮關(guān)鍵作用。 常用JAFFA、STAR-、-、以及從RNA-seq中識(shí)別融合風(fēng)暴。 除了基于短讀長(zhǎng)的分析工具外,IDP- 和 Iso-Seq 還可以從長(zhǎng)讀長(zhǎng) RNA-seq 數(shù)據(jù)中識(shí)別融合基因。
研究人員使用 MCF-7 卵巢癌細(xì)胞系中的 71 個(gè)經(jīng)過驗(yàn)證的基因融合對(duì)該工具進(jìn)行了評(píng)估。 具有最敏感和準(zhǔn)確的預(yù)測(cè),也表現(xiàn)出更高的靈敏度,而基于長(zhǎng)讀的 IDP- 表現(xiàn)出最好的準(zhǔn)確性。
在運(yùn)行速度方面,STAR-比其他工具快10倍以上,而and-估計(jì)資源需求更高。
總結(jié):RNA-seq 分析中工具和估計(jì)方法的選擇對(duì)分析的準(zhǔn)確性和運(yùn)行時(shí)間有很大影響。 具有最快和最準(zhǔn)確的拼接對(duì)準(zhǔn),盡管不如 STAR 敏感,因此可能是涉及可變剪切剖面的管道的優(yōu)先選擇。 在大多數(shù)情況下,它比 . 更快、更準(zhǔn)確。 和edgeR提供了最準(zhǔn)確的差分分析dnastar拼接序列,可以作為差分分析的首選。 當(dāng)用作比對(duì)工具時(shí),GATK 同樣適用于變異分析。
盡管缺少一些單外顯子亞型,IDP 和 Iso-Seq 等長(zhǎng)讀長(zhǎng)格式可以識(shí)別短讀技術(shù)遺漏的許多新的多外顯子轉(zhuǎn)錄本,這表明廣度對(duì)于識(shí)別新的多外顯子變異很重要。 然而,它在準(zhǔn)確預(yù)測(cè) RNA 融合干擾方面也具有顯著優(yōu)勢(shì),盡管可能會(huì)有更高的實(shí)驗(yàn)成本。 -SMEM 和其他無對(duì)齊工具具有最一致和準(zhǔn)確的量化,前提是不需要檢查新的異構(gòu)體(可能只針對(duì)少數(shù)類型物種,它們具有相對(duì)可靠的異構(gòu)體信息),-SMEM 可以用作最精確但資源高效的解決方案。
研究人員通過不同的工具組合對(duì)測(cè)試數(shù)據(jù)集進(jìn)行了剖析,明確了哪種工具更適合轉(zhuǎn)錄組分析。 似乎從測(cè)試數(shù)據(jù)集的可以推導(dǎo)出在整體方面更有優(yōu)勢(shì)的各個(gè)工具的性能和工具組合,不一定完全適用于特定的數(shù)據(jù)集或目標(biāo)基因我們很關(guān)心。 如果有興趣并且有分析能力,對(duì)于個(gè)人來說,也可以考慮用不同的組合來分析同一個(gè)目標(biāo)數(shù)據(jù)集,然后用實(shí)驗(yàn)驗(yàn)證的結(jié)果作為評(píng)價(jià)指標(biāo),對(duì)于大多數(shù)研究者來說是沒有必要的。
參考:
SME,M,,H,PT,AuKF,,MB,,MP,E,.-RNA-seq.Nat.;8(1):59.doi:10.1038/-017-00050- 4.PMID:;PMCID:。
GaoY, WangJ, ZhaoF.CIRI:.Biol.;16(1):4.doi:10.1186/-014-0571-3.PMID:;PMCID:.
如有侵權(quán)請(qǐng)聯(lián)系刪除!
Copyright ? 2023 江蘇優(yōu)軟數(shù)字科技有限公司 All Rights Reserved.正版sublime text、Codejock、IntelliJ IDEA、sketch、Mestrenova、DNAstar服務(wù)提供商
13262879759
微信二維碼