你好,歡迎進入江蘇優(yōu)軟數(shù)字科技有限公司官網(wǎng)!
發(fā)布時間:2023-08-02
瀏覽次數(shù):0
作為一個對微生物基因組了解不多、接觸微生物基因組時間較短的人來說,這樣系統(tǒng)的基因組學自學是一個漫長且極其困難的過程。 寫下這個過程更是痛苦。
但生活中卻有很多令人沮喪的事情。 人無遠慮,必有近憂。 畢竟到了我這個年紀,我的擔心就更多了。
好吧,如果我說太多的話,就會影響我拔劍的速度。
基因組學、轉(zhuǎn)錄組學、宏基因組學,如果我們想了解分析步驟,就需要了解建庫的原理。 這里我集中講一下二代測序。
基因組學是測量單個基因組,宏基因組學是測量樣本中所有物種的基因組,轉(zhuǎn)錄組是測量mRNA(建庫時使用cDNA)。
根據(jù)我們的分析目的,我們會進行兩種分析,一種是重測序,另一種是從頭測序。
重測序,這些情況對我們來說指的是基因組,我們想知道手頭的樣本的變異情況,就是這樣。
重測序,這些情況都是針對我們沒有參考基因組,需要進行基因組組裝,然后進行基因預測和功能分析。
不過,無論哪種情況,有些步驟是相同的??,那就是登陸數(shù)據(jù)的質(zhì)量控制。
并且(連接的程序,還有很多其他程序,我用這個來學習,這就是我學到的)
這是一長串圖片,可以幫助我們檢查質(zhì)量。 通常車外數(shù)據(jù)都會有自己的質(zhì)量控制,太差的數(shù)據(jù)不會給客戶dnastar拼接序列,除非客戶數(shù)據(jù)有問題!
基因組測序的解剖
一般來說,最好的方法是二代+三代測序。 三代測序的讀長長,二代測序準確,兩者可以相互校正。
然后我們一般都會見面,更多的是二代測序。 首先,我們描述有參考基因組的情況。
這樣的基因組不需要基因組剪接,直接利用短讀長來繪制參考基因組圖譜。 常用的程序有BWA和2.輸出BAM文件,可視化需要專門的可視化瀏覽器。
只有這個結果才能找到突變位點,SNP,indel,SV等,有些粗糙。 而這個結果還需要進一步解釋,比如編碼區(qū)實際上是否是非編碼區(qū),在此基礎上還可以做進一步的解釋,比如突變頻率、致病性等,所以挖掘信息的空間是比較大的。
簡單說一下兩種比較程序的區(qū)別:BWA主要用于與參考基因組差異較小的短序列進行比較。 其中,BWA-MEM用于比對測序讀數(shù)或?qū)⑵浣M裝成小型參考基因組,例如人類參考基因組。 該算法對測序錯誤具有良好的穩(wěn)定性,適用的reads寬度范圍廣,從70bp到幾Mb。
是一種超快速且節(jié)省內(nèi)存的工具,用于將測序讀數(shù)與長參考序列進行比對。 適合比對約 50 至 100 個堿基的讀數(shù)。
現(xiàn)在我們來說說沒有參考基因組的情況。
在沒有參考基因組的情況下,如果我們想要挖掘信息,就需要重新組裝基因組。 從頭開始拼接的程序有很多,ABySS、Flye等等。
這是我的總結:
拼接策略
算法
優(yōu)勢
深淵
盛開
增加了整體視頻內(nèi)存要求,以允許組裝小基因組。
圖形
處理和數(shù)據(jù)、使用和讀取的能力提供了混合組件。 它專為小基因組而設計,允許組裝單細胞 MDA 數(shù)據(jù)以及標準分離株。
弗萊
圖形,
用于單分子測序讀取的從頭組裝程序,例如 和 。 適用于各種數(shù)據(jù)集,從大型真菌項目到小型飼養(yǎng)廠組件。
組裝的序列可以直接用于預測基因和進行功能分析嗎?
不,還有兩個步驟,修正(針對三代:Pilon)和去重復序列()!
重復序列存在于多種物種中。 重復序列在真核基因組中更為豐富,例如,人類基因組的 47% 被認為由重復序列組成。 識別并掩蓋重復且低復雜性的 DNA 序列,以改進下游基因預測。
別問我重復序列是什么,又是一個短篇故事,我們放張圖吧!
一般來說,對于重復的序列,不是直接刪除,而是屏蔽掉,比如將序列改為大寫。
屏蔽重復序列,好吧,出來進行基因預測。
這里分為真核基因預測和原核基因預測:
真核基因預測: .
是一種基于廣義隱馬爾可夫模型的真核生物基因預測軟件工具。 為了預測基因組序列中不同區(qū)域和信號的統(tǒng)計特征,如內(nèi)含子、編碼外顯子、UTR、啟動子等。
包括100多個物種的預訓練模型,如果分析的真核生物沒有模型,則需要對模型進行訓練,即需要將RNA-Seq、蛋白質(zhì)、EST/cDNA等外部證據(jù)數(shù)據(jù)和數(shù)據(jù)進行訓練。已上傳。 提示是關于基因位置和結構的外在證據(jù)。 每個提示都是與特定基因組區(qū)域相關的本地信息。 在預測基因時,可以合并此類提示,這將改變候選基因結構的可能性。
它會傾向于預測與提示一致的基因結構。 輸出結果包括三部分, 1. GFF 格式的預測基因組特征的坐標。 包含基因、轉(zhuǎn)錄本、內(nèi)含子、起始密碼子、終止密碼子和CDS信息。 2.CDS序列:包含預測基因編碼區(qū)核酸序列的序列表。 3.蛋白質(zhì)序列:包含預測基因的蛋白質(zhì)序列的序列表。
原核基因預測:
基于注冊馬爾可夫模型,它已成功用于尋找代表數(shù)百個物種的真菌、古細菌和病毒中的基因。 結果包括序列表,其中包含預測基因的核酸序列。 序列名稱對應于行加上基因名稱。
GFF3格式:在這里可以看到GFF文件的結果,包括序列ID、預測類型、起始和結束位置、正鏈和負鏈條件。
和常用工具一樣,可以對剪接預測后的數(shù)據(jù)進行功能分析,比如蛋白質(zhì)功能比對、GO注釋、注釋以及KEGG通路注釋等。最后講到功能分析的時候再一起講。
對于基因組組裝序列或者框架圖或者僅僅是高質(zhì)量的數(shù)據(jù),我們可以在此基礎上進行MLST分型。
MLST 是研究重要公共衛(wèi)生支原體物種遺傳多樣性的有用工具,提供了便攜式且可重復的分型系統(tǒng)。 它是一種基于核酸序列的方法,通常使用七個管家基因的內(nèi)部片段序列來表征真菌分離株。 (需要選擇參考物種、MLST 等位基因序列和從 .org 獲得的概況數(shù)據(jù))。
說了這么多基因組數(shù)據(jù),我們來說說轉(zhuǎn)錄組數(shù)據(jù)的分析。
轉(zhuǎn)錄組數(shù)據(jù)分析
當我們進行轉(zhuǎn)錄組測序時,我們會測量此時細胞中的所有 mRNA 轉(zhuǎn)錄。
1. 對測序樣本進行質(zhì)量控制,過濾reads,剔除低質(zhì)量核苷酸。 與基因組相同,跳過。
轉(zhuǎn)錄組有一個參考基因組(你可以選擇幾個參考基因組進行分析,對嗎?)
與基因組參考類似,過濾后的讀數(shù)直接與參考基因組進行比較(比較軟件:STAR 和 BWA)。
STAR 用于比對小基因組,并有可能精確比對第三代測序技術中出現(xiàn)的長(數(shù)千個核苷酸)讀取。 BWA適合簡單的大規(guī)模轉(zhuǎn)錄組數(shù)據(jù)比較,例如真菌。 由于STAR支持剪接位點和融合reads檢查,結果不僅統(tǒng)計匹配的reads、剪接位點的數(shù)量和類型,還統(tǒng)計錯位、插入和gap統(tǒng)計。
比較結果是Bam文件。 統(tǒng)計與基因組比對的Reads分布,定位區(qū)域分為CDS(編碼區(qū))、(內(nèi)含子)、(基因間區(qū))和UTR(5'和3'非翻譯區(qū))。 在基因組注釋相對完整的物種中,與CDS(編碼區(qū))對齊的reads濃度一般是最高的。 與(內(nèi)含子)區(qū)域?qū)R的讀數(shù)源自前mRNA殘基或發(fā)生在選擇性剪接過程中。由內(nèi)含子引起的內(nèi)含子保留干擾,以及與(基因間區(qū)域)對齊的讀數(shù)可能是從新基因或新的非基因轉(zhuǎn)錄的。編碼RNA。
如果沒有參考基因組,則需要組裝轉(zhuǎn)錄本 (?)。
用于轉(zhuǎn)錄組組裝的組裝軟件,基于DBG(De)組裝原理組裝出高質(zhì)量的序列。
1):借助高質(zhì)量序列建立K-mer寬度的短序列庫,然后通過短序列之間的K-mer-1寬度延伸短序列,得到初步的拼接序列
2):通過序列降維,然后為每個類創(chuàng)建一個圖
3):處理圖,根據(jù)圖中的Reads和配對的Reads找到路徑,得到轉(zhuǎn)錄本
PMID 的:
雖然這個地方,拼接的結果有轉(zhuǎn)錄本/異構體。
我個人的理解:轉(zhuǎn)錄本是一個基因的多個轉(zhuǎn)錄本。
異構體,與該轉(zhuǎn)錄本對應的不同蛋白質(zhì)(并非所有轉(zhuǎn)錄本都會被翻譯。)
不過我看文獻,據(jù)說是抄本拼接體……
剪接的下一步是進行完整性評估(BUSCO),顧名思義,即根據(jù)單拷貝基因來評估剪接結果的質(zhì)量。
一般情況下,剪接后會進行基因預測,針對編碼區(qū)(這里指的是ORF,ORF不是基因,也不是外顯子)來預測轉(zhuǎn)錄組。
這里我也說一下CDS、ORF、外顯子的區(qū)別,因為我老是犯錯誤:
CDS:CDS 是翻譯產(chǎn)生蛋白質(zhì)的 DNA 實際區(qū)域。 在原核生物中,ORF和CDS是相同的。
ORF:ORF 是一種 DNA 序列,以起始密碼子“ATG”(并非總是)開始,以三個終止密碼子(TAA、TAG、TGA)中的任何一個結束。 根據(jù)出發(fā)點,根據(jù)遺傳密碼將任何堿基序列翻譯成多肽序列有六種可能的形式(正鏈上三種,互補鏈上三種),稱為閱讀框。 可能含有內(nèi)含子。 CDS一定是ORF,而ORF不一定是CDS。
外顯子:外顯子是基因的任何部分,通過 RNA 剪接去除內(nèi)含子后,將產(chǎn)生基因最終成熟 RNA 的該部分。 (摘自網(wǎng)絡解釋)
這是我在網(wǎng)上找到的兩張圖片,大家看一下。
我的理解是:ORF是多肽序列對應的mRNA或DNA序列,也就是說從起始密碼子到終止密碼子的mRNA序列(從mRNA上的AUG開始到終止密碼子結束,或者DNA序列從 ATG 開始,以 TAA、TAG、TGA 結束)。 之后它可能包含內(nèi)含子。 這是ORF,ORF可以翻譯成蛋白質(zhì)序列,所以這個ORF可能是一個基因,前一個基因的一部分,所以ORF越長越好。
成熟的 mRNA 剪接內(nèi)含子,留下外顯子(富含 5' 和 3' 非翻譯區(qū)。)
因為CDS是只能翻譯多肽的序列,所以不等于外顯子。 就這樣。
在轉(zhuǎn)錄組的編碼區(qū)預測中,將輸出GFF格式的預測CDS、預測蛋白和預測編碼區(qū)坐標。
在進行下一步分析之前,會進行一個去冗余步驟,這里提到的是CD-HIT得到代表序列()。
接下來就是轉(zhuǎn)錄組分析最常見、最重要的目的——差異基因分析。
第一個是定量的。
對于參考基因組,可以使用 HTSeq 包。 采用HTSeq統(tǒng)計比較各基因的值,作為該基因的原始表達量。 讀取計數(shù)與基因的真實表達水平以及基因的寬度和測序深度呈正相關。
這里將 BAM/SAM 文件與 GFF/GTF 注釋參考文件進行比較。
下面是讀取特征的方式,即這些比較的就認為是比較的,那些比較的就認為不是比較的,通常按照Union方案來統(tǒng)計。
在沒有基因組的情況下,轉(zhuǎn)錄本序列只能作為參考,將每個樣本的與參考序列進行比較,利用軟件RSEM獲得統(tǒng)計結果。
規(guī)劃工作完成后,下一步就是進行不同的表達分析(針對給出的中學策略)。
得到的MA圖、火山圖、MDS圖、熱力圖都是不同的表達可視化圖,就不贅述了。
同樣的,我們也可以對差異基因進行富集分析,上面也提到了。
這里順便說一下三代轉(zhuǎn)錄組測序()。 由于三代reads較長,請勿拼接。
:每次測序運行均由 ccs 軟件處理,為每個 ZMW(零模式波導)生成代表性的 CCS。
質(zhì)粒清理和復用:使用 lima 執(zhí)行質(zhì)粒清理和條形碼調(diào)用。
細化:此步驟包括 Poly(A) 尾部修剪以及多聯(lián)體識別和去除。
降維:
(選修的):
剩下的就和二代分析差不多了,定量,分析……
宏基因組學
我想研究沉積物的人應該對此很熟悉。
我們收到離面數(shù)據(jù)后,首先進行質(zhì)檢和拼接。 在獲得高質(zhì)量的序列后dnastar拼接序列,如果我們在進行宿主相關的研究,一般需要從測序數(shù)據(jù)中分離出宿主相關的DNA。
在自然環(huán)境中觀察到的真菌中,只有不到 1% 可以在正常實驗室條件下培養(yǎng),這使得絕大多數(shù)真菌難以用傳統(tǒng)微生物程序進行研究。 宏基因組學是將測序技術應用于自然環(huán)境中微生物群落的 DNA,從而測量此類樣本中微生物及其基因的整體多樣性。
宏基因組學實驗的第一個主要目標通常是測量和量化存在的微生物。 這個過程稱為分類分類或分析。 評估樣本分類組成的主要策略有兩種:擴增子測序 (16S/18S/ITS) 和全基因組測序 (WGS)。 擴增子測序分析雖然成本較低,但也有一些局限性,并且在某些真菌物種中,它們的 rRNA 基因之間沒有足夠的差異,無法進行物種鑒定。 宏基因組測序是來自整個樣本群落的所有基因組信息,也可以識別物種。
分類
簡而言之,通過物種組成進行 OTU 分類和產(chǎn)量分析。
宏基因組組裝:
拼接策略
算法
優(yōu)勢
德圖
大型基因組設計需要更多的資源并花費更多的時間,但也會帶來更好的結果,即更高的 Nx 值。
德圖
用于以省時且經(jīng)濟高效的方式組裝小型且復雜的宏基因組數(shù)據(jù)。
宏基因組基因預測:
是一個用于在短讀段中查找(片段化)基因的應用程序。 它還可用于預測不完整組裝或完整基因組中的原核基因。
是一款用于真菌和古細菌基因組蛋白質(zhì)編碼基因預測的軟件。
結果輸出:
接下來是功能分析:
-和
借助史密斯比對算法對旁系同源基因簇進行了功能注釋。 旁系同源基因是指由于物種產(chǎn)生的進化過程而在不同個體中形成的同源基因。 這個基因起源于一個共同的祖先; 因此,在進化過程中,旁系同源基因一般都保留著相同或相似的特征。 - 是一種使用基于正交分配的預先估計快速對新序列(基因或蛋白質(zhì))進行功能注釋的工具。
輸入帶有分析的序列(可以是蛋白質(zhì)序列和基因組序列),蛋白質(zhì)序列用于在整理數(shù)據(jù)庫中搜索,猜測同源蛋白質(zhì),功能注釋(參考鏈接:)。
輸出結果還包括 GO 注釋的鏈接。
Pfam 是一種廣泛使用的蛋白質(zhì)家族域數(shù)據(jù)庫,它依靠多重序列比對和隱馬爾可夫模型 (HMM) 來識別一個或多個蛋白質(zhì)功能域。 它是一個蛋白質(zhì)比較工具。
宏基因組樣本的比較與分析(分類產(chǎn)量比較和功能差異產(chǎn)量分析)
注釋差異分析
差異產(chǎn)量分析
功能差異產(chǎn)量分析
接下來詳細說一下功能分析,即用于功能注釋和序列數(shù)據(jù)分析。 主要是技巧。 通過提取與獲得的命中相關的 GO 術語并返回查詢序列來評估 GO 注釋。 酶代碼是從等效的 GO 圖譜中獲得的,而基序是直接在 . GO注釋可以通過重建基因本體關系和通路結構來可視化。 主要包括5個步驟:、、標注、統(tǒng)計分析和可視化。
如有侵權請聯(lián)系刪除!
Copyright ? 2023 江蘇優(yōu)軟數(shù)字科技有限公司 All Rights Reserved.正版sublime text、Codejock、IntelliJ IDEA、sketch、Mestrenova、DNAstar服務提供商
13262879759
微信二維碼