国产精品高清一区二区三区不卡-国产精品一区二区三区免费视频-日韩免费高清一级毛片-亚洲欧美一区二区三区国产精品-日韩欧美一区二区三区不卡视频-亚欧免费视频一区二区三区-亚洲欧美日韩一区成人-欧美日韩视频综合一区无弹窗-精品日韩在线视频一区二区三区-国内精品视频一区二区三区

你好,歡迎進入江蘇優(yōu)軟數字科技有限公司官網!

誠信、勤奮、創(chuàng)新、卓越

友好定價、專業(yè)客服支持、正版軟件一站式服務提供

13262879759

工作日:9:00-22:00

一文搞定轉錄組分析方法

發(fā)布時間:2023-11-12

瀏覽次數:0

在一篇文章中完成

轉錄組分析方法

- 5·30 -

總結一下比較合適

啦啦啦~今天是周末!

今天的推送來自粉絲投稿~一起來看看吧!

01

轉錄組()

序列比對算法_dnastar序列比對_序列比對結果如何分析

定義:轉錄組的概念最早由etl.提出。 1997年[PMID:],指特定物種的特定組織或細胞中轉錄的所有RNA的集合。

應用:

①轉錄組可以揭示基因表達的時空動態(tài),反映生物體特定細胞、組織或器官在特定生長發(fā)育階段所有基因的轉錄表達水平;

②同時轉錄組常用于比較某一器官、組織或細胞在不同環(huán)境條件下的基因表達差異;

序列比對結果如何分析_dnastar序列比對_序列比對算法

02

RNA-seq數據分析流程

序列比對算法_dnastar序列比對_序列比對結果如何分析

RNA-seq,RNA,RNA 測序。

實驗步驟如下:

① 靶組織總RNA的制備

② RNA樣品的片段化

③ 反轉錄成cDNA片段

④ 構建測序文庫

⑤ 原始數據處理(基于Linux或)

那么如何分析RNA-seq數據呢?

常規(guī)RNA-seq數據分析流程如下:

dnastar序列比對_序列比對算法_序列比對結果如何分析

序列比對結果如何分析_序列比對算法_dnastar序列比對

數字。 RNA-seq分析流程

下面,對分析動作的各步驟進行詳細說明。

03

原始數據質量控制

序列比對算法_dnastar序列比對_序列比對結果如何分析

① 原始數據格式:

序列確定后,以FASTQ格式輸出原始數據;

② 序列質控軟件:

序列質量控制軟件主要包括:軟件、軟件等。

一)軟件:

用于:過濾掉連接器()、低質量、重復和未檢測到的原始數據序列,以獲得干凈的數據;

B)軟件:

用于:檢測干凈數據的堿基質量值(score、Q-score)和堿基分布,確定測序和過濾效果,并用堿基測序錯誤率(Q20和Q30)來表示質量。

其中:Q20和Q30分別代表測序錯誤率為1%和0.1%的堿基比例。

GC 含量和樣品之間的相關性也用于鑒定原始測序的質量。

04

Clean Reads 的對齊和拼接

序列比對算法_dnastar序列比對_序列比對結果如何分析

完成從Raw Data到Clean Data的原始數據質量控制后,下一步就是Clean Reads的比對和拼接。

一般來說,對于不同類型的測序數據,組裝序列和比較序列的方法有不同:

① 參考基因組序列測序數據:

當將測序數據與參考基因組序列組裝時,您可以:

a) 首先通過序列作圖()將所有reads定位到參考基因組;

b) 然后將映射到相應位置的reads進行聚類,形成代表所有可能的選擇性剪接形式的圖;

c) 最后將圖信息轉換為轉錄信息;

具體步驟如下:

A) 首先從UCSC數據庫()下載參考基因組序列,并使用軟件將其構建成基因組索引(index)文件。

B) 然后,在構建的索引文件、全基因組序列信息和參考基因注釋信息的指導下,利用軟件對基因組上的質控測序reads進行定位。

常用的序列比對軟件如下:

,, STAR、GSNAP、SOAP2、S-MART 等

② 無參考基因組序列的測序數據:

在本領域,在沒有參考基因組序列的情況下對測序數據進行序列組裝也稱為從頭測序組裝(de novo)。

基本流程是:

a) 將每個測序讀段按照()的順序拼接成重疊群;

b) 然后組裝成括號();

c) 最后將腳手架中間的空隙填滿,組裝成一個長的連續(xù)序列;

d) 通過與模型動植物序列比對確定基因序列(基本本地工具,BLAST);

常用的序列比對軟件如下:

以軟件為代表的從頭組裝平臺為轉錄組從頭組裝提供了有效的工具。

該軟件包括 、 和 3 個獨立模塊。

使用時,三個軟件模塊按順序運行,將讀數組裝成完整的轉錄本。 拼接策略是將干凈的數據進行分割拼接,得到多個獨立的demap(基因轉錄產物),然后通過reads溯源。 這些去圖譜分類最終產生了全長轉錄本,并根據圖譜分類解析了旁系同源基因。

從頭開始組裝的常用軟件包括:

伊德納

深淵

抄本的問題:

在真核細胞中,每個基因可以產生多個轉錄本。 這會導致同一個測序片段同時出現在多個轉錄本中,導致RNA剪接成多個不相連的圖結構,每個圖對應該基因相應的轉錄產物。

上述兩種方法在進行序列拼接時,都希望將算法問題簡化為各個基因的拼接問題,并提出了拼接圖、重疊圖、去圖等多種圖模型來實現各個圖與基因之間的連接。相應的基因。 一對一對應。 兩種方法采用不同的拼接策略,各有其使用范圍,并且相輔相成。

一般來說,由于沒有參考信息,且受測序誤差、覆蓋不均等因素影響,從頭拼接算法的準確度明顯低于基于參考基因組的拼接算法。 然而,有些物種并不具有完整的基因組序列,而從頭剪接方法對于這些物種來說是開創(chuàng)性的。

此外,雖然有些物種擁有完整的基因組序列,但由于某些疾病等因素,其基因組發(fā)生了嚴重的突變和缺失。 在這種情況下,從頭拼接方法將顯示出明顯的優(yōu)勢。

待解決問題:

可以說,盡管進行了幾十年的研究,序列拼接仍然沒有找到令人滿意的解決方案。 主要問題如下:

A);

B) 序列組裝的時間和空間挑戰(zhàn);

C) 序列片段錯誤(雜質序列和堿基讀取錯誤);

D)之間的位置和距離無法準確確定;

上述問題往往會導致數據庫出現不可避免的拼接錯誤。

05

轉錄本表達分析

序列比對算法_dnastar序列比對_序列比對結果如何分析

構建的轉錄組分析方法可以對每個基因的表達進行歸一化,定量估計表達,并根據映射到基因組的序列數量進行差異表達分析。

常用的軟件有:

/,,RSEM,DESeq,edgeR

使用這些軟件,您可以計算:

A) 表達基因映射的reads數量;

B) 基因長度和結構;

C) 獲取基因的RPKM(reads per per reads)或FPKM(per of exon model per reads)值;

D)最后進行表達差異分析

一般來說,

A) 軟件:可以從同一轉錄本中獲取位于基因組上的片段;

B) 軟件:這些片段可以組裝成全長轉錄本;

C) - pare軟件:將全長轉錄本與現有基因組注釋文件進行比較,評估轉錄本構建,并根據已知數據庫中的轉錄本信息定義構建的轉錄本的內含子、外顯子和外顯子。 基因間和其他區(qū)域;

d) 軟件:每組樣本都可以拼接得到各自的轉錄本信息,軟件可以將它們合并成一個轉錄本集合,作為下一步差異表達信息分析的基礎。

E)包含的軟件:可用于計算兩個或多個樣品的基因表達量,并根據基因表達量對表達豐度進行統(tǒng)計分析和統(tǒng)計檢驗,以獲得不同樣品之間差異表達的RNA分子。

F) DESeq包:在這一步中,還可以使用DESeq包來進行不同處理之間的差異表達分析。 通過計算兩個處理中表達量相等的同一基因的P值,然后利用多重假設檢驗對F值進行修正,修正后的P值可以用來檢驗差異表達基因的顯著性。

06

選擇性剪接分析

序列比對算法_dnastar序列比對_序列比對結果如何分析

對于選擇性剪接的分析,一般使用軟件將reads與基因組序列進行比對,根據位置、長度和結構信息預測剪接體的類型,然后利用軟件包對剪接體進行差異表達分析。

其中,可用的軟件寶藏包括:

,,,, 等等。

目前轉錄組序列剪接位點識別算法主要有兩種:

① 以基因組序列中潛在位點為中心的剪接識別:

常用算法:

優(yōu)點:可以同時利用多機、多核CPU資源,并行運行,大大提高分析效率。

缺點:其剪接模式搜索依賴于基因組中潛在位點的預先識別,只能檢測特定距離內的保守剪接模式。

②以reads分割和匹配為中心的剪接位點識別:

常用算法:

優(yōu)點:完全以reads為中心,尋找剪接位點,不受保守剪接方式限制

缺點:由于基因組本身重復序列較多,測序過程中形成過多短片段,影響計算效率和匹配精度,降低剪接位點的可靠性。

常用的可變剪切數據庫包括:

H-InvDB

MAASE

.php

歐盟-普萊斯

.com

07

基因功能富集分析

序列比對算法_dnastar序列比對_序列比對結果如何分析

基因功能:是指代表某些功能特征和生物過程的眾多基因功能的集合。

基因功能富集分析:數百或數千個具有不同功能的基因、蛋白質或其他分子可以聚集到不同的生物通路中。 其中,往往富集了生物體中實現某些功能性狀的一組基因或蛋白質。 到某條路徑。 基因功能富集分析降低了后續(xù)分析的復雜性,還可以發(fā)現在生物過程中起關鍵作用的生物通路,有助于揭示和理解生物過程的基本分子機制。

常用的基因功能數據庫包括:

GO、KEGG、、、、、、ERGO、Gen-MAPP

例如:

① KEGG數據庫:

概述:可以系統(tǒng)分析細胞代謝途徑和基因產物的功能,通過KEGG分析實現表達基因的富集,并獲得相應的注釋。

方法:該分析可以通過KOBAS或DAVID等軟件來實現。 KEGG 網站為每個生物途徑提供了專門的插圖。

② 數據庫:

概述:本數據庫提供生物通路繪圖模板,研究人員可以根據數據庫要求和規(guī)定標準上傳相應的生物通路分析結果。

但數據庫不負責對用戶上傳的生物通路分析結果進行質量檢驗,導致資源質量參差不齊,數據庫重復較多。 盡管如此,該數據庫擁有海量的數據資源,并且與KEGG數據庫不同的是,它包含了大量代謝途徑以外的生物途徑dnastar序列比對,這對于篩選能力較強的研究人員具有重要的參考價值。

③ 數據庫:

概述:該數據庫可免費使用。 用戶可以利用數據庫資源繪制自己的生物通路,并以MAPP格式保存。 這個文件很小,很容易在互聯(lián)網上傳播,有利于研究人員之間隨時交流。

08

蛋白質相互作用網絡

序列比對算法_dnastar序列比對_序列比對結果如何分析

蛋白質相互作用網絡

(-,PPI)

概述:蛋白質相互作用網絡可用于分析差異表達基因蛋白參與的生物信號傳遞、基因表達調控、能量和物質代謝、細胞周期調控等生命過程。

意義:不僅可以了解蛋白質之間的功能聯(lián)系,還可以了解疾病等特殊生理條件下生物信號和能量物質代謝的反應機制。

常用的數據庫包括:

SWISS-PROT,,PDB,SDSPB等

軟件:

將差異表達基因數據導入軟件可以對蛋白質相互作用網絡進行可視化分析。

對于數據庫中沒有注釋信息的物種,需要將候選基因序列與數據庫中包含的密切相關物種的基因進行比較,然后利用現有的蛋白質相互作用關系來預測候選目標基因之間的PPI數據庫中的物種。 。

該方法首先需要根據文獻信息確定候選分子之間是否存在或可能存在相互關系,然后利用軟件構建交互網絡并分析關鍵節(jié)點,最后確定PPI。

網絡系統(tǒng)生物學可以利用網絡分析方法從整體層面研究生命體中各種相關生命活動之間的相互關系和動態(tài)變化,為全面揭示生命奧秘提供重要的研究方法。 通過網絡系統(tǒng)生物學的綜合分析從文獻挖掘中獲得的信息彌補了還原論分析方法的缺陷,更有利于更深入地理解生命現象的科學本質。

09

加權基因共表達網絡分析

序列比對算法_dnastar序列比對_序列比對結果如何分析

加權基因共表達網絡分析

(基因協(xié)同,WGCNA)

概述:WGCNA可以識別共表達基因、基因網絡與表型之間的相關性以及基因網絡中的核心基因。

目的:適用于不同器官或組織的發(fā)育調控、同一組織不同時間的發(fā)育調控等復雜數據模式的轉錄組數據挖掘。

方法:

兩個環(huán)節(jié):WGCNA分為兩個環(huán)節(jié):表達聚類分析和表型相關性;

四步:WGCNA的實施包括四個步驟:基因間相關系數計算、基因模塊確定、共表達網絡構建、模塊與性狀關聯(lián);

通過上述網絡分析,我們可以找到調控中心的樞紐基因,進而深入分析該基因,探究其功能。

傳統(tǒng)方法的缺點:

由于傳統(tǒng)的表達調控網絡分析方法是基于基因間表達的相關系數,當樣本數過少時,相關系數不可靠,得到的調控網絡價值不大。

WGCNA的優(yōu)勢:

WGCNA放棄了通過設定相關系數閾值來判斷基因是“相關”還是“不相關”的做法,而是對基因之間表達的相關系數進行適當的加權,以避免信息丟失,并使相應的基因表達調控網絡近似無標度。 網絡分布。

10

轉錄本數據分析中的兩個問題

序列比對算法_dnastar序列比對_序列比對結果如何分析

在上面的討論中,我們簡要回顧了分析轉錄組數據的工作流程以及基本分析中包含的各個組件。

事實上,在分析轉錄數據時有兩個重要問題:

① 如何從海量測序數據中準確拼接RNA序列;

② 如何從海量RNA序列中篩選目標候選基因并發(fā)現新基因;

下面,我們重點介紹一些篩選目標候選基因和發(fā)現新基因的方法:

11

序列同源性比較

序列比對算法_dnastar序列比對_序列比對結果如何分析

基本假設:

如果基因A與基因B同源,則基因A可能與基因B具有相似的功能。

基本方法:

對轉錄組數據分析得到的差異基因進行富集分析,找到相關通路中富集的候選基因,然后在NCBI上找到該基因或蛋白序列,然后利用序列同源性比較來預測新的基因功能。

利用同源比對算法在DNA或蛋白質序列數據庫中尋找待測序列的同源基因,獲得一系列與該基因同源性較高的基因或片段。 這些基因或片段的已知功能信息對于進一步的研究是有用的。 該基因功能提供了指導。

實施方式:

① 同源搜索:

軟件1: 軟件:

可以通過軟件進行同源基因檢索。 序列檢索時,軟件根據序列的結構和可能的功能,通過直系同源基因和旁系同源基因來搜索待檢索的序列。

一般認為,位于同一功能域的基因序列,即使來源于不同物種,也可以定義為直系同源基因;而屬于不同功能域的基因序列,即使來源于同一物種,也可以定義為旁系同源基因。 同源性搜索可以為基因組進化分析提供證據并預測候選基因功能。 但基于該軟件的直系同源基因搜索必須在相對完整的基因組之間進行;

軟件2:HMMER 3.0軟件:

此外,HMMER 3.0軟件還可用于基于隱馬爾可夫模型檢測序列比對結果中的保守區(qū)域,識別序列中已知的核酸或蛋白質結構域,并闡明序列之間的超科、科、亞科和種。 特異性和其他關系。

優(yōu)點是可以檢測遠距離同源序列。

同源搜索為發(fā)現進化或物種分化過程中的關鍵功能基因提供了重要工具。

② 多序列比對:

它同時對多個序列進行同源性比較,發(fā)現它們共同的結構特征。 該方法為尋找基因家族或蛋白質家族的保守區(qū)域提供了重要的技術支持。 保守區(qū)域與家庭成員的功能密切相關。 通過這些方法建立的蛋白質家族數據庫可以幫助尋找新基因所屬的蛋白質家族及其保守區(qū)域,并提供該家族其他成員的結構和功能信息。

多序列比對軟件主要包括:

/X,, ,SAGA,MEGA7,MSA,MAFFT 等

這些多序列比對軟件是使用各種程序開發(fā)的。

其中,應用最廣泛的比較程序是基于漸進比較算法的Clust-alW程序,但其準確度不高。

因此,陸續(xù)開發(fā)了其他比較方案,其中較有代表性和影響力的有:

基于迭代求精策略的PRRN/PRRP;

基于傅里葉變換;

基于多次迭代和 T-COF-FEEJ 等。

這些新程序提高了多序列比對的速度和準確性。

12

選擇信號方式

序列比對算法_dnastar序列比對_序列比對結果如何分析

選擇信號():

物種形成經歷了自然選擇或自然與人工的雙重選擇。 在長期的定向選擇壓力下,生物體的某些性狀和表型會發(fā)生定向變化,引起基因組某些區(qū)域的遺傳組成發(fā)生質和量的變化,導致不同等位基因頻率的變化,甚至產生新的等位基因。突變。

其中,選擇在基因組中留下的印記稱為選擇信號( )。

使用選擇信號法挖掘功能基因轉錄組數據的步驟如下:

①首先使用Gatk或Gatk等軟件篩選出轉錄組測序得到的SNP()數據;

②然后結合XP-EHH(交叉)方法檢測SNP數據,得到群體選擇信號;

③然后通過AND方法掃描群體選擇信號,最終獲得相關性狀的基因組選擇區(qū)域。

其中,由于每個選定區(qū)域的基因較多,因此首先計算每個基因中每個SNP位點的XP-EHH得分,然后將XP-EHH得分從低到高排序,得到該SNP位點的得分確定得分最高的基因所受到的選擇強度,最后確定該區(qū)域中XP-EHH得分最高的SNP位點的得分作為所選區(qū)域所受到的選擇強度。 因此,該區(qū)域中XP-EHH得分最高的SNP位點所在的基因就是該選擇區(qū)域的候選基因。

構建系統(tǒng)發(fā)育樹,對篩選出的候選基因進行分析,發(fā)現與物種群體和目標性狀密切相關的篩選基因。 同時與自然選擇和人工選擇聯(lián)系起來,進一步解釋所選基因在當時環(huán)境和進化中的作用。

13

極端數據法

序列比對算法_dnastar序列比對_序列比對結果如何分析

極端數據法基于以下假設:

健康組織中高表達的基因對于生物體充分發(fā)揮其生理功能具有潛在的重要作用。

在實際應用中:

采用百分位數法根據同源基因集的表達水平來劃分:

高表達組:表達量位于前10%的基因集;

中表達組:位于基因集的10%~50%;

低表達組:位于基因集的50%~90%;

極低表達組:基因集位于底部10%;

其中,極低表達組和高表達組被定義為極端數據集。

極端數據方法是指:

比較物種A高表達組和物種B相應組織極低表達組共有的同源基因,兩者的交集就是物種A表達的同源豪華基因,即該基因高表達在物種 A 中,與物種 B 中的相對應。組織中的表達非常低或沒有表達。

類似地,可以篩選出在物種B組織中特異性高表達但在物種A相應組織中表達極低或無表達的同源基因。

目前dnastar序列比對,百分位數法已廣泛用于挖掘相對高表達或物種特異性表達的同源基因。 但該方法也由于測序平臺、比對方法和軟件的差異,容易出現一定的系統(tǒng)誤差,導致假陽性結果比例較高,影響基因挖掘的準確性。 高表達基因分類標準不適當也會影響該方法的準確性。 開挖效果。

14

G0注釋和KEGG富集

序列比對算法_dnastar序列比對_序列比對結果如何分析

基于GO和KEGG數據庫開發(fā):

David、GOSim等軟件可以實現差異表達基因的注釋、富集分析和功能預測。

GO分析:

一般認為,一組具有相同生物學功能和調控機制的基因具有相似的G0注釋項。 只要計算已知基因和候選基因之間GO項的相似度,就可以推斷出候選基因產物的近似函數。

通過比較已知功能基因與GO語義的相似度,為未知基因功能的預測提供重要參考。

DAVID、GO都是GO富集分析常用的數據庫。 他們可以通過GO對差異基因進行分類,并基于離散分布分析分類結果的顯著性、誤判率和富集度,得到與實驗目的顯著相關的結果。 對假陽性率低、富集度高的基因功能進行分類,然后從這個分類中找到屬于同一GO功能分類的變化基因。 通過檢驗其統(tǒng)計顯著性,我們可以得到改變基因的主要生物學功能。

KEGG分析:

它計算差異表達基因通路的超幾何分布概率,富集每個差異表達基因通路上的所有差異表達基因,然后利用統(tǒng)計檢驗確定與某些差異表達基因顯著相關的通路,進而找出差異。 可能涉及表達基因的細胞生化過程。

通路富集分析的生物學假設是:

通路中上游基因表達的變化會導致下游相關基因表達的變化,從而改變該通路中大量基因的表達,并且表達的變化達到了富集分析的統(tǒng)計顯著水平。

在眾多的差異表達基因中,許多基因在相應的通路中彼此之間并不存在直接的調控關系,而是共同參與某一過程的不同環(huán)節(jié)。 這些基因大致構成了通路的整體輪廓。

實際分析中:

將差異表達基因集導入通路分析軟件,通過超幾何分布概率計算和基因差異表達顯著性檢驗,預測差異表達基因顯著富集的通路。

當然,預測結果需要深入觀察和了解某個核心通路中基因的相互作用,以確定差異表達的基因是否具有生物學意義。 一些無關緊要的通路也值得從功能注釋的角度進行解讀,只要其結果可以解釋,具有生物學意義,也可以作為后續(xù)生物學驗證分析的候選基因。

KEGG等數據庫收集了現有的研究成果,但許多通路信息還遠遠不夠完整。 因此,很多途徑只能顯示粗略的調控途徑,尚不清楚涉及哪些轉錄因子以及是否產生其他代謝產物。 知道。

數據庫中這些通路的完整性也會影響富集分析的結果。 隨著研究的深入,每條通路中越來越多的節(jié)點將被揭開,生命奧秘的面紗將逐漸被揭開,后續(xù)的差異也將被揭開。 基因功能分析也將變得更快、更準確、更高效。

15

BSR-Seq方法

序列比對算法_dnastar序列比對_序列比對結果如何分析

聚類分離分析 (BSA)

它是將兩個具有極端表型差異的目標性狀親本進行雜交。 F1代自交后,得到性狀分離的F2代。 選擇來自 F2 代中具有極端表型差異的個體的組織樣本并混合以構建兩個 DNA 或 mRNA 庫。 在兩個庫之間,基因序列差異片段是可能存在目的基因或數量性狀基因座(QTL)的候選區(qū)域。

該方法主要適用于:

定位物種質量性狀的單基因或數量性狀的主基因是快速獲得目標性狀主基因或與其密切相關的分子標記的有效方法,但對于次效基因的定位和分析意義不大。

BSR-Seq方法:

它將BSA與RNA-Seq相結合,實現實驗設計、測序分析、差異表達分析、基因功能分析和鑒定的全鏈條設計。

該方法首先選擇隔離群體中具有極端性狀的個體,收集組織樣本構建兩個差異表型樣本池,分別提取總RNA,并進行轉錄組測序。 根據測序得到的堿基總數(bp)與物種基因組大小的比例決定測序倍數。 將轉錄組測序獲得的干凈讀段與參考基因組進行比較,將與參考序列的獨特位置比對的讀段用于SNP發(fā)現。 然后利用經典的貝葉斯算法對SNP位點進行分析,最終找到與突變表型密切相關的基因組片段。

大量的RNA-Seq數據確保了特定物種在特定表達模式下性狀差異表達相關基因的SNP標記的開發(fā)。 通過對相關基因表達的進一步精細作圖和差異分析,可以逐步鑒定候選基因及其功能。 但該方法的定位結果是由物種親本多態(tài)性、深度測量、混合池數量等多個參數決定的。 如果想要獲得最佳參數,需要進行多次模擬實驗以及參考基因組的支持。

完成~

如有侵權請聯(lián)系刪除!

13262879759

微信二維碼