你好,歡迎進入江蘇優(yōu)軟數(shù)字科技有限公司官網(wǎng)!
發(fā)布時間:2023-11-27
瀏覽次數(shù):0
當研究 DNA 或蛋白質(zhì)序列時,主要關(guān)注的是它所包含的遺傳信息; 當研究兩個或多個DNA或蛋白質(zhì)序列時,主要關(guān)注的是不同序列之間的差異和聯(lián)系。 在生物信息學中,生物大分子的序列比對是一項非?;镜娜蝿铡?/p>
目前進化論的基本思想是生物結(jié)構(gòu)由簡單到復雜,物種由少到多。 在生命的進化過程中,DNA可能會發(fā)生突變(堿基替換)、插入、缺失等變化,使得不同物種的DNA序列既相似又不同。 序列比較()的主要思想是使用特定的算法來找到在兩個或多個序列之間產(chǎn)生最大相似度得分的空間插入和序列排列方案。 主要要解決的問題是DNA序列的插入和缺失變化。 。 根據(jù)比對序列的數(shù)量,可分為雙序列比對( )和多序列比對( )。 序列比對主要基于動態(tài)規(guī)劃算法(動態(tài)規(guī)劃算法),揭示序列中的保守區(qū)和非保守區(qū),分析序列的進化趨勢。
描述序列之間關(guān)系的概念包括同源性()、相似性()和距離()。 同源性是一個定性的概念,意味著不同的序列有共同的進化祖先; 相似度和距離都是定量概念,表示兩個序列之間的相似程度和差異程度。 如果兩個序列同源,則它們具有很高的相似性,但由于趨同進化( )的存在,高相似性并不一定意味著它們是同源的。
同源性可分為垂直同源性()和水平同源性()。 垂直同源性是共同祖先的不同進化分支。 水平同源性主要是由基因組復制事件產(chǎn)生的,例如動物α-珠蛋白和β-珠蛋白的同源性。 關(guān)系如下:
直向同源物通常具有相同或相似的功能,但旁系同源物不一定如此:缺乏自然選擇的原始力量,重復的基因副本可以更自由地突變并獲得新的功能。
相似度得分和距離是一對相反的變量,定量描述序列相似度和距離。 相似性得分是在一定評分規(guī)則下兩個序列的對應字符的函數(shù)。 一般來說,相同的字符(即堿基或氨基酸)越多,得分越高dnastar序列比對,如下圖:
然而,在進化過程中,除了堿基替換之外,還存在插入、刪除、重復等,因此,相似性描述序列的主要思想是通過在序列中插入空格來獲得最高的相似性分數(shù)(score)。序列:
其中,s1',s2'...sk'是在序列s1,s2...sk中插入空格得到的。
編輯距離的值取決于兩個序列對應位置處不同字符的數(shù)量。 不同的角色越多,價值就越大。 例如,漢明距離 ( ) 計算如下:
距離描述序列的主要思想是通過字符替換將一個序列轉(zhuǎn)換為另一個序列。 每次替換都記錄為成本。 考慮到插入和刪除的存在dnastar序列比對,該操作還可以擴展到字符替換和空格插入。 ,去除空格,因此多個序列之間的距離的描述就是將這些序列轉(zhuǎn)換為公共序列所需的最小成本:
如果不包括插入和刪除的空格,只計算對應字符的替換成本,則為編輯距離(edit)。
結(jié)尾
如有侵權(quán)請聯(lián)系刪除!
Copyright ? 2023 江蘇優(yōu)軟數(shù)字科技有限公司 All Rights Reserved.正版sublime text、Codejock、IntelliJ IDEA、sketch、Mestrenova、DNAstar服務提供商
13262879759
微信二維碼