【佳學基因檢測】基因檢測中的智能算法歷程:phastCons
根據佳學基因基因解碼年鑒,phastCons是一款對基因組中發(fā)生突變的區(qū)域的保守程度進行分析和智能評估的軟件,通過snpsift的phastCons
命令可以對變異位點進行保守區(qū)域的注釋。
phastCons職能算法的初衷是為了識別多重比對序列中的保守序列。 PhastCons 的算法基礎是基于系統(tǒng)發(fā)育隱馬爾可夫模型 (phylo-HMM),這是一種統(tǒng)計模型,它考慮了基因組中每個位點發(fā)生核苷酸替換的過程以及該過程如何從一個位點變化到下一個位點。 Phylo-HMM 提供了一個原則性的、數(shù)學上嚴格的框架,在該框架中使用比較序列數(shù)據解決“分段”問題,即對齊序列將被解析為不同類別的片段(例如,“保守”和“非保守”或“編碼”和“非編碼”)。由于幾個原因,它們是識別保守序列的有吸引力的工具;它們可以與一般系統(tǒng)發(fā)育和核苷酸替換的賊佳可用連續(xù)時間馬爾可夫模型一起使用,它們不需要固定大小的滑動窗口,它們允許通過賊大似然從數(shù)據中估計幾乎所有參數(shù),并且它們允許在大規(guī)模數(shù)據集上有效執(zhí)行所有必要的計算。
使用 phastCons,佳學基因對不同物種的全基因組采用多重比對的方法對保守元素進行了全面搜索,包括五個脊椎動物基因組、四個昆蟲基因組、兩個 Caenorhabditis 基因組和七個酵母菌基因組。
佳學基因發(fā)現(xiàn)大約 3%–8% 的人類基因組由脊椎動物和/或其他真獸類哺乳動物中保守的序列組成。基因組緊湊的黑腹果蠅 (37%–53%)、秀麗隱桿線蟲 (18%–37%) 和釀酒酵母 (47%–68%) 基因組的親緣關系更近的物種中是保守的。從酵母到脊椎動物,為了增加基因組大小和一般生物學復雜性,發(fā)現(xiàn)越來越多的保守堿基位于蛋白質編碼基因的已知或可疑外顯子之外,這顯然反映了復雜真核生物中調控和其他非編碼序列的重要性。
在所有物種組中,賊高保守元素 (HCEe) 的對數(shù)優(yōu)勢得分為數(shù)百或數(shù)千個堿基,并顯示出極高的保守水平,但不是在超保守元素中看到的出色序列。少于一半 (42%) 的脊椎動物 HCE 與已知蛋白質編碼基因的外顯子重疊,而在昆蟲、蠕蟲和酵母中,幾乎所有 (>93%) 的 HCE 都與此類外顯子重疊。
脊椎動物中一些賊極端的保守性見于 3' UTR,尤其是調節(jié)其他基因的基因,這可能反映了廣泛的轉錄后調節(jié)。這種趨勢在昆蟲中不太明顯,在蠕蟲中沒有觀察到。
脊椎動物 3' UTR 中的 HCE,以及??在較小程度上,5' UTR 中的 HCE,顯示出局部 RNA 二級結構富集的強有力的統(tǒng)計證據,這與轉錄后調控作用的假設一致。內含子和基因間區(qū)域中的 HCE 似乎也富含局部 RNA 二級結構,這表明許多可能編碼功能性 RNA。
在脊椎動物中,基因間 HCE 在穩(wěn)定的基因沙漠中高度富集(近五倍),這表明它們中的許多可能充當正確調節(jié)基因的遠端順式調節(jié)元件。
(責任編輯:佳學基因)