【佳學(xué)基因檢測(cè)】基因檢測(cè)數(shù)據(jù)庫(kù)調(diào)用內(nèi)容中的VCF文件中的INFO的意義:培訓(xùn)教材
基因檢測(cè)技術(shù)導(dǎo)讀:
完整高效的基因檢測(cè)包括基因檢測(cè)位點(diǎn)的先擇、基因序列的獲取、基因突變的序列的鑒定、突變位點(diǎn)生理學(xué)意義的注釋?;谌怙@子測(cè)序和全基因測(cè)序的基因檢測(cè)由于獲取的是全部基因序列,基因位點(diǎn)的選擇就不重要了,而基因突變序列的鑒定和生理學(xué)意義的注釋成為非常重要的環(huán)節(jié)。雖然, 基因解碼在數(shù)據(jù)庫(kù)比對(duì)之外,采用了更高級(jí)的序列注釋分析方法,但是,數(shù)據(jù)庫(kù)比對(duì)、調(diào)用及注釋是全外顯子測(cè)序基因檢測(cè)和全基因測(cè)序基因檢測(cè)的賊為基礎(chǔ)的一環(huán)。下面,是佳學(xué)基因?qū)ι镄畔⒏呓?jīng)技巧班學(xué)員進(jìn)行進(jìn)一步有培訓(xùn)的內(nèi)容之一。
不同的VCF的內(nèi)容
8. INFO為variant的詳細(xì)信息 字段的意思可以在header里搜索去看
上面vcf 中INFO全為“.”了,是因?yàn)橛?vcftools 某步過濾SNP輸出文件時(shí)用了 --recode ,這樣就不輸出info信息,以 . 代替了,想輸出info,可以--recode-INFO xx(如MQ) 或者 --recode-INFO-all (所有info全部輸出)
#DP-read depth:樣本在這個(gè)位置的reads覆蓋度。是一些reads被過濾掉后的覆蓋度。DP4:高質(zhì)量測(cè)序堿基,位于REF或者ALT前后
#QD:通過深度來評(píng)估一個(gè)變異的可信度。Variant call confidence normalized by depth of sample reads supporting a variant
#MQ:表示覆蓋序列質(zhì)量的均方值RMS Mapping Quality
#FQ:phred值關(guān)于所有樣本相似的可能性
#AC,AF 和 AN:AC(Allele Count) 表示該Allele的數(shù)目;AF(Allele Frequency) 表示Allele的頻率; AN(Allele Number) 表示Allele的總數(shù)目。
#FS
FS是一個(gè)通過Fisher檢驗(yàn)的p-value轉(zhuǎn)換而來的值,它要描述的是測(cè)序或者比對(duì)時(shí)對(duì)于只含有變異的read以及只含有參考序列堿基的read是否存在著明顯的正負(fù)鏈特異性(Strand bias,或者說是差異性)。這個(gè)差異反應(yīng)了測(cè)序過程不夠隨機(jī),或者是比對(duì)算法在基因組的某些區(qū)域存在一定的選擇偏向。如果測(cè)序過程是隨機(jī)的,比對(duì)是沒問題的,那么不管read是否含有變異,以及是否來自基因組的正鏈或者負(fù)鏈,只要是真實(shí)的它們就都應(yīng)該是比較均勻的,也就是說,不會(huì)出現(xiàn)鏈特異的比對(duì)結(jié)果,F(xiàn)S應(yīng)該接近于零。 使用F檢驗(yàn)來檢驗(yàn)測(cè)序是否存在鏈偏好性。鏈偏好性可能會(huì)導(dǎo)致變異等位基因檢測(cè)出現(xiàn)錯(cuò)誤。輸出值Phred-scaled p-value,值越大越可能出現(xiàn)鏈偏好性。
#MLEAC:Maximum likelihood expectation (MLE) for the allele counts (not necessarily the same as the AC), for each ALT allele, in the same order as listed. 對(duì)于每個(gè)ALT等位基因,等位基因計(jì)數(shù)(不一定與AC相同)的賊大似然期望(MLE),順序與列出的順序相同
#MLEAF:Maximum likelihood expectation (MLE) for the allele frequency (not necessarily the same as the AF), for each ALT allele, in the same order as listed. 對(duì)于每個(gè)ALT等位基因,等位基因頻率(不一定與AF相同)的賊大似然期望(MLE),順序與列出的順序相同
StrandOddsRatio(SOR)
關(guān)于SOR在上面講到FS的時(shí)候,我就在注釋里提及過了。它同樣是對(duì)鏈特異(Strand bias)的一種描述,但是從上面我們也可以看到FS在硬過濾的時(shí)候并不是非常給力,而且由于很多時(shí)候read在外顯子區(qū)域末端的覆蓋存在著一定的鏈特異(這個(gè)區(qū)域的現(xiàn)象其實(shí)是正常的),往往只有一個(gè)方向的read,這個(gè)時(shí)候該區(qū)域中如果有變異位點(diǎn)的話,那么FS通常會(huì)給出很差的分值,這時(shí)SOR就能夠起到比較好的校正作用了。計(jì)算SOR所用的統(tǒng)計(jì)檢驗(yàn)方法也與FS不同,它用的是symmetric odds ratio test,數(shù)據(jù)是一個(gè)2×2的列聯(lián)表(如下),公式也十分簡(jiǎn)單,我把公式進(jìn)行了簡(jiǎn)單的展開,從中可以清楚地看出,它考慮的其實(shí)就是ALT和REF這兩個(gè)堿基的read覆蓋方向的比例是否有偏,如果有效無偏,那么應(yīng)該等于1。
VQSLOD是什么意思,有什么用途?
VQSLOD是Variant Quality Score Log Odds Ratio的縮寫,它是一種用于衡量變異位點(diǎn)質(zhì)量的指標(biāo),常用于遺傳變異的鑒定、分類和篩選。
VQSLOD指標(biāo)是由GATK(Genome Analysis Toolkit)開發(fā)的一種方法,在變異位點(diǎn)質(zhì)量評(píng)估中得到廣泛應(yīng)用。該指標(biāo)通過比較某個(gè)變異位點(diǎn)的觀測(cè)結(jié)果與期望結(jié)果之間的對(duì)數(shù)比值來計(jì)算變異位點(diǎn)的質(zhì)量。VQSLOD值越高,表示該變異位點(diǎn)越高效,可信度越高,反之則表示該變異位點(diǎn)的高效性較低。
VQSLOD的應(yīng)用可以幫助分析人員將高質(zhì)量的變異位點(diǎn)篩選出來,以便進(jìn)一步分析和研究。此外,VQSLOD指標(biāo)還可以與其他指標(biāo)結(jié)合使用,如各類濾波器和注釋信息,以提高變異位點(diǎn)的篩選效率和正確性。
culprit=FS是什么意思
"Culprit=FS"是一種對(duì)遺傳變異的注釋(annotation),其中"Culprit"表示致病性變異的可能性,"FS"是該致病性變異的一種計(jì)算方法。
FS是Fisher Strand Bias的縮寫,是一種用于檢測(cè)單倍型偏移(haplotype bias)的統(tǒng)計(jì)方法。在遺傳變異的研究中,單倍型偏移指的是在一組樣本中,某個(gè)變異位點(diǎn)的兩種等位基因的比例與預(yù)期比例不一致的現(xiàn)象。如果某個(gè)變異位點(diǎn)的兩種等位基因在一些單倍型中出現(xiàn)的頻率比在其他單倍型中高,那么就可能產(chǎn)生單倍型偏移的現(xiàn)象。
FS值是根據(jù)Fisher正確檢驗(yàn)計(jì)算得出的,用于評(píng)估單倍型偏移的可能性。如果一個(gè)變異位點(diǎn)的FS值很高,表明該位點(diǎn)存在單倍型偏移的可能性較大,可能對(duì)其致病性評(píng)估產(chǎn)生影響。
因此,"Culprit=FS"這一注釋表示該變異位點(diǎn)的致病性評(píng)估結(jié)果受到單倍型偏移的影響,需要進(jìn)行更加謹(jǐn)慎的評(píng)估。在遺傳變異分析中,注釋信息能夠幫助分析人員更好地理解變異位點(diǎn)的特性和可能的致病性,從而更好地指導(dǎo)臨床應(yīng)用和疾病研究。
POSITIVE_TRAIN_SITE是什么意思?
POSITIVE_TRAIN_SITE是用于機(jī)器學(xué)習(xí)的訓(xùn)練數(shù)據(jù)集的一種標(biāo)記(tag)。在機(jī)器學(xué)習(xí)中,POSITIVE_TRAIN_SITE通常指的是被認(rèn)為具有某種屬性或特征的數(shù)據(jù)樣本,這些樣本被用來訓(xùn)練機(jī)器學(xué)習(xí)模型。
在基因組學(xué)中,POSITIVE_TRAIN_SITE常常指的是已知的、被確認(rèn)為具有某種遺傳變異的基因組位點(diǎn)。這些位點(diǎn)通常被認(rèn)為與某種疾病或特定的遺傳特征相關(guān)。POSITIVE_TRAIN_SITE通常用于訓(xùn)練機(jī)器學(xué)習(xí)模型,以便對(duì)新的、未知的遺傳變異進(jìn)行分類和預(yù)測(cè)。比如,如果一個(gè)基因組位點(diǎn)被標(biāo)記為POSITIVE_TRAIN_SITE,那么機(jī)器學(xué)習(xí)模型會(huì)使用該位點(diǎn)的信息來學(xué)習(xí)如何識(shí)別其他類似的位點(diǎn),并預(yù)測(cè)它們是否具有相同的遺傳變異。
在基因組學(xué)中,POSITIVE_TRAIN_SITE還可以用于改進(jìn)遺傳變異的篩選和注釋方法。通過使用POSITIVE_TRAIN_SITE,分析人員可以訓(xùn)練模型來識(shí)別和過濾掉可能不相關(guān)的變異位點(diǎn),從而提高變異位點(diǎn)的篩選正確性和高效性。
GT:
樣品的基因型(genotype)。兩個(gè)數(shù)字中間用’/”分 開,這兩個(gè)數(shù)字表示雙倍體的sample的基因型。0表示樣品中有ref的allele; 1 表示樣品中variant的allele; 2表示有第二個(gè)variant的allele。
因此: 0/0表示sample中該位點(diǎn)為純合的,和ref一致; 0/1 表示sample中該位點(diǎn)為雜合的,有ref和variant兩個(gè)基因型; 1/1
表示sample中該位點(diǎn)為純合的,和variant一致。
AD 和 DP:
AD(Allele Depth)為sample中每一種allele的reads覆蓋度,在diploid中則是用逗號(hào)分割的兩個(gè)值,前者對(duì)應(yīng)ref基因型,后者對(duì)應(yīng)variant基因型;
DP(Depth)為sample中該位點(diǎn)的覆蓋度(一些reads被過濾掉的覆蓋度)。
GQ:
基因型的質(zhì)量值(Genotype Quality)。Phred格式(Phred_scaled)的質(zhì)量值,表示在該位點(diǎn)該基因型存在的可能性;該值越高,則Genotype的可能性越大;計(jì)算方法:Phred值 = -10 * log (1-p) p為基因型存在的概率。
PL
指定三種基因型的質(zhì)量值。這三種指定的基因型為(0/0,0/1,1/1),這三種基因型的概率總和為1。該值越大,表明為該種基因型的可能性越小。 Phred值 = -10 * log (p) p為基因型存在的概率。
(責(zé)任編輯:佳學(xué)基因)