前言
全外顯子測(cè)序中重要的步驟就是遺傳分析,可以針對(duì)家系或者散發(fā)樣本,按照相應(yīng)的遺傳模型來(lái)篩選候選基因。但是如果他們親緣關(guān)系有誤,比如無(wú)關(guān)樣本中混入有血緣關(guān)系的樣本,或者理論上有血緣關(guān)系的樣本實(shí)際上沒(méi)有關(guān)系等等都必然會(huì)導(dǎo)致后續(xù)遺傳分析假陽(yáng)性或者假陰性。樣本親緣關(guān)系不對(duì)通常可能是由以下幾個(gè)原因?qū)е拢?. 取樣有問(wèn)題2.實(shí)驗(yàn)過(guò)程中樣本搞錯(cuò)3.分析時(shí)樣本相互標(biāo)錯(cuò)。在外顯子測(cè)序分析中,為了避免以及及時(shí)發(fā)現(xiàn)這些錯(cuò)誤,我們可以使用KING軟件,基于樣本的突變檢測(cè)結(jié)果,對(duì)他們進(jìn)行親緣關(guān)系鑒定。
功能
基于基因型數(shù)據(jù),計(jì)算樣本間親緣關(guān)系系數(shù),可以根據(jù)相應(yīng)的系數(shù)范圍來(lái)判斷樣本之間的親緣關(guān)系。 軟件下載鏈接:King http://people.virginia.edu/~wc9c/KING/Download.htm ; Plink2 https://www.cog-genomics.org/plink/2.0/ 可根據(jù)需要下載相應(yīng)的版本。
使用方法
1. 文件準(zhǔn)備
全外顯子測(cè)序結(jié)果的vcf格式壓縮文件
2. 運(yùn)行
1) 二進(jìn)制文件轉(zhuǎn)換,此步驟需要plink軟件完成。 “Plink2 --vcf A.vcf.gz --make-bed --out A”結(jié)果生成A.bed , A.bim以及A.fam 。
2) 關(guān)系系數(shù)計(jì)算 “King -b A.bed --kindship --prefix relationShip ”
結(jié)果
FID 表示family ID, ID 是個(gè)體ID,兩者組合可以表示一個(gè)唯一個(gè)體。Kindship是親緣關(guān)系系數(shù),可用于判斷兩個(gè)個(gè)體間的親緣關(guān)系。
結(jié)果可視化
首先需要將上一步驟生成的文件進(jìn)行轉(zhuǎn)換,手動(dòng)轉(zhuǎn)換成如下圖矩陣的形式,并保存成文本格式,這里定義成“relationship.txt”用于后面繪圖。
親緣關(guān)系系數(shù)繪圖使用的是R 的pairs() 函數(shù),具體如下:
relation=read.table("relationship.txt",sep="t",header=T,row.name=1,check.names=F)
relation=as.matrix(relation)
relation
ZD MU FUZD 1 0.2525 0.2498
MU NA 1.0000 0.0010
FU NA NA 1.0000
pdf("relationship.pdf")
panel.cor <- function(x, y, digits=2, prefix="", cex.cor, ...){usr <- par("usr"); on.exit(par(usr)); par(usr = c(0, 1, 0, 1)); z=x[!is.na(y)]; txt=as.numeric( sprintf( "%0.4f", z[length(z)] ) ); if(missing(cex.cor)) cex.cor <- 0.8/strwidth(txt); color=1; if(txt>=0.354) color=2; if(txt>=0.177 && txt<0.354) color=3; if(txt>=0.0884 && txt<0.177) color=4; if(txt>=0.0442 && txt<0.0884) color=5; text(0.5, 0.5, txt, cex = cex.cor,col=color)}
pairs(relation,lower.panel = NULL,font.labels = 2,main="Sample Relationship (Based On King software)",upper.panel = panel.cor)
info=c(">0.354 = duplicate/MZ twinn", "[0.177, 0.354] =, 1st-degreen", "[0.0884, 0.177] = 2nd-degreen", "[0.0442, 0.0884] = 3rd-degreen")
mtext(info,side=1,adj=0,cex=1.3,line=c(-4,-2,0,2),col=c(2,3,4,5))
dev.off()
null device
圖中為三口之家,MU,F(xiàn)U分別為ZD的母親與父親,母親與父親之間無(wú)血緣關(guān)系
duplicate/MZ twin : 重復(fù)個(gè)體或者同卵雙胞胎。關(guān)系判斷閾值[>-0.354]
1st-degree(一級(jí)親屬):一個(gè)人的父母、子女以及親兄弟姐妹。關(guān)系判斷閾值[0.177-0.354]
2nd-degree(二級(jí)親屬):一個(gè)人和他的叔、伯、姑、舅、姨、祖父母、外祖父母。關(guān)系判斷閾值[0.0884-0.177]
3rd-degree(三級(jí)親屬):表兄妹或堂兄妹。關(guān)系判斷閾值[0.0442-0.0884]
參考文獻(xiàn):
Manichaikul A, Mychaleckyj JC, Rich SS, Daly K, Sale M, Chen WM (2010) Robust relationship inference in genome-wide association studies. Bioinformatics 26(22):2867-2873
往期相關(guān)鏈接:
1、R基礎(chǔ)篇
excel不熟練怎么辦,R來(lái)幫您(一)數(shù)據(jù)分類匯總;如何使用Rstudio練習(xí)R基礎(chǔ)教程;2、R進(jìn)階
【繪圖進(jìn)階】之交互式可刪減分組和顯示樣品名的PCA 圖(三);
【進(jìn)階篇繪圖】之帶P值的箱體圖、小提琴圖繪制(一);
3、數(shù)據(jù)提交
3分鐘學(xué)會(huì)微生物多樣性云平臺(tái)數(shù)據(jù)分析;
3分鐘學(xué)會(huì)CHIP-seq類實(shí)驗(yàn)測(cè)序數(shù)據(jù)可視化 —IGV的使用手冊(cè);
10分鐘搞定多樣性數(shù)據(jù)提交,最快半天內(nèi)獲取登錄號(hào),史上最全的多樣性原始數(shù)據(jù)提交教程;
20分鐘搞定GEO上傳,史上最簡(jiǎn)單、最詳細(xì)的GEO數(shù)據(jù)上傳攻略;
4、表達(dá)譜分析
表達(dá)譜分析(二)通路富集分析和基因互作網(wǎng)絡(luò)圖繪制;如何對(duì)GEO數(shù)據(jù)進(jìn)行差異分析;5、醫(yī)學(xué)數(shù)據(jù)分析
【W(wǎng)GS服務(wù)升級(jí)】人工智能軟件SpliceAI助力解讀罕見(jiàn)和未確診疾病中的非編碼突變;
隱性疾病trio家系別忽視單親二倍體現(xiàn)象——天昊數(shù)據(jù)分析助力臨床疾病診斷新添UPD(單親二倍體)可視化分析工具;
【昊工具】Oh My God! 太好用了吧!疾病或表型的關(guān)鍵基因查詢數(shù)據(jù)庫(kù),我不允許你不知道Phenolyzer;