隨著高通量測序技術(shù)的發(fā)展,RNA-Seq已經(jīng)成為差異基因表達研究中的常規(guī)檢測方法。RNA-Seq實驗設(shè)計最重要內(nèi)容之一就是選擇最佳生物重復(fù)數(shù)以獲得所需統(tǒng)計效能(sample size estimation,樣本大小估計),或者估計在數(shù)據(jù)集中成功發(fā)現(xiàn)統(tǒng)計意義的可能性(power estimation,效能估計)。重復(fù)次數(shù)不足可能導(dǎo)致結(jié)論不可靠,而重復(fù)次數(shù)過多可能導(dǎo)致時間和資源浪費,因此需要研究者在研究成本和實驗效能之間尋求權(quán)衡。
幾種常用估計方法及不足
因為RNA-Seq數(shù)據(jù)可用read counts表示,所以在早期的RNA-Seq研究中,分析主要基于泊松分布(Poisson distribution)進行。然而泊松分布不能很好的與經(jīng)驗數(shù)據(jù)相吻合,這主要是由于生物自然變異的過度離散引起的。為了解決這個問題,基于負二項分布的方法(negative binomial distribution-based methods)被開發(fā)出來,為樣本間的變異配置了更大的靈活性。后來,人們又陸續(xù)基于單基因差異表達、多個基因的比較,以及將預(yù)算成本納入分析方法,開發(fā)出RNASeqPower、PROPER等多種評估工具。
然而,以往方法仍然存在一些局限性,例如:沒有正確考慮平均read counts和不同基因的離散程度,缺乏適當?shù)膮⒖紨?shù)據(jù),以及缺乏簡單和用戶友好的界面。因為基因的平均read counts分布在四個數(shù)量級以上,它們的離散高度依賴于它們的基因表達水平。由于以前的估計方法不是為這樣的分布設(shè)計的,所以研究者經(jīng)常使用保守地或者根據(jù)經(jīng)驗選擇的一個值,這經(jīng)常導(dǎo)致樣本量估計過高。雖然近期有研究考慮了基因表達水平與其離散性之間的相關(guān)性,引入了一種基于模擬的程序,但這種方法尚未開發(fā)出易于使用的軟件工具。并且,這些方法數(shù)據(jù)量巨大,占用大量計算資源,也不適用所有規(guī)模的項目。
RnaSeqSampleSize優(yōu)勢:
由于上述問題的存在,該工具開發(fā)者基于多重檢驗中的FDR錯誤控制,并利用真實數(shù)據(jù)的平均read counts和離散分布來估計更可靠的樣本大小。
開發(fā)出R語言工具包及在線工具RnaSeqSampleSize,在線網(wǎng)址為:https://cqs.mc.vanderbilt.edu/shiny/RnaSeqSampleSize/。
網(wǎng)站首頁展示:
相關(guān)研究發(fā)表在2018年5月30日的BMC Bioinformatics上。
圖1、RnaSeqSampleSize工作流程
RnaSeqSampleSize首先利用如癌癥基因組圖譜(TCGA)數(shù)據(jù)庫中真實的RNA-Seq數(shù)據(jù)集來估計基因平均read counts和離散分布。RnaSeqSampleSize可以利用大規(guī)模平均read counts和離散程度數(shù)據(jù)估計,支持多達2000個平均read counts,利用這些信息來指導(dǎo)樣本量和功效的估計。此外,RnaSeqSampleSize還具有幾個獨特的特點,包括對感興趣的基因或途徑的估計、功效曲線可視化和參數(shù)優(yōu)化等。
基于真實數(shù)據(jù)的樣本量估計
如前所述,基因的平均read counts和離散程度在單個RNA-Seq實驗中具有廣泛的分布。平均read counts或離散的微小波動將極大地影響估計的功率或樣本大小(圖2)。例如,在TCGA直腸腺癌(READ)數(shù)據(jù)集中,基因具有從0到10的離散度,并且平均read counts從1到數(shù)千 (圖2a)。在這種情況下,從單個值估計樣本大小是不準確的。本研究計算出,當最小平均read counts從1變?yōu)?/span>30,最大離散從0.1變?yōu)?/span>3時,估計的樣本大小從10增加到302 (圖2b)。
圖2、Read counts或離散對估計的樣本大小和功效有很大影響。a. TCGA直腸腺癌(READ)數(shù)據(jù)集中所有基因的read counts和離散分布。紅線表示read counts等于1和10。綠色線條表示所有基因離散的95%。b. 在read counts或離散的不同組合中實現(xiàn)0.8的power值所需的估計樣本大小
圖3、用真實數(shù)據(jù)估計樣本大小。a. TCGA乳腺浸潤性癌(BRCA)和直腸腺癌(READ)數(shù)據(jù)集中所有基因的read counts分布;b. TCGA BRCA和READ數(shù)據(jù)集所有基因的離散分布;c. 當樣本大小等于71時,TCGA BRCA數(shù)據(jù)集中基于計數(shù)和離散分布的功效分布。紅線表示power平均值。d .當樣本大小等于71時,基于TCGA READ數(shù)據(jù)集中的read counts和離散分布的功效分布。紅線表示power平均值
感興趣基因或途徑的樣本量估計
在某些情況下,研究人員可能對某些特征(如共享通路或基因GO類別)定義的基因子集感興趣,而不是對整個基因組感興趣。在這種情況下,樣本量估計方法需要調(diào)整,因為與其他基因相比,感興趣的基因子集可能具有不同的表達模式。RnaSeqSampleSize被設(shè)計成通過允許用戶提供感興趣基因的列表或KEGG通路ID來處理這樣的實驗設(shè)計中的樣本大小和功效分析;這確保了只有感興趣的基因或所選途徑中的基因的read counts和離散分布被用于估計(圖4)。
圖4、感興趣基因的樣本量估計。a. TCGA READ數(shù)據(jù)集中三個KEGG通路基因的的read counts分布;b. TCGA READ數(shù)據(jù)集中三個KEGG通路中基因的離散分布; c. 當樣本大小等于71時,基于TCGA READ數(shù)據(jù)集中鈣信號通路基因的計數(shù)和離散分布的功效分布。紅線表示power平均值。d.當樣本大小等于71時,基于TCGA READ數(shù)據(jù)集中蛋白酶體途徑基因的計數(shù)和離散分布的功效分布。紅線表示power的平均值
不同參數(shù)下的功效曲線可視化及優(yōu)化
功效曲線被廣泛用于分析和比較樣本大小估計結(jié)果。為了演示RnaSeqSampleSize中的功率曲線可視化特性,研究者根據(jù)不同的場景生成了三條功率曲線。如圖5a所示,X軸表示兩組中使用的樣本總數(shù),Y軸表示估計功效。樣本分配設(shè)計有三種類型:兩組1:1樣本大小(紅色曲線);2:1兩組樣品大小(藍色曲線);3:1兩組樣品大小(紫色曲線)。功效和樣本數(shù)之間的關(guān)系可以很容易地可視化。在圖5a所示的例子中,功效曲線表示當使用相同的樣本總數(shù)時,平衡(樣本大小1:1 )實驗設(shè)計(紅色曲線)獲得最高功效。
圖5、用RnaSeqSampleSize實現(xiàn)功效曲線可視化和參數(shù)優(yōu)化。平衡后(兩組樣本大小相同)和未平衡(兩組樣本大小不同)的實驗設(shè)計功效曲線。功效曲線表明,平衡后實驗設(shè)計(紅線)在相同樣品總數(shù)下將獲得最高功率;b. 樣本量估計中的參數(shù)優(yōu)化。離散和倍數(shù)變化分別設(shè)置為0.5和2。生成具有不同樣本數(shù)和讀取計數(shù)對的功效矩陣。功效分布表明,樣本數(shù)對功效的確定起著更重要的作用,建議在RNA-Seq實驗中至少使用96個樣本,利用這些參數(shù)得到0.8的功率
RNA-Seq實驗設(shè)計經(jīng)常受到預(yù)算的限制。RnaSeqSampleSize中的優(yōu)化功能可用于確定在不超出預(yù)算的情況下實現(xiàn)最高功率的最佳參數(shù)。為了演示參數(shù)優(yōu)化功能,研究者嘗試優(yōu)化樣本數(shù)和read counts,同時固定所有其他參數(shù)(fold change: 2;離散度: 1;FDR : 0.05 )通過產(chǎn)生功率矩陣(圖5)。當使用16個樣本時,即使讀取計數(shù)高達96,估計功率也小于0.1。然而,當樣本數(shù)增加到96時,即使當讀取計數(shù)低至8時,估計功率也增加到0.8。該矩陣表明,樣本數(shù)量在確定power方面比read counts起更重要的作用。
往期精選文章:
37個RNA-seq工具大PK,教你數(shù)據(jù)處理方法如何選擇
【昊閱讀】基因表達數(shù)據(jù)的模塊檢測方法綜合評價
【昊閱讀】RNA-seq揭示油茶冷適應(yīng)的分子機制
關(guān)于天昊:
天昊生物,RNA-seq技術(shù)的優(yōu)質(zhì)服務(wù)提供商!我們通過對RNA-seq各個實驗及生信分析環(huán)節(jié)不斷優(yōu)化,為客戶提供更加準確、可靠及個性化的數(shù)據(jù)檢測和分析結(jié)果,為您的科學(xué)研究保駕護航!