全基因組基因表達(dá)數(shù)據(jù)分析的關(guān)鍵步驟是使用模塊檢測(cè)方法將基因劃分為不同的共表達(dá)模塊。由于經(jīng)典聚類方法的局限性,人們已經(jīng)提出了許多可選的模塊檢測(cè)方法。通過(guò)處理樣本子集中的共表達(dá),對(duì)調(diào)節(jié)網(wǎng)絡(luò)建模以及允許模塊間的重疊來(lái)改進(jìn)聚類。本文研究者就利用已知的數(shù)據(jù)來(lái)對(duì)這些不同的方法進(jìn)行總結(jié)及評(píng)估。
發(fā)表期刊:Nature Communications 發(fā)表時(shí)間:2018-3-15 影響因子:12.124
模塊(module)是什么?
本文中的模塊被定義為具有相似表達(dá)情況的一類基因,它們趨向于功能相關(guān)和被共同調(diào)控。自從全基因組基因表達(dá)技術(shù)出現(xiàn)以來(lái),模塊化檢測(cè)方法一直是基因表達(dá)生物學(xué)解析的基石。除了允許對(duì)基因表達(dá)數(shù)據(jù)進(jìn)行更全面和客觀的解釋之外,基因表達(dá)模塊還經(jīng)常用于推斷轉(zhuǎn)錄因子和推定與靶基因之間的調(diào)節(jié)關(guān)系。
模塊檢測(cè)方法:
聚類法(clustering methods)、分解法(decomposition methods)、雙聚類法(biclustering methods)、直接網(wǎng)絡(luò)推理法(direct network inference)、迭代網(wǎng)絡(luò)推理法(iterative network inference)。
目前最流行的模塊檢測(cè)方法是聚類的方法,至今它仍是應(yīng)用最廣泛的方法。但是,聚類方法具有三個(gè)主要缺點(diǎn):1)聚類方法只考慮所有樣本之間的共表達(dá)情況。由于轉(zhuǎn)錄調(diào)節(jié)具有高度的特異性,聚類可能丟失僅存在部分樣本中的局部共表達(dá)效應(yīng)。2)大多數(shù)聚類方法不能將基因分配給多個(gè)模塊。鑒于越來(lái)越多的證據(jù)表明基因調(diào)控是高度組合的,基因產(chǎn)物可以參與多種途徑,模塊之間的重疊問(wèn)題尤其成問(wèn)題。3)忽略了基因之間的調(diào)節(jié)關(guān)系。由于靶基因表達(dá)的變化可以至少部分地由轉(zhuǎn)錄因子表達(dá)的變化來(lái)解釋,聚類方法不能很好的包含這類信息。
因此,人們已經(jīng)開發(fā)了幾種可選的模塊檢測(cè)方法來(lái)彌補(bǔ)這三個(gè)缺陷。分解方法和雙聚類法試圖處理局部共表達(dá)和重疊。這些方法不同于聚類,因?yàn)樗鼈冊(cè)试S模塊內(nèi)的基因不需要在所有生物樣品中共同表達(dá),但是樣品可以在一定程度上影響模塊的表達(dá)(分解方法)或根本不影響模塊的表達(dá)(雙聚類方法)。另外兩種替代方法,直接網(wǎng)絡(luò)推理法(direct NI )和迭代網(wǎng)絡(luò)推理法(iterative NI),使用表達(dá)數(shù)據(jù)來(lái)另外模擬基因之間的調(diào)節(jié)關(guān)系。
本研究目的及意義:
由于轉(zhuǎn)錄組學(xué)中模塊檢測(cè)的重要性和現(xiàn)有方法的豐富性,必須根據(jù)客觀基準(zhǔn)評(píng)估現(xiàn)有和新的方法。本研究有兩個(gè)目的,第一是要概述當(dāng)前模塊檢測(cè)方法的特點(diǎn)和性能,以指導(dǎo)生物學(xué)家進(jìn)行選擇。第二,提出一個(gè)基準(zhǔn)策略,用來(lái)比較新的方法和現(xiàn)有的技術(shù)的異同。
研究結(jié)果:
1)模塊檢測(cè)方法評(píng)估的工作流程
評(píng)估過(guò)程的結(jié)構(gòu)如圖1所示,研究人員對(duì)來(lái)自大腸桿菌、酵母、人等公開的基因表達(dá)數(shù)據(jù)進(jìn)行模塊檢測(cè)方法評(píng)估。通過(guò)將觀察到的模塊與一組已知模塊進(jìn)行比較,對(duì)不同的方法進(jìn)行評(píng)分。
圖1、評(píng)估方法概述。a)本次評(píng)估使用的九個(gè)不同數(shù)據(jù)集。b) 研究者使用三種不同的模塊定義從已知的調(diào)節(jié)網(wǎng)絡(luò)中提取已知的模塊,用于大腸桿菌、酵母和合成數(shù)據(jù)的評(píng)估。c) 為了避免參數(shù)過(guò)度擬合特定數(shù)據(jù)集的特征,研究者首先使用網(wǎng)格搜索優(yōu)化每個(gè)數(shù)據(jù)集上的參數(shù),然后使用一個(gè)數(shù)據(jù)集上的最優(yōu)參數(shù)(訓(xùn)練分?jǐn)?shù))來(lái)評(píng)估方法在另一個(gè)數(shù)據(jù)集上的性能(測(cè)試分?jǐn)?shù))。d) 評(píng)價(jià)了42種模塊檢測(cè)方法,可分為5類:聚類法、雙聚類法、直接網(wǎng)絡(luò)推理法、分解法和迭代網(wǎng)絡(luò)推理法。e) 為了評(píng)估人類數(shù)據(jù),研究者比較了每個(gè)目標(biāo)調(diào)節(jié)因子在至少一個(gè)模塊中的豐富程度。f)研究者在評(píng)估中使用了四種不同的調(diào)控網(wǎng)絡(luò),每個(gè)網(wǎng)絡(luò)都是根據(jù)不同類型的數(shù)據(jù)生成的。
表1、本研究中涉及到的42種模塊檢測(cè)方法
2)評(píng)估結(jié)果
研究者使用表1所述方法評(píng)估了涵蓋所有5種方法(聚類、分解、雙聚類、直接NI和迭代NI )的總共42種模塊檢測(cè)算法。總的來(lái)說(shuō),分解方法檢測(cè)最符合基因調(diào)節(jié)網(wǎng)絡(luò)中已知模塊結(jié)構(gòu)的模塊(圖2a )。令人驚訝的是,雙聚類法、直接NI法和迭代NI法都沒(méi)有優(yōu)于聚類法,盡管理論上它們應(yīng)該通過(guò)允許重疊、模擬轉(zhuǎn)錄調(diào)節(jié)和/或?qū)ふ揖植抗脖磉_(dá)效應(yīng)而提供若干優(yōu)點(diǎn)(圖2b )。
圖2、基于基因調(diào)節(jié)網(wǎng)絡(luò)中觀察到的模塊和已知模塊一致性的42種模塊檢測(cè)方法的總體性能評(píng)估結(jié)果。這些方法可分為五類:聚類、分解、雙聚類、直接網(wǎng)絡(luò)推理(直接NI )和迭代網(wǎng)絡(luò)推理(迭代NI )方法。聚類和雙聚類方法進(jìn)一步分為多個(gè)子類別。
圖3、使用四種不同聚類有效性指數(shù)和兩種基于功能富集度量的自動(dòng)參數(shù)估計(jì)對(duì)頂部模塊檢測(cè)方法的性能的影響。圖中顯示了在對(duì)每個(gè)類別的頂級(jí)模塊檢測(cè)方法的數(shù)據(jù)集和模塊進(jìn)行平均后,測(cè)試分?jǐn)?shù)在參數(shù)估計(jì)(使用基于藍(lán)色功能富集的度量或紅色-橙色聚類有效性指數(shù))之后的變化。
大多數(shù)聚類方法的一個(gè)重要參數(shù)是比較基因表達(dá)譜距離或相似性。基因表達(dá)數(shù)據(jù)最常用的測(cè)量標(biāo)準(zhǔn)無(wú)疑是皮爾遜相關(guān)系數(shù),該系數(shù)測(cè)量?jī)蓚€(gè)表達(dá)譜之間的線性依賴程度,而不管絕對(duì)表達(dá)水平的差異。但一些研究者對(duì)這種方法也提出了質(zhì)疑,主要基于三個(gè)方面: (1)它忽略了基因之間的反向關(guān)系,(2)它不能獲得非線性關(guān)系,以及(3)它對(duì)異常值和偏斜分布檢測(cè)不夠強(qiáng)大。因此,本文也提出了若干替代措施,試圖解決其中一些限制。為了研究這些備選方案是否能夠改進(jìn)模塊檢測(cè),研究者使用15種度量方法。令人驚訝的是,沒(méi)有一個(gè)可選的相似性度量能夠改進(jìn)四種頂級(jí)聚類方法中的任何一種性能。進(jìn)一步研究發(fā)現(xiàn),這些替代措施確實(shí)可以檢索已知的共調(diào)節(jié)基因,但其排序低于皮爾遜相關(guān)性。然而,當(dāng)比較皮爾遜相關(guān)性和備選測(cè)量之間的前10 %基因?qū)r(shí),有更多已知的共調(diào)節(jié)基因?qū)梢猿ァ?/span>
接下來(lái)研究人員對(duì)樣本數(shù)量進(jìn)行了檢測(cè),探討表達(dá)式數(shù)據(jù)集中樣本數(shù)量對(duì)每個(gè)類別中頂級(jí)模塊檢測(cè)方法相對(duì)性能的影響。盡管如預(yù)期的那樣,每種方法的性能都隨著數(shù)據(jù)集大小的減小而下降,但每種方法的下降幅度和時(shí)間差異很大。值得注意的是,與其他方法(圖4 )相比,基于ICA的分解方法似乎對(duì)數(shù)據(jù)集中的樣本數(shù)量更加敏感。另一方面,隨著樣本數(shù)的減少,遺傳云母(迭代NI方法A )和GENIE3 (直接NI方法A )等幾種基于網(wǎng)絡(luò)推理的方法的性能保持相對(duì)穩(wěn)定。這表明,盡管現(xiàn)有的矩陣分解方法在大數(shù)據(jù)集上具有較好的性能,但當(dāng)考慮較少數(shù)量的生物條件時(shí)仍有不足。
圖4、樣本數(shù)量對(duì)頂部模塊檢測(cè)方法性能的影響。圖中顯示了不同隨機(jī)采樣數(shù)量下所有數(shù)據(jù)集和模塊檢測(cè)方法的平均訓(xùn)練分?jǐn)?shù)(左)和測(cè)試分?jǐn)?shù)(右)。
圖5、基因表達(dá)數(shù)據(jù)中模塊檢測(cè)的實(shí)踐指南。模塊檢測(cè)在基因表達(dá)數(shù)據(jù)中有三個(gè)主要應(yīng)用(a)。對(duì)于每個(gè)應(yīng)用,本文建議使用不同的模塊檢測(cè)方法(b),這反過(guò)來(lái)影響參數(shù)的估計(jì)方式(c)、模塊的可視化方式(d),以及模塊的功能解釋方式(e)。
最后,研究者提出了一個(gè)評(píng)估模塊檢測(cè)方法的通用框架,并利用該框架對(duì)基因表達(dá)數(shù)據(jù)的最新模塊檢測(cè)方法進(jìn)行了首次全面評(píng)估?;谠撛u(píng)估,研究者分析了模塊檢測(cè)的幾個(gè)方面,例如方法的選擇和參數(shù)估計(jì),并結(jié)合結(jié)果,提出了進(jìn)一步開發(fā)這些方法的若干指導(dǎo)方針及實(shí)踐指南(圖5)。
具體說(shuō)來(lái),基因表達(dá)數(shù)據(jù)中的模塊檢測(cè)可以起多種作用,不同的方法更適合于特定的作用(圖5a,b )。由于非重疊聚類方法易于可視化和解釋,可以快速生成數(shù)據(jù)集的全局概覽,揭示數(shù)據(jù)集中不同生物樣本的主要表達(dá)方式和功能效果。實(shí)驗(yàn)結(jié)果表明,FLAME、WGCNA、Affinity Propagation聚類、馬爾可夫聚類( MCL )和譜聚類等方法特別適合于這種分析,在大多數(shù)數(shù)據(jù)集上的聚類效果優(yōu)于其他聚類方法。然而,由于聚類方法不能檢測(cè)局部共表達(dá)效應(yīng),它們可能會(huì)錯(cuò)過(guò)相關(guān)模塊或從模塊中排除重要基因。與此相一致的是,研究者發(fā)現(xiàn)基于ICA的分解方法能夠更好地跨數(shù)據(jù)集一致地恢復(fù)已知模塊,使得準(zhǔn)確度提高最多。
方法的選擇影響參數(shù)估計(jì)、可視化和功能解釋等后續(xù)步驟(圖5c-e)。對(duì)于參數(shù)估計(jì),研究者發(fā)現(xiàn)聚類有效性指數(shù),特別是Davis-Bouldin和Kim-Ramakrishna指數(shù),足以估計(jì)大多數(shù)頂級(jí)聚類方法的參數(shù)。然而,這些度量在替代模塊檢測(cè)方法上的性能通常比隨機(jī)選擇參數(shù)差。對(duì)于這些方法,特別是雙團(tuán)簇、分解和直接NI,研究者發(fā)現(xiàn)基于功能富集的測(cè)量提供了更好的選擇(圖5c)。模塊的可視化類型也在很大程度上取決于方法的選擇??梢酝ㄟ^(guò)向可視化添加附加注釋以改進(jìn)模塊的解釋,可以使用若干工具和數(shù)據(jù)庫(kù)從功能上解釋模塊,分析模塊內(nèi)豐富的生物功能和途徑,或發(fā)現(xiàn)模塊是否與某些疾病有關(guān)。
結(jié)語(yǔ):
重疊和局部共表達(dá)模塊的檢測(cè)一直是轉(zhuǎn)錄組學(xué)研究中的一個(gè)長(zhǎng)期挑戰(zhàn)。盡管為發(fā)展這些方法作出了巨大努力,但由于若干實(shí)際挑戰(zhàn),它們?cè)趯?shí)際生物數(shù)據(jù)上的應(yīng)用受到阻礙。首先,重疊和局部共表達(dá)模塊的可視化和解釋更加困難。例如,并不直接顯示為什么某些基因被分組在模塊中。此外,分解和雙聚類方法通常具有多個(gè)參數(shù),這些參數(shù)需要在數(shù)據(jù)集上進(jìn)行調(diào)整,并且會(huì)影響生物解釋。因此,僅使用表達(dá)式矩陣本身的雙聚類和分解方法的參數(shù)估計(jì)仍然是一個(gè)需要探討的問(wèn)題。本研究表明,性能最好的分解方法對(duì)數(shù)據(jù)集中的樣本數(shù)量更敏感,并且在樣本數(shù)量有限的情況下優(yōu)于聚類方法。在這些方面(可視化、參數(shù)估計(jì)和數(shù)據(jù)要求)的改進(jìn)將使先進(jìn)的模塊檢測(cè)方法在生物研究中獲得更大應(yīng)用。