全基因組基因表達數(shù)據(jù)分析的關鍵步驟是使用模塊檢測方法將基因劃分為不同的共表達模塊。由于經典聚類方法的局限性,人們已經提出了許多可選的模塊檢測方法。通過處理樣本子集中的共表達,對調節(jié)網絡建模以及允許模塊間的重疊來改進聚類。本文研究者就利用已知的數(shù)據(jù)來對這些不同的方法進行總結及評估。
發(fā)表期刊:Nature Communications 發(fā)表時間:2018-3-15 影響因子:12.124
模塊(module)是什么?
本文中的模塊被定義為具有相似表達情況的一類基因,它們趨向于功能相關和被共同調控。自從全基因組基因表達技術出現(xiàn)以來,模塊化檢測方法一直是基因表達生物學解析的基石。除了允許對基因表達數(shù)據(jù)進行更全面和客觀的解釋之外,基因表達模塊還經常用于推斷轉錄因子和推定與靶基因之間的調節(jié)關系。
模塊檢測方法:
聚類法(clustering methods)、分解法(decomposition methods)、雙聚類法(biclustering methods)、直接網絡推理法(direct network inference)、迭代網絡推理法(iterative network inference)。
目前最流行的模塊檢測方法是聚類的方法,至今它仍是應用最廣泛的方法。但是,聚類方法具有三個主要缺點:1)聚類方法只考慮所有樣本之間的共表達情況。由于轉錄調節(jié)具有高度的特異性,聚類可能丟失僅存在部分樣本中的局部共表達效應。2)大多數(shù)聚類方法不能將基因分配給多個模塊。鑒于越來越多的證據(jù)表明基因調控是高度組合的,基因產物可以參與多種途徑,模塊之間的重疊問題尤其成問題。3)忽略了基因之間的調節(jié)關系。由于靶基因表達的變化可以至少部分地由轉錄因子表達的變化來解釋,聚類方法不能很好的包含這類信息。
因此,人們已經開發(fā)了幾種可選的模塊檢測方法來彌補這三個缺陷。分解方法和雙聚類法試圖處理局部共表達和重疊。這些方法不同于聚類,因為它們允許模塊內的基因不需要在所有生物樣品中共同表達,但是樣品可以在一定程度上影響模塊的表達(分解方法)或根本不影響模塊的表達(雙聚類方法)。另外兩種替代方法,直接網絡推理法(direct NI )和迭代網絡推理法(iterative NI),使用表達數(shù)據(jù)來另外模擬基因之間的調節(jié)關系。
本研究目的及意義:
由于轉錄組學中模塊檢測的重要性和現(xiàn)有方法的豐富性,必須根據(jù)客觀基準評估現(xiàn)有和新的方法。本研究有兩個目的,第一是要概述當前模塊檢測方法的特點和性能,以指導生物學家進行選擇。第二,提出一個基準策略,用來比較新的方法和現(xiàn)有的技術的異同。
研究結果:
1)模塊檢測方法評估的工作流程
評估過程的結構如圖1所示,研究人員對來自大腸桿菌、酵母、人等公開的基因表達數(shù)據(jù)進行模塊檢測方法評估。通過將觀察到的模塊與一組已知模塊進行比較,對不同的方法進行評分。
圖1、評估方法概述。a)本次評估使用的九個不同數(shù)據(jù)集。b) 研究者使用三種不同的模塊定義從已知的調節(jié)網絡中提取已知的模塊,用于大腸桿菌、酵母和合成數(shù)據(jù)的評估。c) 為了避免參數(shù)過度擬合特定數(shù)據(jù)集的特征,研究者首先使用網格搜索優(yōu)化每個數(shù)據(jù)集上的參數(shù),然后使用一個數(shù)據(jù)集上的最優(yōu)參數(shù)(訓練分數(shù))來評估方法在另一個數(shù)據(jù)集上的性能(測試分數(shù))。d) 評價了42種模塊檢測方法,可分為5類:聚類法、雙聚類法、直接網絡推理法、分解法和迭代網絡推理法。e) 為了評估人類數(shù)據(jù),研究者比較了每個目標調節(jié)因子在至少一個模塊中的豐富程度。f)研究者在評估中使用了四種不同的調控網絡,每個網絡都是根據(jù)不同類型的數(shù)據(jù)生成的。
表1、本研究中涉及到的42種模塊檢測方法
2)評估結果
研究者使用表1所述方法評估了涵蓋所有5種方法(聚類、分解、雙聚類、直接NI和迭代NI )的總共42種模塊檢測算法??偟膩碚f,分解方法檢測最符合基因調節(jié)網絡中已知模塊結構的模塊(圖2a )。令人驚訝的是,雙聚類法、直接NI法和迭代NI法都沒有優(yōu)于聚類法,盡管理論上它們應該通過允許重疊、模擬轉錄調節(jié)和/或尋找局部共表達效應而提供若干優(yōu)點(圖2b )。
圖2、基于基因調節(jié)網絡中觀察到的模塊和已知模塊一致性的42種模塊檢測方法的總體性能評估結果。這些方法可分為五類:聚類、分解、雙聚類、直接網絡推理(直接NI )和迭代網絡推理(迭代NI )方法。聚類和雙聚類方法進一步分為多個子類別。
圖3、使用四種不同聚類有效性指數(shù)和兩種基于功能富集度量的自動參數(shù)估計對頂部模塊檢測方法的性能的影響。圖中顯示了在對每個類別的頂級模塊檢測方法的數(shù)據(jù)集和模塊進行平均后,測試分數(shù)在參數(shù)估計(使用基于藍色功能富集的度量或紅色-橙色聚類有效性指數(shù))之后的變化。
大多數(shù)聚類方法的一個重要參數(shù)是比較基因表達譜距離或相似性?;虮磉_數(shù)據(jù)最常用的測量標準無疑是皮爾遜相關系數(shù),該系數(shù)測量兩個表達譜之間的線性依賴程度,而不管絕對表達水平的差異。但一些研究者對這種方法也提出了質疑,主要基于三個方面: (1)它忽略了基因之間的反向關系,(2)它不能獲得非線性關系,以及(3)它對異常值和偏斜分布檢測不夠強大。因此,本文也提出了若干替代措施,試圖解決其中一些限制。為了研究這些備選方案是否能夠改進模塊檢測,研究者使用15種度量方法。令人驚訝的是,沒有一個可選的相似性度量能夠改進四種頂級聚類方法中的任何一種性能。進一步研究發(fā)現(xiàn),這些替代措施確實可以檢索已知的共調節(jié)基因,但其排序低于皮爾遜相關性。然而,當比較皮爾遜相關性和備選測量之間的前10 %基因對時,有更多已知的共調節(jié)基因對可以除去。
接下來研究人員對樣本數(shù)量進行了檢測,探討表達式數(shù)據(jù)集中樣本數(shù)量對每個類別中頂級模塊檢測方法相對性能的影響。盡管如預期的那樣,每種方法的性能都隨著數(shù)據(jù)集大小的減小而下降,但每種方法的下降幅度和時間差異很大。值得注意的是,與其他方法(圖4 )相比,基于ICA的分解方法似乎對數(shù)據(jù)集中的樣本數(shù)量更加敏感。另一方面,隨著樣本數(shù)的減少,遺傳云母(迭代NI方法A )和GENIE3 (直接NI方法A )等幾種基于網絡推理的方法的性能保持相對穩(wěn)定。這表明,盡管現(xiàn)有的矩陣分解方法在大數(shù)據(jù)集上具有較好的性能,但當考慮較少數(shù)量的生物條件時仍有不足。
圖4、樣本數(shù)量對頂部模塊檢測方法性能的影響。圖中顯示了不同隨機采樣數(shù)量下所有數(shù)據(jù)集和模塊檢測方法的平均訓練分數(shù)(左)和測試分數(shù)(右)。
圖5、基因表達數(shù)據(jù)中模塊檢測的實踐指南。模塊檢測在基因表達數(shù)據(jù)中有三個主要應用(a)。對于每個應用,本文建議使用不同的模塊檢測方法(b),這反過來影響參數(shù)的估計方式(c)、模塊的可視化方式(d),以及模塊的功能解釋方式(e)。
最后,研究者提出了一個評估模塊檢測方法的通用框架,并利用該框架對基因表達數(shù)據(jù)的最新模塊檢測方法進行了首次全面評估?;谠撛u估,研究者分析了模塊檢測的幾個方面,例如方法的選擇和參數(shù)估計,并結合結果,提出了進一步開發(fā)這些方法的若干指導方針及實踐指南(圖5)。
具體說來,基因表達數(shù)據(jù)中的模塊檢測可以起多種作用,不同的方法更適合于特定的作用(圖5a,b )。由于非重疊聚類方法易于可視化和解釋,可以快速生成數(shù)據(jù)集的全局概覽,揭示數(shù)據(jù)集中不同生物樣本的主要表達方式和功能效果。實驗結果表明,FLAME、WGCNA、Affinity Propagation聚類、馬爾可夫聚類( MCL )和譜聚類等方法特別適合于這種分析,在大多數(shù)數(shù)據(jù)集上的聚類效果優(yōu)于其他聚類方法。然而,由于聚類方法不能檢測局部共表達效應,它們可能會錯過相關模塊或從模塊中排除重要基因。與此相一致的是,研究者發(fā)現(xiàn)基于ICA的分解方法能夠更好地跨數(shù)據(jù)集一致地恢復已知模塊,使得準確度提高最多。
方法的選擇影響參數(shù)估計、可視化和功能解釋等后續(xù)步驟(圖5c-e)。對于參數(shù)估計,研究者發(fā)現(xiàn)聚類有效性指數(shù),特別是Davis-Bouldin和Kim-Ramakrishna指數(shù),足以估計大多數(shù)頂級聚類方法的參數(shù)。然而,這些度量在替代模塊檢測方法上的性能通常比隨機選擇參數(shù)差。對于這些方法,特別是雙團簇、分解和直接NI,研究者發(fā)現(xiàn)基于功能富集的測量提供了更好的選擇(圖5c)。模塊的可視化類型也在很大程度上取決于方法的選擇??梢酝ㄟ^向可視化添加附加注釋以改進模塊的解釋,可以使用若干工具和數(shù)據(jù)庫從功能上解釋模塊,分析模塊內豐富的生物功能和途徑,或發(fā)現(xiàn)模塊是否與某些疾病有關。
結語:
重疊和局部共表達模塊的檢測一直是轉錄組學研究中的一個長期挑戰(zhàn)。盡管為發(fā)展這些方法作出了巨大努力,但由于若干實際挑戰(zhàn),它們在實際生物數(shù)據(jù)上的應用受到阻礙。首先,重疊和局部共表達模塊的可視化和解釋更加困難。例如,并不直接顯示為什么某些基因被分組在模塊中。此外,分解和雙聚類方法通常具有多個參數(shù),這些參數(shù)需要在數(shù)據(jù)集上進行調整,并且會影響生物解釋。因此,僅使用表達式矩陣本身的雙聚類和分解方法的參數(shù)估計仍然是一個需要探討的問題。本研究表明,性能最好的分解方法對數(shù)據(jù)集中的樣本數(shù)量更敏感,并且在樣本數(shù)量有限的情況下優(yōu)于聚類方法。在這些方面(可視化、參數(shù)估計和數(shù)據(jù)要求)的改進將使先進的模塊檢測方法在生物研究中獲得更大應用。