近期Nucleic Acids Research發(fā)表了由實驗結(jié)果支持的競爭性內(nèi)源RNAs (competing endogenous RNAs,ceRNAs)數(shù)據(jù)庫研究文章,重點介紹了LncACTda 2.0數(shù)據(jù)庫的數(shù)據(jù)和功能更新,這為全轉(zhuǎn)錄組研究提供了強有力的工具支撐,下面我們就來看一下這個數(shù)據(jù)庫概況。
網(wǎng)址:http://www.bio-bigdata.net/LncACTdb/index.html
摘要一覽
LncACTdb 2.0是一個更新和顯著擴展的數(shù)據(jù)庫,提供了不同物種和疾病相關(guān)ceRNA的綜合信息,成為研究ceRNAs的重要網(wǎng)絡(luò)資源。具體包括:(1)從超過5000篇已發(fā)表文獻中人工篩選到2663篇具有實驗數(shù)據(jù)支持的ceRNA信息;(2)將數(shù)據(jù)庫的范圍擴大到23個物種和213種疾病/表型;(3)納入更多的RNA類型,如環(huán)狀RNA和假基因;(4)從TCGA數(shù)據(jù)中鑒定出33種癌癥類型的候選lncRNA相關(guān)ceRNA的互作關(guān)系并對其評分;(5)為ceRNA提供存活率、互作網(wǎng)絡(luò)和癌癥標志的圖解信息。此外,還開發(fā)了多種靈活的在線工具,包括LncACT-Get、LncACT-Function、LnCaCT-Survival、LncACT-Network和LncACTBrowser,用于進行定制分析、功能分析、存活分析、網(wǎng)絡(luò)圖解和基因組可視化。LncACTdb 2.0還提供了新設(shè)計的、用戶友好的web界面來搜索、瀏覽和下載所有數(shù)據(jù)。BLAST界面便于用戶通過輸入自定義序列來查詢數(shù)據(jù)集。熱點界面為用戶提供了他人研究最多的詞條。
背景介紹
越來越多的證據(jù)表明,miRNAs受到存在有miRNA結(jié)合位點的長鏈非編碼RNA(lncRNAs)、環(huán)狀RNA(circRNAs)、假基因等的調(diào)控,從而競爭性影響了miRNA與天然靶標mRNA的結(jié)合,即競爭性內(nèi)源性RNAs(ceRNAs)調(diào)控機制,它可以在不同的生理和病理過程中動態(tài)調(diào)節(jié)彼此間的表達。
近年來發(fā)表的與ceRNA相關(guān)論文情況
到目前為止,人們已經(jīng)建立了多個數(shù)據(jù)庫,對miRNAs和其他分子之間的相互作用進行管理,如starBase v2、DIANA-LncBase v2、miRSponge和PceRBase等,它們?yōu)?span>ceRNA的研究提供了重要資源。然而,這些數(shù)據(jù)庫大都利用單一靶標方法預(yù)測相互作用,并且這些數(shù)據(jù)庫中的物種只限于人類、老鼠和植物。除了miRSponge數(shù)據(jù)庫存儲了具有實驗支持的11個物種的463個ceRNA關(guān)聯(lián)外,尚無其他數(shù)據(jù)庫專門用于收集、存儲和分析具有實驗結(jié)果支持的ceRNA信息以及綜合注釋。
改進的內(nèi)容和新功能
為了滿足這些需求,研究者在LncACTdb 1.0基礎(chǔ)上發(fā)布了2.0版(LncACTdb 2.0),增加了更多數(shù)據(jù)和一些新功能(表1 )。
表1、LncACTdb 2.0內(nèi)容統(tǒng)計列表
實驗支持ceRNAs的新增條目
高置信度ceRNA信息是從文獻中手動提取并集成到LncACTdb 2.0數(shù)據(jù)庫中。在本次更新中,研究者通過使用與ceRNAs相關(guān)的關(guān)鍵詞從PubMed檢索了已發(fā)表的文獻 (2018年10月之前)。按年份對5000多篇文章進行分類,經(jīng)過人工判讀匯總為有實驗支持的數(shù)據(jù)集,如PCR、western印跡或熒光素酶報告分析數(shù)據(jù),以及其他可靠的方法被考慮和進一步確定。目前,LncACTdb 2.0記錄了總共2663個實驗支持的ceRNA相互作用,包括312個lncRNAs、131個編碼mRNAs、59個circRNAs和16個假基因。LncACTdb 2.0的范圍擴大到23種和213種疾病/表型。
泛癌種lncRNA相關(guān)ceRNAs的擴展條目
研究者使用集成管線從TCGA中鑒定出候選的與lncRNA相關(guān)的ceRNA (圖1)。使用四種具有嚴格閾值的miRNA靶預(yù)測方法(miRanda、RNAhybrid、TargetScan、PITA)來預(yù)測miRNA-lncRNA相互作用。此外,從starBase v2下載的41個AGO-CLIP-seq數(shù)據(jù)集被整合到管線中,以識別lncRNA序列上實驗支持的miRNA結(jié)合位點。BEDTools使用重疊長度>1作為閾值,比較CLIP-seq峰對應(yīng)基因組坐標和預(yù)測的miRNA結(jié)合位點。miRNA-mRNA調(diào)控關(guān)系數(shù)據(jù)來源于通過熒光素酶分析、PCR和Western blot等實驗方法驗證的TarBase (v8)和mirTarBase (v2018)。如果一個lncRNA和mRNA與同一個miRNA相互作用,這個lncRNA-miRNA-mRNA競爭三聯(lián)體被稱為候選ceRNA相互作用。功能性ceRNA則定義為:corr(lncRNA,miRNA )<0,corr(mRNA,miRNA ) <0和corr(lncRNA,mRNA )>0,其中corr(a,b )分別代表基于其表達值的基因a和b的皮爾遜相關(guān)系數(shù)。在LncACTdb 2.0中,癌癥類型已經(jīng)從12種擴大到33種。最終,LncACTdb 2.0中發(fā)現(xiàn)了47673個跨癌種功能性ceRNAs。為了促進ceRNAs的研究,LncACTdb 2.0提供了miRNA-lncRNA相互作用的miRNA結(jié)合位點的詳細信息,以及miRNA-mRNA相互作用的實驗驗證方法。
網(wǎng)絡(luò)、功能、標志和預(yù)后的擴展內(nèi)容
對于每個與lncRNA相關(guān)的ceRNA條目,LncACTdb 2.0構(gòu)建了一個由ceRNA及其相關(guān)的競爭鄰組構(gòu)成的網(wǎng)絡(luò),并進一步提供了圖解。LncACTdb 2.0中使用了“按關(guān)聯(lián)定罪”策略來執(zhí)行ceRNAs的功能注釋。對于路徑的注釋,從MSigDB下載了總共1329條路徑,包括KEGG、BioCarta、Reactome、PID、STKE和SIG。收集Entrez IDs作為功能基因列表。對于GO注釋,總共收集了5917個代表功能術(shù)語的基因集合。每個GO術(shù)語中的Entrez IDs被用作功能基因列表。已經(jīng)確定促進腫瘤生長和轉(zhuǎn)移的癌癥標志過程的基因組從MSigDB下載。為了進行生存曲線分析,收集了來自TCGA的10141名患者的臨床隨訪信息。根據(jù)ceRNAs表達值的線性組合,用Cox回歸系數(shù)加權(quán),構(gòu)建了風險評分模型。此外,中位或平均風險分數(shù)被用作一個臨界值,將患者分成兩組,兩組患者有不同的生存風險。對兩組患者進行Kaplan-Meier生存分析,并使用對數(shù)秩檢驗評估統(tǒng)計學意義( P <0.05 )。
用于數(shù)據(jù)發(fā)現(xiàn)和分析的新開發(fā)工具
高通量技術(shù)產(chǎn)生了大量的表達譜信息,迫切需要通過分析這些數(shù)據(jù)集來解析疾病病理和發(fā)現(xiàn)癌癥生物標志物。在LncACTdb 2.0中,研究者更新了LncACT-Get工具,讓用戶根據(jù)定制的輸入識別新的ceRNA關(guān)系。用戶可以上傳某一疾病或表型的表達譜,LncACT-Get實現(xiàn)管線集成,以識別具有相應(yīng)活動評分和P值的功能性ceRNA。為了研究受lncRNAs影響的下游生物過程,LncACT-Function工具被開發(fā)出來。它基于“按關(guān)聯(lián)定罪”策略對用戶輸入的lncRNAs進行功能分析。LncACT-Function收集了成千上萬條路徑和生物術(shù)語作為功能背景。為了發(fā)現(xiàn)新的ceRNA預(yù)后生物標志物,研究者開發(fā)了LncACT-Survival工具,該工具對33種癌癥類型的TCGA中的ceRNA相互作用進行在線生存分析。此外,LncACT-Survival工具還提供單個lncRNA、miRNA或mRNA的生存分析。為了便于ceRNA網(wǎng)絡(luò)的可視化還開發(fā)出LncACT-Network工具。對于定制的lncRNA或mRNA,LncACT-Network工具將提供所有可能的ceRNA交互的全局視圖,以及不同ceRNA之間的更多的cross-talk信息。
更靈活的訪問數(shù)據(jù)集方式
LncACTdb 2.0為數(shù)據(jù)發(fā)現(xiàn)和訪問提供了更靈活的方式:(1)開發(fā)了快速搜索引擎,允許用戶搜索實驗支持和預(yù)測的數(shù)據(jù)集。輸入的關(guān)鍵詞可以是任何一種基因克隆、miRNAs、mRNAs、circRNAs、假基因、疾病、細胞系、主要位點等。(2)開發(fā)了名為BLAST的新數(shù)據(jù)訪問工具,以實施定制的排序搜索。用戶可以輸入RNA序列,以便識別相關(guān)的ceRNAs。(3)熱點界面顯示LncACTdb 2.0的訪問記錄,向用戶提供其他研究人員研究最多的項目。(4) LncACTBrowser是一個基于網(wǎng)絡(luò)的基因組瀏覽器,動態(tài)顯示ceRNAs的不同記錄。它提供了全面的信息跟蹤,包括參考序列、轉(zhuǎn)錄本、miRNA結(jié)合位點(由miRanda、TargetScan、PITA和RNAhybrid方法預(yù)測)和CLIP-seq峰(41個數(shù)據(jù)集)。(5)通過所有查詢步驟,點擊“復(fù)制”、“Excel”和“CSV”按鈕,可以靈活下載結(jié)果。
圖1、LncACTdb 2.0數(shù)據(jù)庫內(nèi)容及用戶界面。左側(cè)是數(shù)據(jù)庫內(nèi)容,包括從低通量和高通量實驗中鑒定的ceRNA信息。右側(cè)是LncACTdb 2.0的用戶界面。在此界面中,搜索、瀏覽、BLAST和LncACTBrowser模型提供了訪問數(shù)據(jù)集的靈活方式。已經(jīng)開發(fā)了在線工具包括LncACT-Function、LncACT-Survival、LncACT-Network和LncACT-Get,以執(zhí)行定制分析和數(shù)據(jù)可視化。
數(shù)據(jù)庫構(gòu)建和改進的用戶界面
LncACTdb 2.0中的所有數(shù)據(jù)都由MySQL數(shù)據(jù)庫記錄和管理。web服務(wù)器是通過使用Tomcat容器中的Java服務(wù)器頁面更新的。LncACTdb 2.0提供了一個用戶友好的web界面,用戶可以通過幾個簡單的步驟搜索、瀏覽、分析和下載數(shù)據(jù)(圖2)。作為在搜索界面中輸入的lncRNA MALAT1的一個例子(圖2A),所有可能的ceRNA都將顯示在結(jié)果頁面中(圖2B)。為了過濾出有趣的ceRNA,用戶可以通過點擊不同列的標題來重新排序結(jié)果表格。第一欄將引導(dǎo)用戶進入ceRNA的詳細信息頁面。LncACTdb 2.0提供了綜合信息,包括基本信息、泛癌信息、MALAT1相關(guān)ceRNA的預(yù)測和實驗信息(圖2C)。為了進一步分析數(shù)據(jù)集,開發(fā)的幾個在線工具,可以在每頁的導(dǎo)航欄上輕松訪問(圖2E-H)。LncACT-Function工具根據(jù)GO術(shù)語、路徑和癌癥特征對MALAT1進行功能分析(圖2E)。LncACT-Survival工具執(zhí)行生存分析,并為ceRNA交互提供Kaplan-Meier生存曲線(圖2F)。LncACT-Network工具提供了所有可能相關(guān)ceRNA交互的全局視圖(圖2G)。用戶可以通過調(diào)整不同步驟來重置網(wǎng)絡(luò)規(guī)模。根據(jù)定制的表達式配置文件,LncACT-Get工具實現(xiàn)了一個集成管道,以識別功能性ceRNA以及相應(yīng)的活動分數(shù)和P值(圖2H)。此外,LncACTdb 2.0提供了更靈活的方法來訪問數(shù)據(jù)集。一個瀏覽頁面被設(shè)計用于根據(jù)不同的分類對數(shù)據(jù)庫進行全面的瀏覽(圖2D)。熱點頁面提供了人體地圖插圖和其他研究人員研究最多的項目(圖2I)。BLAST頁面實現(xiàn)定制的排序搜索。用戶可以輸入新的RNA序列,以便識別相關(guān)的ceRNAs (圖2J)。LncACTBrowser是一個基于網(wǎng)絡(luò)的基因組瀏覽器,它提供全面的軌跡,包括參考序列、轉(zhuǎn)錄本、miRNA結(jié)合位點和CLIP序列峰值信息(圖2K)。
圖2、使用LncACTdb 2.0的案例研究和工作流程。(A)搜索模塊與MALAT1示例的界面。(B) MALAT1的搜索結(jié)果,包括預(yù)測和實驗支持的數(shù)據(jù)集。(C)帶有詳細信息的搜索結(jié)果頁面。(D) LncACTdb 2.0的瀏覽界面。(E)基于GO術(shù)語、途徑和癌癥特征的MALAT1功能分析。(F)與MALAT1相關(guān)的ceRNAs的生存分析和Kaplan-Meier生存曲線。(G) MALAT1的所有可能相關(guān)的ceRNA交互的全球視圖。(H) LncACT-Get工具實現(xiàn)了一個集成管道,以根據(jù)定制數(shù)據(jù)識別ceRNA的功能交互。(I)熱點頁面提供了人體地圖和其他研究人員研究最多的項目。(J) BLAST接口實現(xiàn)定制的測序搜索,以識別相關(guān)的ceRNAs。(K) LncACTBrowser提供MALAT1的全面基因組信息,包括參考序列、轉(zhuǎn)錄本、miRNA結(jié)合位點和CLIP-seq峰。
研究人員預(yù)測,在未來的LncACTdb數(shù)據(jù)庫版本中,通過高置信度實驗或高通量分析確定的ceRNA數(shù)據(jù)集將繼續(xù)快速增長。不斷更新的LncACTdb數(shù)據(jù)庫,增加數(shù)據(jù)集和功能界面,這將提高人們對復(fù)雜疾病中編碼和非編碼RNA的理解。
全轉(zhuǎn)錄組測序技術(shù)優(yōu)勢:
? rRNA去除建庫,保留了完整的RNA種類信息;
? 鏈特異性文庫,可以保留轉(zhuǎn)錄本的鏈信息,更準確地檢測反義RNA;
? 使用高通量測序,能夠獲得更加全面的RNA信息,包括低豐度的RNA;
? 通過測定的序列信息精確地分析不同類型RNA的表達豐度變化及其生物學功能;
? 分析同一樣本中的mRNA、lncRNA、miRNA和circRNA四種類型RNA,明確這些RNA之間的共表達和調(diào)控關(guān)系,揭示ceRNA調(diào)控機制。
關(guān)于天昊:
天昊生物具有豐富的轉(zhuǎn)錄組和全轉(zhuǎn)錄組測序經(jīng)驗,我們致力于為研究者提供高質(zhì)量的科研策略咨詢、實驗技術(shù)服務(wù)和遺傳數(shù)據(jù)分析服務(wù),期待成為大家科研工作中的“昊”助手與“昊”伙伴。歡迎聯(lián)系我們具體咨詢!郵箱:[email protected] 電話:400-065-6886