干貨請收藏! TCGA數(shù)據(jù)庫大匯總
一:簡介
由美國政府發(fā)起的癌癥和腫瘤基因圖譜(Cancer Genome Atlas,TCGA)計(jì)劃于2006年聯(lián)合啟動,目前已經(jīng)收錄了來自1萬多例病人的33種癌癥的數(shù)據(jù),2.5PB的數(shù)據(jù)量。
二:數(shù)據(jù)內(nèi)容和等級
TCGA收錄的數(shù)據(jù)主要包括:
Microsatellite Instability (MSI)
這些數(shù)據(jù)可分為三個(gè)級別:1) level-1: 原始的測序數(shù)據(jù)(fasta,fastq格式等較為原始和粗糙的數(shù)據(jù));2) level-2:比對好的bam文件;3) level-3:經(jīng)過處理及標(biāo)準(zhǔn)化的數(shù)據(jù)。其中level1/2為controlled-access,level-3有部分是controlled-access,這一類型的需要向TCGA申請使用權(quán)限,而大部分普通用戶只能訪問Level3的部分處理及標(biāo)準(zhǔn)化的數(shù)據(jù)。詳細(xì)的數(shù)據(jù)類型與其等級請查看頁面:
https://cancergenome.nih.gov/abouttcga/aboutdata/datalevelstypes
三: 數(shù)據(jù)下載
· 推薦:TCGA官網(wǎng)的data-portal portal.gdc.cancer.gov。
· 推薦:Firehose服務(wù)器:gdac.broadinstitute.org。平臺對TCGA的數(shù)據(jù)進(jìn)行了整理并提供便捷的下載,但需要注意的是Firehose 收錄的數(shù)據(jù)并不是TCGA實(shí)時(shí)更新的數(shù)據(jù)。下載的數(shù)據(jù)適合后期的R語言處理分析。
四 :即搜即用的TCGA數(shù)據(jù)挖掘網(wǎng)站
l UALCAN轉(zhuǎn)錄組與生存數(shù)據(jù)庫
http://ualcan.path.uab.edu/index.html
UALCAN是用于分析癌癥轉(zhuǎn)錄組數(shù)據(jù)的界面友好型在線工具。UALCAN旨在:
a)輕松獲取公開的癌癥轉(zhuǎn)錄組數(shù)據(jù)(TCGA轉(zhuǎn)錄組測序數(shù)據(jù)),
b)允許用戶用TCGA數(shù)據(jù)挖掘生物標(biāo)志物或?qū)Ω信d趣的潛在基因進(jìn)行數(shù)據(jù)庫驗(yàn)證,
c)提供達(dá)到文章發(fā)表級別的基因表達(dá)和基于基因表達(dá)的患者生存分析圖,
d)評估乳腺和前列腺癌分子亞型中的基因表達(dá),
e)鏈接HPRD,GeneCards,Pubmed,TargetScan和人蛋白質(zhì)圖譜等數(shù)據(jù)庫,快速提供關(guān)于所選基因的附加信息。
l MethHC甲基化與表達(dá)數(shù)據(jù)庫
http://methhc.mbc.nctu.edu.tw/php/index.php
l MEXPRESS甲基化與表達(dá)數(shù)據(jù)庫
http://mexpress.be/
l OncoLnc生存分析數(shù)據(jù)庫
http://www.oncolnc.org/
整合了TCGA中的DNA甲基化,表達(dá)量及臨床數(shù)據(jù),主要用來探索甲基化,基因表達(dá)和臨床表型之間的關(guān)聯(lián)
l cBioPortal
http://www.cbioportal.org/index.do
整合和簡化了包括TCGA,ICGC以及GEO等多個(gè)癌癥基因組數(shù)據(jù)庫的內(nèi)容,可供下載。主要展示不同癌組織中基因的體細(xì)胞突變譜,拷貝數(shù)變異,mRNA,miRNA表達(dá)量變化,DNA甲基化變化以及蛋白質(zhì)表達(dá)變化的情況,并結(jié)合患者的臨床資料,繪制KM生存曲線。
l TANRIC:基于TCGA數(shù)據(jù)的lncRNA專用分析數(shù)據(jù)庫
http://ibl.mdanderson.org/tanric/_design/basic/index.html
收集20種癌癥的大量患者隊(duì)列的lncRNAs表達(dá)譜數(shù)據(jù),包括TCGA和多個(gè)獨(dú)立數(shù)據(jù)集(總共> 8000個(gè)樣品)。TANRIC可快速且直觀地在腫瘤類型內(nèi)或跨腫瘤類型中分析研究者感興趣的lncRNAs(已注釋的lncRNAs或任何用戶定義的lncRNAs)和其他分子數(shù)據(jù)。該工具有利于快速檢測具有潛在生物醫(yī)學(xué)標(biāo)記功能的lncRNAs。
l GEPIA:強(qiáng)大的綜合分析能力