去年十月,Nucleic Acids Research刊登了一篇SSRome數(shù)據(jù)庫的文章,發(fā)布了一個整合了所有物種SSR在線數(shù)據(jù)資源的專業(yè)SSR數(shù)據(jù)庫(“終于等到你!“SSRome”,所有物種SSR標記開發(fā)整合數(shù)據(jù)庫發(fā)布”)。今年十月,Nucleic Acids Research又帶來一個最新的SSR數(shù)據(jù)庫—MSDB,微衛(wèi)星綜合注釋數(shù)據(jù)庫,涉及的物種增加到了37262種,增加了近7倍,可謂SSRome的“加強版”!
發(fā)表時間:2019-10-10 影響因子:11.147
MSDB網(wǎng)址:https://data.ccmb.res.in/msdb/
網(wǎng)站首頁節(jié)選
微衛(wèi)星數(shù)據(jù)庫(MicroSatellite DataBase,MSDB)是簡單序列重復(fù)序列的集合。微衛(wèi)星是存在于所有基因組中的1-6個堿基基序的短串聯(lián)重復(fù)序列。人們研究它們作為分子標記和法醫(yī)學的用途,最近研究它們的基因調(diào)節(jié)功能。此外,許多研究指出它們在進化中的作用,因為它們在物種內(nèi)和物種間的多態(tài)性比率很高。MSDB的目標是成為獲取和可視化SSR相關(guān)信息的直接資源。
MSDB來自37680個基因組的40億多個微衛(wèi)星的集合,呈現(xiàn)在一個用戶友好的門戶網(wǎng)站上,便于進行交互式分析和可視化。這是迄今為止訪問和分析多物種微衛(wèi)星數(shù)據(jù)的最全面、帶注釋、最新的數(shù)據(jù)庫。MSDB的特性使用戶能夠以可過濾和導(dǎo)出的表格的形式瀏覽數(shù)據(jù),也可以以交互式圖表的形式同時查看和比較多個物種的數(shù)據(jù)。它的模塊化和架構(gòu)允許新數(shù)據(jù)的無縫更新,特別是在它們的進化和基因組組織和基因調(diào)控新作用的背景下,會使它成為研究微衛(wèi)星的強大工具和有用資源,
表1、MSDB與現(xiàn)有微衛(wèi)星數(shù)據(jù)庫的比較,基于(A)可獲得數(shù)據(jù)的物種數(shù)量,(B)數(shù)據(jù)庫的特征和功能
MSDB搭建方法
MSDB中所有基因組數(shù)據(jù)都是從NCBI的RefSeq和GenBank,以及UCSC中獲得的。序列信息以FASTA格式下載,基因注釋以GFF/GTF格式下載。如果相同裝配水平的多個基因組可用,則選擇最近發(fā)布的版本。除了序列之外,還記錄了該物種的其他信息,如系統(tǒng)發(fā)育分類。
在重復(fù)的識別方面,使用PERF鑒定來自基因組序列的微衛(wèi)星。PERF根據(jù)基序序列的周期性變化,將5356個1-6nt長的DNA基序的可能排列分為501個獨特的微衛(wèi)星類別。所有基序最小長度截止值為12 nt。PERF的輸出是一個TSV文件,它遵循BED格式規(guī)范來描述所識別的微型衛(wèi)星的位置和其他信息。除了FASTA輸入之外,還向PERF提供基因注釋,根據(jù)這些注釋確定每個微衛(wèi)星的最近基因以及到最近TSS(轉(zhuǎn)錄起始位點)的距離。此外,微衛(wèi)星被分為外顯子、內(nèi)含子或基因間重復(fù)。
數(shù)據(jù)庫設(shè)計方面,MSDB的后端由MySQL支持,使用基于Python的Django框架作為中間件進行查詢和訪問。重新設(shè)計的數(shù)據(jù)庫由兩個表組成;基因組表將所有關(guān)于可用基因組的信息存儲在數(shù)據(jù)庫中,所有微衛(wèi)星信息存儲在單個大重復(fù)表中。這提高了整個網(wǎng)絡(luò)界面的速度和響應(yīng)性,并最小化了服務(wù)器上的計算量。
MSDB的Web界面方面,其前端是一個單頁應(yīng)用程序,它是使用虛擬環(huán)境接口和元素界面構(gòu)建的。網(wǎng)站的整個狀態(tài)存儲在一個JavaScript對象中,該對象在網(wǎng)站的選項卡中有效。這可以確保網(wǎng)頁記住用戶選擇和其他設(shè)置,直到網(wǎng)站重新加載。微衛(wèi)星的基本信息是預(yù)先計算的,并存儲在特定物種的JSON文件中。
數(shù)據(jù)庫概述和功能
MSDB是一個4330912429個長度≥12 nt的完整SSR的集合,來自37680個基因組,分屬37 262種。MSDB的網(wǎng)絡(luò)應(yīng)用程序是為跨基因組交互式探索和分析SSR而設(shè)計的。主頁提供了關(guān)于MSDB的一般信息,并提供了訪問常用物種表格和微衛(wèi)星數(shù)據(jù)的快速鏈接。如下所述,MSDB的其他功能可通過網(wǎng)站的各種選項卡訪問。MSDB的主頁將所選物種的微衛(wèi)星信息總結(jié)為交互式表格和圖表(圖1)。默認情況下,該頁面顯示了Homo sapiens微衛(wèi)星信息。
圖1、瀏覽顯示人類微衛(wèi)星信息的MSDB網(wǎng)頁
物種選擇:可以通過左側(cè)的物種選擇面板添加或更改物種(圖1,左側(cè))。用戶可以通過搜索欄按他們的學名或通用名搜索物種,也可以通過物種表過濾感興趣的物種。
模態(tài)視圖:大多數(shù)在標題中有一個按鈕(圖1,紅色箭頭),用于切換MSDB的模態(tài)視圖,這讓用戶可以用有用的方式自定義圖。通過該模式,用戶可以獲得MSDB最獨特的特征之一--微衛(wèi)星數(shù)據(jù)的多物種特性比較。該模式還提供了基于物種基因組大小標準化數(shù)據(jù)的選項,以便于不同大小基因組之間的數(shù)據(jù)比較。
表格視圖:點擊“探索重復(fù)”按鈕(圖1,黑色箭頭)打開一個新窗口,所選物種的微衛(wèi)星數(shù)據(jù)顯示為表格。頁面頂部的過濾面板允許用戶過濾顯示的各種屬性的數(shù)據(jù),如基因組位置、微衛(wèi)星基序(重復(fù)類)或長度、與特定基因的接近度、基因組上下文或與轉(zhuǎn)錄起始位點的距離??梢酝ㄟ^單擊列標題對表進行排序,并可以使用“導(dǎo)出表”按鈕將其導(dǎo)出為TSV文件。通過復(fù)選框選擇感興趣的重復(fù)序列,并點擊表格上方的“獲取序列”按鈕,可以獲得微衛(wèi)星的側(cè)翼序列。這將啟動一個新窗口,顯示所有選定微衛(wèi)星的序列,默認側(cè)翼大小為兩側(cè)100 bp。側(cè)翼大小是可定制的,序列格式可以在表格格式和FASTA格式之間切換。
數(shù)據(jù)下載:MSDB提供了一個專門的下載頁面來快速檢索所需基因組的微衛(wèi)星數(shù)據(jù)。下載頁面以類似于瀏覽頁面物種表的布局顯示基因組列表。對于每個基因組,提供了三個鏈接--啟動基因組的表格視圖,將整個數(shù)據(jù)作為TSV文件下載,或者作為gzip壓縮的TSV文件下載。
幫助頁面:MSDB的幫助頁面包含一個廣泛的手冊,幫助新用戶理解網(wǎng)站的功能和布局。帶注釋的截圖指導(dǎo)用戶瀏覽網(wǎng)站。頁面的各個部分詳細描述了MSDB的每個圖表,并提供了數(shù)據(jù)是如何獲得或處理的信息。
關(guān)于天昊:
天昊生物長期從事基因及遺傳分析,可以提供包括SSR檢測在內(nèi)的多項基因檢測服務(wù)。天昊生物自主研發(fā)的基于二代測序技術(shù)的SSR檢測新方法--SSRseqTM,這種方法幾乎克服了現(xiàn)存所有電泳檢測方法的不足,尤其適合對多SSR位點、超高深度的分型,準確度高,并且分辨率達到單堿基的水平。因此適合所有二倍體人類、動植物、真核微生物,以及多倍體物種的SSR基因型分析。歡迎聯(lián)系我們具體咨詢!郵箱:[email protected] 電話:400-065-6886