微衛(wèi)星或簡單重復(fù)序列(SSR)是基因組中信息非常豐富、用途也很廣泛的一種遺傳標記。然而傳統(tǒng)的SSR分子標記開發(fā)常常是一項耗時費力及花費很大的工作。隨著下一代高通量測序數(shù)據(jù)的快速積累,利用測序數(shù)據(jù)進行SSR分子標記挖掘便成了更加高效的方法。今年2月13日發(fā)表在Molecules上的文章“Mining and Development of Novel SSR Markers Using Next Generation Sequencing (NGS) Data in Plants”就這一問題進行了系統(tǒng)的梳理。
一、SSR的重要性及其作為遺傳標記的應(yīng)用
SSR是一個串聯(lián)重復(fù)序列的亞類,由在所有原核生物和真核生物的基因組中發(fā)現(xiàn)的長度為1-6個核苷酸(基序)組成。在單個基因型中,由于SSR基序的串聯(lián)陣列改變,重復(fù)單元的數(shù)量可能不同。因此,隨著重復(fù)單元的增加,基因型的多樣性也相應(yīng)增加。同樣,基序長度也影響重復(fù)的數(shù)量。
有大量SSR基因座分布在整個基因組中,特別是在真核生物的常染色質(zhì)中,以及在編碼和非編碼細胞核和細胞器DNA中。由于微衛(wèi)星信息豐富,突變率高,特異性強,種內(nèi)多態(tài)性高,重復(fù)性好,易于數(shù)據(jù)化,多等位,跨分類群頻繁出現(xiàn)特點,此外,SSRs的共顯性特性允許直接測量雜合性,并且只需要少量DNA用于數(shù)據(jù)收集,因此微衛(wèi)星得到了廣泛應(yīng)用。值得注意的是,它們被廣泛應(yīng)用于不同的目的,例如(1)遺傳多樣性;(2)發(fā)現(xiàn)數(shù)量性狀基因座(QTL);(3)基因與標記連鎖圖譜的構(gòu)建;(4)標記輔助選擇所需性狀(MAS);(5)法醫(yī)學和親子鑒定;(6)品種DNA指紋圖譜;(7)全基因組關(guān)聯(lián)研究;(8)基因流估計;(9)標記輔助育種(MAS);(10)單倍型測定;(11)雜種優(yōu)勢利用;(12)種質(zhì)鑒定;(13)遺傳診斷、轉(zhuǎn)化體鑒定和細胞及組織鑒定。
SSR根據(jù)來源進行分類,主要分為基因組SSRs (g-SSRs)和表達序列標簽SSRs (EST-SSRs),(注:還有一些其他命名方法,比如來源于核DNA的ncSSR,葉綠體DNA的cpSSR和線粒體DNA的mtSSR等)。EST-SSRs具有開發(fā)成本低、遺傳多樣性水平高以及向相關(guān)類群的轉(zhuǎn)移能力強。相比之下,基因組SSRs由于引物結(jié)合位點的重復(fù)區(qū)域或簡并性而具有較小的種間可轉(zhuǎn)移性。盡管EST-SSRs的一個主要不足是在同一位點產(chǎn)生多組標記的序列冗余,但是這個問題可以通過將EST組裝成單基因來解決。因此,EST-SSRs標記已經(jīng)開發(fā)并在許多植物物種中使用,例如水稻、小麥、大麥、高粱、番茄、咖啡、橡膠、蓖麻和芝麻等。
二、SSR開發(fā)方法
SSR的開發(fā)可以依賴基因組DNA序列,也可以依賴由單鏈RNA (cDNA)合成的雙鏈DNA,這取決于項目目標、未來的研究方案以及研究人員管理輸出數(shù)據(jù)的能力。使用DNA直接測序更為直接,轉(zhuǎn)錄組測序(RNA-Seq )作為成功和有效的方法也可用于SSR挖掘,特別是用于沒有參考基因組(從頭組裝)的植物(表1)。
表1、利用下一代測序技術(shù)開發(fā)的一些植物簡單序列重復(fù)(SSR)標記列表
三、利用Illumina平臺進行的轉(zhuǎn)錄組開發(fā)SSR過程概述
轉(zhuǎn)錄組從頭組裝過程包括RNA提取、cDNA文庫構(gòu)建、測序、數(shù)據(jù)過濾和質(zhì)量控制、從頭組裝、單基因注釋、SSR搜索和引物設(shè)計以及標記驗證(圖1)。
圖1、從頭轉(zhuǎn)錄組測序和組裝過程的示意圖
1、從頭組裝
用于從頭組裝RNA-Seq reads的工具有多種,例如Multiple-k、Rnnotator、Trans-ABySS、Velvet-Oases和SOAPdenovo-Trans。Trinity是一種近來越來越流行的轉(zhuǎn)錄組從頭組裝工具,它為序列讀取生成單獨的de Bruijn圖。因此,每一個de Bruijn圖指示了某一基因或基因座的轉(zhuǎn)錄復(fù)雜性,該基因或基因座被單獨處理以獲得全長剪接亞型,并梳理從同源基因提取的轉(zhuǎn)錄物。另外,Trinity先后應(yīng)用了三個軟件應(yīng)用程序,即Inchworm,Chrysalis和Butterfly來管理大量的reads。該過程簡要描述如下:
Inchworm:通過用最多的k-mers擴展序列,將reads組合成獨特的轉(zhuǎn)錄本序列,然后只匯集不同剪接的轉(zhuǎn)錄本的特有部分。
Chrysalis:將Inchworm contigs按k-1重疊組成簇,為每個簇構(gòu)建de Bruijn圖組件,代表具有共同序列的一個或多個給定基因的完整轉(zhuǎn)錄情況。接下來,在簇之間劃分完整的read集合。
Butterfly:并行獨立解析拼接轉(zhuǎn)錄本,最終形成全長轉(zhuǎn)錄本。
Trinity產(chǎn)生的轉(zhuǎn)錄本應(yīng)用于TGICL ( TIGR基因指數(shù)聚類工具)管線聚類的基因家族。此外,為了獲得最終的單基因(如果有多個樣品),TGICL將對每個樣品的單基因再次計算,以獲得最終的單基因(用于下游分析)。單基因?qū)⒈环殖砂鄠€相似度超過70 %的簇和單基因singletons(圖2)。
圖2、轉(zhuǎn)錄組從頭組裝過程示意圖
2、單基因功能注釋
使用的功能數(shù)據(jù)庫包括NCBI的非冗余核苷酸序列數(shù)據(jù)庫(NT)和非冗余蛋白質(zhì)序列數(shù)據(jù)庫(NR)。此外,還包括Swiss-Prot、Pfam、KOG、GO和KEGG等數(shù)據(jù)庫。所有數(shù)據(jù)庫都使用Blast對齊組裝的單基因,以獲得每個單基因的注釋功能。對于NR注釋,可以使用Blast2GO或AmiGO獲得單基因的基因本體注釋?;虮倔w(GO)是一項重要的生物信息學聯(lián)合項目,旨在解決在分子、細胞和組織系統(tǒng)級別上跨數(shù)據(jù)庫生物功能的描述。
3、SSR挖掘和鑒定工具
為了在單基因中進行SSR挖掘和鑒定,人們開發(fā)出多種生信工具,比如MISA (MIcroSAtellite: http://pgrc.ipk-gatersleben.de/misa/)和SSRLocator (http://www.microsatellite.org/ssr.php)。然而,這些工具無法有效地處理大基因組序列,統(tǒng)計數(shù)據(jù)也不夠準確?;谌蚪M微衛(wèi)星開發(fā)的分析工具—GMATo結(jié)果更快、更精確,可以針對任何大小基因組完成SSR分析。最近,研究人員開發(fā)了一款新的軟件包GMATA,它通過映射和圖形化的方式為快速SSR分析、標記開發(fā)和多態(tài)性篩選提供了新的策略和全面的解決方案,并將結(jié)果顯示在具有其他基因特征的基因組瀏覽器中。此外,該軟件還提供了高質(zhì)量的統(tǒng)計圖表。GMATA軟件只使用側(cè)翼序列作為設(shè)計PCR引物的模板,減少了計算內(nèi)存,加快了大數(shù)據(jù)序列的設(shè)計過程。
4、DNA分離、PCR擴增和SSR驗證
為了驗證SSRs,需要提取DNA,合成目標SSR引物,通過PCR在不同植物品種或材料中進行擴增試驗檢測,最后選擇成功的引物進行后續(xù)如遺傳多樣性研究等。
四、基于下一代數(shù)據(jù)中SSRs基因分型工具
最近,已經(jīng)開發(fā)了許多軟件工具來分析NGS數(shù)據(jù)中的SSRs,例如LobSTR、RepeatSeq、STRViper、STR-FM、PSR、rAmpSeq和STRScan。LobSTR運行時間快,在基因分型階段考慮PCR stutter噪聲。然而,對于單核苷酸SSRs和短于25bp的SSRs,LobSTR敏感性低。RepeatSeq工具是使用來自近交果蠅系誤差分布圖發(fā)布的。該工具利用其他程序繪制的讀數(shù),,并根據(jù)SSR基序、長度和堿基質(zhì)量預(yù)測基因座最可能的基因型。然而,RepeatSeq的局限在于使用全部read作圖法,這種方法在參考基因組中引入了對SSR長度的偏向,從而可能模糊真實的SSR變異譜。STR-FM (使用基于側(cè)翼短串聯(lián)重復(fù)的映射方法)被開發(fā)為用于從短讀取測序數(shù)據(jù)中檢測SSR并對其進行基因分型的靈活管線。另一種利用成對末端信息從深度測序數(shù)據(jù)中檢測SSR變異的方法是STRViper。STRViper預(yù)測了基因組群體中的多態(tài)性重復(fù)序列,并發(fā)現(xiàn)了幾個多態(tài)性重復(fù)序列,除了LobSTR使用自己的對齊工具之外,所有工具都需要預(yù)先對齊的數(shù)據(jù)。STRViper的性能在很大程度上取決于碎片大小的差異。
上述所有工具主要用于從SAM / BAM數(shù)據(jù)中分析SSR,它們從NGS數(shù)據(jù)中識別每個位點的gSSR等位基因。與上述工具不同,多態(tài)SSR檢索工具(PSR)是為了從NGS數(shù)據(jù)中識別多態(tài)SSR而開發(fā)的,其中在非模式植物物種中,它們使用從頭轉(zhuǎn)錄組作為SSR挖掘的第一序列資源,從而更有效地挖掘。2016年人們開發(fā)出了rAmpSeq重復(fù)擴增測序工具,適用于大多數(shù)物種的基因分型,使用低質(zhì)量的DNA并產(chǎn)生多個標記,從而便于以每份樣品更低的成本進行全基因組測序。另一個軟件工具STRScan是為從基因組序列中生信挖掘SSRs而開發(fā)的,它比LobSTR和STR-FM具有更高的靈敏度。它在NGS數(shù)據(jù)中使用了一種特定的算法,對來自Sanger測序儀和Illumina測序儀的全基因組測序( WGS )數(shù)據(jù)進行有針對性的SSR分析。結(jié)果表明,STRScan可以在較短的計算時間內(nèi)將目標集中被LobSTR遺漏的SSRs多達
關(guān)于天昊:
天昊生物具備完整的轉(zhuǎn)錄組(RNA-Seq)及全轉(zhuǎn)錄組檢測服務(wù)產(chǎn)品線,同時擁有多種SSR檢測平臺及SSRseqTM等專利技術(shù),可以針對客戶具體項目需求,提供不同數(shù)量樣本和SSR位點的高性價比SSR檢測驗證服務(wù)。