摘要: RNA-seq方法大整合
RNA-seq是轉(zhuǎn)錄組研究的一項(xiàng)重要技術(shù)方法,自從它誕生以來,已經(jīng)發(fā)展了上百種分析工具。人們往往更加熱衷于對(duì)新的分析工具的開發(fā),而忽視了對(duì)已有工具的系統(tǒng)性整合。近期在NC上發(fā)表了一篇通過對(duì)RNA-seq廣譜性分析文章,獲得對(duì)轉(zhuǎn)錄組數(shù)據(jù)更加全面的認(rèn)識(shí)。
期刊名:Nature Communications 發(fā)表時(shí)間: 2017年7月 影響因子: 12.124
RNA-seq技術(shù)的廣泛應(yīng)用為轉(zhuǎn)錄組研究迎來了一個(gè)新時(shí)代。根據(jù)研究內(nèi)容的方向,精度、速度和成本要求不同,科研人員需要對(duì)包括采取何種具體測序方法流程、樣品類型、所需的分析結(jié)果,以及基因組研究現(xiàn)狀和計(jì)算數(shù)據(jù)處理可用資源等內(nèi)容進(jìn)行權(quán)衡。因?yàn)樯婕暗膯栴}復(fù)雜多樣,如何找到一種最佳的工作流程,在成本和性能要求基礎(chǔ)上,通過對(duì)RNA-seq分析中涉及到的各個(gè)不同環(huán)節(jié)進(jìn)行最優(yōu)選擇,便成為是至關(guān)重要的問題。
為了解決上述問題,研究者提出了一個(gè)綜合性RNA-seq方案 — RNA-Cocktail法,這種方法分析了一系列RNA-seq工作流程,除了分析RNA表達(dá)情況之外,研究者還對(duì)RNA變異識(shí)別、RNA編輯和融合檢測方法進(jìn)行了評(píng)估。他們利用39個(gè)分析工具,對(duì)生殖系、癌癥和干細(xì)胞的15個(gè)樣本數(shù)據(jù)集進(jìn)行了120個(gè)組合的490項(xiàng)分析,實(shí)現(xiàn)了工作流程的更高精度化,提供了更多生物學(xué)相關(guān)預(yù)測。流程代碼下載網(wǎng)址:http://bioinform.github.io/rnacocktail/。
RNA-seq數(shù)據(jù)集來源:
RNA-seq分析設(shè)計(jì)方案:
圖1、RNA-Cocktail分析設(shè)計(jì)方案
用于比較的分析軟件列表:
基于有參序列的轉(zhuǎn)錄本鑒定:
圖2、不同序列比對(duì)策略性能比較
研究者比較了TopHat、STAR14和 HISAT2三種最常用的拼接軟件,最終從整體的比較結(jié)果看,HISAT2比STAR14和TopHat分別快了大約2.5倍和100倍(圖2)。
之后,研究者又比較了Cufflinks和StringTie這兩個(gè)常用的基于比對(duì)的轉(zhuǎn)錄組工具,結(jié)果發(fā)現(xiàn)雖然Cufflinks在基因?qū)用娴臋z測要比StringTie靈敏一些,但是StringTie比Cufflinks多預(yù)測50–200% 的轉(zhuǎn)錄本,并且比Cufflinks分析速度快約60倍。
De novo 轉(zhuǎn)錄本組裝:
當(dāng)缺少參考基因組或者轉(zhuǎn)錄組數(shù)據(jù)時(shí),測序reads的de novo組裝可以被用來構(gòu)建轉(zhuǎn)錄本。本研究分析了三種廣泛應(yīng)用的工具:Trinity、Oases和SOAPdenovo-Trans。對(duì)RNA-seq數(shù)據(jù)的分析結(jié)果發(fā)現(xiàn),Oases在所有樣本中,具有最高的N10到N50值,表明它具有發(fā)現(xiàn)長轉(zhuǎn)錄本的優(yōu)勢(圖3)。在對(duì)ExN50的測試中,Oases同樣具有更有效的捕捉低表達(dá)基因的能力。而考慮到較低內(nèi)存配置及計(jì)算需求時(shí),SOAPdenovo-Trans則是最為高效的方法。
圖3、不同de novo轉(zhuǎn)錄本組裝技術(shù)性能比較
差異表達(dá)分析:
RNA-seq的一個(gè)重要目標(biāo)就是鑒定不同樣本和條件下基因表達(dá)差異情況,人們開發(fā)出多種檢測方法,比如DESeq2、limma、edgeR、Cuffdiff、Ballgown和sleuth等。這些工具用于檢測SEQC樣品中的1001個(gè)表達(dá)差異基因的性能差異,結(jié)果表明,DESeq2較為明顯的優(yōu)于其他方法(圖4)。
圖4、不同基因表達(dá)差異工具性能比較
RNA-seq變異分析:
除了檢測差異表達(dá)信息之外,RNA-seq數(shù)據(jù)還可以用于鑒定基因組和轉(zhuǎn)錄組重要的變異情況。
圖5、不同變異識(shí)別(a-c)、RNA編輯(d-e)和RNA融合(f)檢測方法比較
在變異識(shí)別中,常用到SAMtools mpileup和GATK’s HaplotypeCaller工具。通過與其他環(huán)節(jié)多種工具的組合對(duì)比發(fā)現(xiàn),SAMtools和GATK具有較為類似的處理時(shí)間和性能。RNA編輯作為轉(zhuǎn)錄后調(diào)控的重要過程,可以影響序列功能及表達(dá)水平,本研究重點(diǎn)對(duì)GIREMI工具進(jìn)行了分析。RNA-seq的另外一個(gè)重要應(yīng)用就是對(duì)融合基因的檢測,比較常用工具JAFFA、 STAR-Fusion、TopHat-Fusion、FusionCatcher和SOAPfuse,以及長片段工具IDP-fusion和Iso-Seq的結(jié)果發(fā)現(xiàn),F(xiàn)usionCatcher和IDP fusion表現(xiàn)出更高的靈敏性和準(zhǔn)確性(圖5)。
高準(zhǔn)確性工作流程—RNA-Cocktail流程:
圖6、RNA-Cocktail流程圖
綜合上述工具比較分析結(jié)果,研究者對(duì)各個(gè)環(huán)節(jié)表現(xiàn)更好的工具進(jìn)行整合,提出了RNA-seq分析高準(zhǔn)確性工作流程—RNA-Cocktail(圖6)在數(shù)據(jù)驗(yàn)證后發(fā)現(xiàn),該流程優(yōu)于之前的其他工作流程,如Galaxy和Grape等方法。
天昊生物,RNA-seq技術(shù)的優(yōu)質(zhì)服務(wù)提供商!我們通過對(duì)RNA-seq各個(gè)實(shí)驗(yàn)及生信分析環(huán)節(jié)不斷優(yōu)化,為客戶提供更加準(zhǔn)確、可靠及個(gè)性化的數(shù)據(jù)檢測和分析結(jié)果,為您的科學(xué)研究保駕護(hù)航!