PacBio三代全长转录组/Iso-Seq技术及案例分析

读透一篇文章比粗读100篇文章都要有用!!!

参考:产品手册

PacBio三代全长转录组有什么优势?

近年来,随着高通量测序技术的发展,转录组测序已经成为研究基因表达调控的主要手段。但二代的转录本重构准确率很低,三代可以直接得到全长转录本,无需组装。可改善基因表达定量结果,发现新的基因和转录异构体,鉴定可变剪切及基因融合现象。

Google第一个就是官网介绍,可以立马理解Iso-Seq的字面意思了。

Iso-Seq 就是 isoform sequencing,中文就是同源异构体测序,其实也是一种 RNA 测序技术。

The challenge of isoform reconstruction(即二代的不足):

真核组织中,大多数gene是可变剪切的,产生多种transcript isoforms,大大增加了基因组蛋白编码的潜能。

同一个gene产生的可变剪切是大大的不同的,有时甚至会起到相反的效应。

为了研究基因表达,学者们往往使用二代技术,测得的是一些片段,也是就RNA-seq技术。然而,短的RNA-seq 不能跨越全长的转录本,也就不能精准的描绘出 isoform 的不同特性。

三代的核心优势

Produce full-length transcripts without assembly(不用组装)

The isoform sequencing (Iso-Seq) application generates full-length cDNA sequences — from the 5’ end of transcripts to the poly-A tail — eliminating the need for transcriptome reconstruction using isoform-inference algorithms.

The Iso-Seq method generates accurate information about alternatively spliced exons and transcriptional start sites.

It also delivers information about poly-adenylation sites for transcripts up to 10 kb in length across the full complement of isoforms within targeted genes or the entire transcriptome.

实操:Iso-Seq学习

文章解读:Pacbio Iso-Seq 助力玉米高粱转录组研究


案例:Full-length transcriptome sequences and splice variants obtained by a combination of sequencing platforms applied to different root tissues of Salvia miltiorrhiza and tanshinone biosynthesis

2015年发的The Plant Journal,IF=5.468,丹参不同根组织和丹参酮的生物合成(全长转录组测序和混合测序平台来发现剪切变异体)

做了什么工作:

摘要:丹参是中国传统药材,它的根茎和根有很高的价值。它对应的生物活性成分是丹参酮,所以研究丹参酮的生物合成非常有价值,先前的转录组研究是基于NGS的,但是大部分的结果的 isotig 都不能代表全长的 cDNA 序列。而且这些研究都集中于整个植株和发状根培养物。这里,我们证实了丹参酮色素是在根周皮中产生的,我们联合应用了NGS和SMRT技术在不同的根组织中,特别是在根的周皮,来提供一个完整的丹参的转录组信息,而且进一步深入分析了丹参酮的生物合成。此外,使用SMRT测序,能够检测可变剪切,这里我们发现了检测到的基因座中有40%的都发生了可变剪切,包括一些类异戊二烯和类萜代谢。

研究材料:丹参酮一般认为产生于丹参根部周皮部,研究分别取了根部的周皮(periderm)、韧皮(phloem)、木质(xylem)3种类型的根部组织进行了mRNA测序。(很常规的思路,分析重点落在特色作物的重要功能成分上,找到该功能成分的合成场所,对该部分组织进行转录组分析,通过分析就肯定能找到与该代谢物相关的差异表达基因,最后把其他代谢扯一扯就发了一篇文章
研究方法:3种类型根部样本各设置3个生物学重复,总共9个样本,采用Hiseq2500 PE100进行测序,每个样本产生~5G raw data 。9个样本混合测序,采用PacBio进行测序,建<1kb、1-2kb、2-3kb、>3kb 四个SMRT bell文库,总共产生~4.8G raw data(估计一下,这个项目花了多少钱呢?一个样本Hiseq转录组多少钱?一个PacBio转录组多少钱?

主要发现
1)采用Hiseq2500 数据对PacBio RSII平台所产生的subreads进行了校正,最后得到了16,241个高质量非冗余isoform。
2)基于Hiseq2500产生的mRNA数据的差异表达分析,发现了在根部周皮部特异表达与者高表达丹参酮合成相关基因,SmCPS1、SmKSL1、GGPS、IPI、CYP等;
3) 最后研究者使用得到的16,241个高质量的Isoform进行了可变剪接分析,发现了大约有40%检测基因位点发生了可变剪接现象,其中有些基因参与了萜类化合物代谢及类异戊二烯代谢。

 

文章逻辑

全文都围绕着一个话题:tanshinone biosynthesis(丹参酮的生物合成)

引言怎么写

作物特点、价值、功效,核心功能成分的代谢途径,揭示其机制非常重要。

前人在该方向上(转录组)的研究方法及结果:inducible diterpene synthases(诱导二萜合成酶),SmCPS1 and SmKSL1;cytochrome P450 (CYP)。主要集中于 tanshinone biosynthesis 的前提和关键步骤,二萜烯烃前体,最初的羟基化,牵扯到一些生物化学代谢途径的解析。

本文使用技术的优势,目的及意义:1.全长转录组;2.dissect the root finely enough to localize tanshinone production and accumulation。

 

分析逻辑(结果):

tanshinone积累的定位

这部分虽然简单,但是可以显著提升文章前后的逻辑性。 分离拍照,然后电镜一张,UPLC成分含量分析。

Combined sequencing approach to the roots of danshen

这一步就是为了找出不同组织中的差异表达基因,使用NGS和SMRT混合测序手段,分析表达的基因。

Expression analysis indicates co-localization of tanshinone biosynthesis and accumulation

表达分析揭示tanshinone 生物合成和积累的协同定位

Co-expression analysis for the investigation of tanshinone biosynthesis

共表达分析

Alternatively spliced isoforms

可变剪切体

 

待续~

posted @ 2017-01-04 14:46  Life·Intelligence  阅读(9180)  评论(0编辑  收藏  举报
TOP