上海艾跃(Active Motif)生物科技有限公司品牌商

9

手机商铺

qrcode
商家活跃:
产品热度:
  • NaN
  • 0.3999999999999999
  • 0.3999999999999999
  • 2.4
  • 2.4
DNA 甲基化分析技术服务
询价
品牌商

上海艾跃(Active Motif)生物科技有限公司

入驻年限:9

  • 联系人:

    Active Motif

  • 所在地区:

    上海 闵行区

  • 业务范围:

    试剂、实验室仪器 / 设备、技术服务、抗体

  • 经营模式:

    生产厂商 经销商

在线沟通

公司新闻/正文

浅谈生信的分析过程!如何从原始数据到结果报告?

5193 人阅读发布时间:2022-05-27 11:12

引言

大多数科研工作者都熟悉ChIP-Seq和ATAC-Seq的实验流程,甚至熟悉文库的准备和分析,但关于测序和分析数据之间的步骤,可能只有熟悉生物信息分析的科研工作者才清楚知晓。

我们大多数人都知道,原始数据通常是一种称为FASTQ的文件格式。

但我们如何在基因组浏览器上从FASTQ文件获取峰值呢?

我们Active Motif拥有多年的生信分析经验,下文由我们简单介绍一下这其中的有关内容吧!这些相关步骤也包含在我们的一站式表观遗传学服务内容中。
 

 测序——一切的开始

首先,Illumina测序器的Flow cell加载了多路复用文库,我们的ChIP-Seq实验的湿实验室部分已经完成。

测序仪创建一个BCL(二进制基本调用)文件,其中包含来自flow cell上所有多路复用文库的数据。

此时,每个文库都会被测序得到,但此时文库对应的reads被混合在一起的。

我们可以利用每个文库上的Barcode条形码,以便仅将属于每个样本的reads分离到各个库中。

使用Illumina软件bcl2fastq,可以执行解复用,为每个库生成名为FASTQ文件的单独数据文件。

第一步是完成Illumina样本表,这是一个CSV(逗号分隔)文件,您可以在Excel中编辑该文件,软件会识别该文件中的以下信息:

1)哪个库具有哪个条形码序列;

2)运行单端或双端;

3)运行了多少个周期(也称为reads长度)。

如果客户选择自己进行分析,我们也可以将FASTQ文件作为结果交付给客户。而对于选用了我们一站式服务的客户,我们还会为其做后续的分析。
 

 质量控制——评估您的结果

下一步是对测序结果的FASTQ文件进行质量评估。

使用名为fastqc的软件,我们可以评估碱基质量分布、adaptor污染、k-mer含量和duplication等指标。

此外,我们还使用Babraham Bioinformatics fastq_screen软件对这些库进行了多物种比较,以确认除样本来源物种外,没有其它物种的读数污染样本数据。

这些步骤是整个工作流程中的关键部分,可确保最终数据具有高质量并适合下游分析。

 

在QC之后,我们接下来将FASTQ文件中的原始数据与带注释的基因组进行比对并注释。

我们已经得到了可用的reads,但还不知道它们在基因组上对应的区域。

人类、小鼠、大鼠、斑马鱼、果蝇、酵母和蠕虫等的基因组都有足够的注释来比对FASTQ文件。

我们使用名为BWA(Burrows-Wheeler-Aligner)的软件将测序结果映射到带注释的基因组(Li和Durbin,2009)。

此过程从原始的FASTQ文件生成BAM文件。

BAM文件包含这些序列,同时还包含它们在基因组上对应的特定位置的坐标信息。
 

 获取片段峰

接下来,我们需要定义峰值(Peaks),为此,我们使用了MACS/MACS2(Zhang et al.,2008)或SICER(Zang et al.,2009)的软件套件。

这些程序使用BWA创建的BAM文件来确定整个基因组中每个样本中的reads是否富集以及在何处富集。

这些信号富集区域被称为“峰值(Peaks)”,并作为后续许多分析的功能单元。

需要注意的是,我们对数据进行了标准化处理,以便峰值“调用(Calling)”和后续观测不会受到技术变化的影响,而是更加依赖和反映了正在发挥作用的基础生物学。

这个过程会生成一个BED文件,其中包含染色体、bp起始位置、结束位置以及一系列与调用的每个峰值相关的元数据(meta data)。

 

此外,我们还生成了一个bigWig(.bw格式)文件,该文件包含相同的峰值信息,其大小为100-200 MB,比原始的FASTQ文件(可能在1-2 GB之间)更方便传输。

在生成这些bigWig 文件后,我们就可以将数据上传到基因组浏览器(如UCSC基因组浏览器)或基因组浏览器程序(如IGV)(Integrative Genomics Viewer;Robinson et al.,2001)。

研究人员只需要简单地把bigWig 文件拖放到IGV中,即可直观地查看感兴趣的区域的相关数据。

或者,他们也可以将托管在FTP服务器上的bigWig文件链接到UCSC基因组浏览器。

研究人员可以使用基因组浏览器搜索基因/位点,比较轨迹,并截图以供使用。

 

峰值调用(peak calling)完成后,现在是执行下游分析的时候了。

因为我们分析的是有参基因,所以我们可以在上面分析很多的特征,例如离这些peak最近的基因或该基因的启动子区域。

通常,我们的客户对差异分析感兴趣,即将一组样本与另一组样本进行比较,以确定信号显著不同的区域。

使用R软件包DESeq2,我们可以获得特定峰值样本之间的定量差异(Love等人,2014)。

由于这些峰值区域已被标注到附近的基因组特征中,因此研究人员可对这些差异区域进行深入探讨,是何因素导致了这样的差异,从而又实现了怎样的功能。
 

 在FASTQ之后

Active Motif完成全套生物信息学分析服务后,会交付给客户所有分析样本的FASTQ(原始的raw data)、BAM(对齐后的reads)和bigWig(峰值数据)文件。

除此之外,我们还提供一套包含图表、注释文件和基因组浏览器截屏等信息的分析报告,当用户认真解读所有这些数据结果,便可针对自己研究的表观遗传学问题得到进一步的结论或见解。

除了ChIP-Seq、ATAC-seq技术服务外,我们还提供表观遗传研究中常用的其它实验技术服务——包括RNA-Seq、DNA甲基化分析等,Active Motif超过20年的相关技术服务经验:

  我们提供  

图片

 

ChIP-Seq服务

CUT&Tag服务

ATAC-Seq服务

单细胞ATAC-Seq服务

Mod Spec® 服务

RIME

RNA-Seq服务

○单细胞RNA-Seq服务

ChIP抗体验证服务

ChIP-qPCR服务

DNA甲基化服务

Hi-C服务

 

只需要准备好样本,

剩下的交给我们!

 

参考网址:

bcl2fastq和bcl2fastq2:

https://support.illumina.com/sequencing/sequencing_software/bcl2fastq-conversion-software.html

Fastqc:

https://www.bioinformatics.babraham.ac.uk/projects/fastqc/

fastq screen: 

https://www.bioinformatics.babraham.ac.uk/projects/fastq_screen/

UCSC Genome Browser: 

http://genome.ucsc.edu

 

参考文献:

[1] Heng, Li, Richard, et al. Fast and accurate short read alignment with Burrows-Wheeler transform [J]. Bioinformatics, 2009.

[2] Yong, Zhang, Tao, et al. Model-based Analysis of ChIP-Seq (MACS) [J]. Genome Biology, 2008.

[3] Zang C, Schones D E, Zeng C, et al. A clustering approach for identification of enriched domains from histone modification ChIP-Seq data[J]. Bioinformatics, 2009(15):1952-1958.

[4] Robinson J T. Integrative genomics viewer[J]. Nature Biotechnology, 2011, 29(1):24-26.

[5] Love M I, Huber W, Anders S. Moderated estimation of fold change and dispersion for RNA-seq data with DESeq2 [J]. Genome Biology, 2014, 15(12):550.

上一篇

ChIP 与 CUT&Tag 的爱恨情仇

下一篇

单细胞多组学应用:绘制大脑皮层发育图谱

更多资讯

我的询价