9 年
手机商铺
入驻年限:9 年
Active Motif
上海 闵行区
试剂、实验室仪器 / 设备、技术服务、抗体
生产厂商 经销商
公司新闻/正文
5193 人阅读发布时间:2022-05-27 11:12
大多数科研工作者都熟悉ChIP-Seq和ATAC-Seq的实验流程,甚至熟悉文库的准备和分析,但关于测序和分析数据之间的步骤,可能只有熟悉生物信息分析的科研工作者才清楚知晓。
我们大多数人都知道,原始数据通常是一种称为FASTQ的文件格式。
但我们如何在基因组浏览器上从FASTQ文件获取峰值呢?
我们Active Motif拥有多年的生信分析经验,下文由我们简单介绍一下这其中的有关内容吧!这些相关步骤也包含在我们的一站式表观遗传学服务内容中。
首先,Illumina测序器的Flow cell加载了多路复用文库,我们的ChIP-Seq实验的湿实验室部分已经完成。
测序仪创建一个BCL(二进制基本调用)文件,其中包含来自flow cell上所有多路复用文库的数据。
此时,每个文库都会被测序得到,但此时文库对应的reads被混合在一起的。
我们可以利用每个文库上的Barcode条形码,以便仅将属于每个样本的reads分离到各个库中。
使用Illumina软件bcl2fastq,可以执行解复用,为每个库生成名为FASTQ文件的单独数据文件。
第一步是完成Illumina样本表,这是一个CSV(逗号分隔)文件,您可以在Excel中编辑该文件,软件会识别该文件中的以下信息:
1)哪个库具有哪个条形码序列;
2)运行单端或双端;
3)运行了多少个周期(也称为reads长度)。
如果客户选择自己进行分析,我们也可以将FASTQ文件作为结果交付给客户。而对于选用了我们一站式服务的客户,我们还会为其做后续的分析。
下一步是对测序结果的FASTQ文件进行质量评估。
使用名为fastqc的软件,我们可以评估碱基质量分布、adaptor污染、k-mer含量和duplication等指标。
此外,我们还使用Babraham Bioinformatics fastq_screen软件对这些库进行了多物种比较,以确认除样本来源物种外,没有其它物种的读数污染样本数据。
这些步骤是整个工作流程中的关键部分,可确保最终数据具有高质量并适合下游分析。
在QC之后,我们接下来将FASTQ文件中的原始数据与带注释的基因组进行比对并注释。
我们已经得到了可用的reads,但还不知道它们在基因组上对应的区域。
人类、小鼠、大鼠、斑马鱼、果蝇、酵母和蠕虫等的基因组都有足够的注释来比对FASTQ文件。
我们使用名为BWA(Burrows-Wheeler-Aligner)的软件将测序结果映射到带注释的基因组(Li和Durbin,2009)。
此过程从原始的FASTQ文件生成BAM文件。
BAM文件包含这些序列,同时还包含它们在基因组上对应的特定位置的坐标信息。
接下来,我们需要定义峰值(Peaks),为此,我们使用了MACS/MACS2(Zhang et al.,2008)或SICER(Zang et al.,2009)的软件套件。
这些程序使用BWA创建的BAM文件来确定整个基因组中每个样本中的reads是否富集以及在何处富集。
这些信号富集区域被称为“峰值(Peaks)”,并作为后续许多分析的功能单元。
需要注意的是,我们对数据进行了标准化处理,以便峰值“调用(Calling)”和后续观测不会受到技术变化的影响,而是更加依赖和反映了正在发挥作用的基础生物学。
这个过程会生成一个BED文件,其中包含染色体、bp起始位置、结束位置以及一系列与调用的每个峰值相关的元数据(meta data)。
此外,我们还生成了一个bigWig(.bw格式)文件,该文件包含相同的峰值信息,其大小为100-200 MB,比原始的FASTQ文件(可能在1-2 GB之间)更方便传输。
在生成这些bigWig 文件后,我们就可以将数据上传到基因组浏览器(如UCSC基因组浏览器)或基因组浏览器程序(如IGV)(Integrative Genomics Viewer;Robinson et al.,2001)。
研究人员只需要简单地把bigWig 文件拖放到IGV中,即可直观地查看感兴趣的区域的相关数据。
或者,他们也可以将托管在FTP服务器上的bigWig文件链接到UCSC基因组浏览器。
研究人员可以使用基因组浏览器搜索基因/位点,比较轨迹,并截图以供使用。
峰值调用(peak calling)完成后,现在是执行下游分析的时候了。
因为我们分析的是有参基因,所以我们可以在上面分析很多的特征,例如离这些peak最近的基因或该基因的启动子区域。
通常,我们的客户对差异分析感兴趣,即将一组样本与另一组样本进行比较,以确定信号显著不同的区域。
使用R软件包DESeq2,我们可以获得特定峰值样本之间的定量差异(Love等人,2014)。
由于这些峰值区域已被标注到附近的基因组特征中,因此研究人员可对这些差异区域进行深入探讨,是何因素导致了这样的差异,从而又实现了怎样的功能。
Active Motif完成全套生物信息学分析服务后,会交付给客户所有分析样本的FASTQ(原始的raw data)、BAM(对齐后的reads)和bigWig(峰值数据)文件。
除此之外,我们还提供一套包含图表、注释文件和基因组浏览器截屏等信息的分析报告,当用户认真解读所有这些数据结果,便可针对自己研究的表观遗传学问题得到进一步的结论或见解。
除了ChIP-Seq、ATAC-seq技术服务外,我们还提供表观遗传研究中常用的其它实验技术服务——包括RNA-Seq、DNA甲基化分析等,Active Motif有超过20年的相关技术服务经验:
我们提供
○ChIP-Seq服务
○CUT&Tag服务
○ATAC-Seq服务
○单细胞ATAC-Seq服务
○Mod Spec® 服务
○RIME
○RNA-Seq服务
○单细胞RNA-Seq服务
○ChIP抗体验证服务
○ChIP-qPCR服务
○DNA甲基化服务
○Hi-C服务
只需要准备好样本,
剩下的交给我们!
参考网址:
bcl2fastq和bcl2fastq2:
https://support.illumina.com/sequencing/sequencing_software/bcl2fastq-conversion-software.html
Fastqc:
https://www.bioinformatics.babraham.ac.uk/projects/fastqc/
fastq screen:
https://www.bioinformatics.babraham.ac.uk/projects/fastq_screen/
UCSC Genome Browser:
http://genome.ucsc.edu
参考文献:
[1] Heng, Li, Richard, et al. Fast and accurate short read alignment with Burrows-Wheeler transform [J]. Bioinformatics, 2009.
[2] Yong, Zhang, Tao, et al. Model-based Analysis of ChIP-Seq (MACS) [J]. Genome Biology, 2008.
[3] Zang C, Schones D E, Zeng C, et al. A clustering approach for identification of enriched domains from histone modification ChIP-Seq data[J]. Bioinformatics, 2009(15):1952-1958.
[4] Robinson J T. Integrative genomics viewer[J]. Nature Biotechnology, 2011, 29(1):24-26.
[5] Love M I, Huber W, Anders S. Moderated estimation of fold change and dispersion for RNA-seq data with DESeq2 [J]. Genome Biology, 2014, 15(12):550.