湖南雅湘DNA亲子鉴定咨询中心 网站地图     鉴定新闻
湖南雅湘DNA亲子鉴定咨询咨询中心首页湖南DNA亲子鉴定咨询中心服务项目亲子鉴定咨询DNA鉴定相关知识司法亲子鉴定咨询个人亲子鉴定咨询申请流程亲子鉴定咨询DNA鉴定的采样方式湖南雅湘DNA亲子鉴定咨询中心收费标准湖南雅湘DNA亲子鉴定咨询中心联络方式衡阳亲子鉴定咨询中心衡阳DNA鉴定机构
衡阳亲子鉴定中心衡阳DNA鉴定机构-湖南雅湘DNA亲子鉴定咨询中心
亲子鉴定常见问题
何为亲子鉴定
司法亲子鉴定所需流程
DNA亲子鉴定需要几个人做
什么是个人亲子鉴定
为什么要选择个人亲子鉴定
亲子鉴定与DNA鉴定的区别
DNA亲子鉴定原理
亲子鉴定的常见用途
严格按照AABB和ISO17025的要求鉴定

DNA亲子鉴定新闻

肿瘤全外显子组测序数据分析:Fastq2vcf

发表日期:2017-12-20 来源:湖南雅湘亲子鉴定中心
 最近有网友问我,其有一堆数据,是公司做的,可是不知如何分析,笔者好奇,也想看看,我以前没有分析过外显子的,不过大致的分析原理和流程是知道的,如果要我写代码的话,一个月应当都可以把全部流程做起来,不过笔者发现一个很好的工具包,几乎是不用写什么代码,简洁分析。


传统的分析流程是这样的:

1.序列QC: 
去除低质量reads,和连续的低质量片段,去掉接头序列。QC统计reads数量及测序质量。 

2.Mapping:
由于bwa能准确,快速的将短序列比对到基因组上,而且软件持续更新和说明文档完备,是外显子捕获测序的首选。 

3.Sam到bam转换: 
Samtools 的多种工具可以将sam文件转换为bam文件,rmdup工具能去除PCR扩增产生的冗余reads,消除由于文库扩增而导入的突变,降低假阳性。

 Flagstat统计reads的mapping情况以及比较去除duplicate前后reads数目的反映样品建库的冗余情况。 

Picard提供的多个工具,修改bam文件,是之适合于后续的GATK软件包中的工具的处理。 

4.Indel区域的reads重新做局部多序列比对: 
在indel的边缘,一些错配看起来很像是SNP,通过对dbSNP库及bam文件检测到的indel附近的reads进行局部的重新比对,可以消除indel周边的假阳性SNP。 

5.碱基质量重新打分: 
测序仪给reads中的碱基的qual值存在一定的偏差,通过经验的错误模型来重新计算的碱基的qual值,重新给reads的各个碱基的qual打分。 

6.Call snv和indel: 
对处理好的多样品bam文件同时运行UnifiedGenotyper,大大提高call SNP的灵敏度和准确性,多样品同时比较的结果,方便了后续的样品间差异的筛选。 

7.突变位点的重新打分: 
通过hapmap,omni,dbsnp数据库中已知的突变位点建模优化,对各个突变位点重新打分,筛选。大大降低了假阳性率。 

8.注释: 
通过ANNOVAR软件对vcf结果注释,关联到多个数据库。 

二、数据分析内容 
1. Mapping统计: 
统计总reads数,mapped reads及unique mapped reads数目及百分比。 

2. 捕获效率统计: 
统计来自捕获区域的Fragment比例: 


统计target区域所有的碱基覆盖次数分布:


对每个target区域的覆盖和深度统计: 
如果对某些基因特别感兴趣,想要看看来自这些基因的外显子区域的覆盖情况,可以提供每个target或者特定target区域的覆盖情况和测序深度统计。
 

3. Snv和indel关联数据库: 
Snv和indel结果按照突变的位点是否在捕获的区域之内分成两部分: 
*_target.snv:突变处于捕获的靶区域(target region)内。 

*_off_target.snv或者*_target.indel: 突变在捕获的靶区域之外。 
Snv和indel结果与以下的数据库关联,为突变的筛选提供大量的信息。
 

1)基因注释: 
通过基因注释可以达到以下的目的:突变的功能定位(在外显子,内含子,剪接位点还是基因间区);突变所在的基因名称或者临近的基因;突变如果在编码区域,是否引起氨基酸的改变(同义突变,非同义突变的呢过)。

如 果引起氨基酸的改变,按照HGVS命名规则表示--改变的基因ID,转录本ID,外显子编号,以及氨基酸改变,如 NOD2:NM_022162:exon8:c.G2722C:p.G908R。 

默认使用refSeq完成基因注释,如果有特殊的要求,可以使用UCSC known gene,Ensembl,GENCODE,CCDS等基因注释系统。




2) 1000G注释: 
检测突变位点是否在1000 Genomes Projects(2012 release)数据库中检测到,如果检测到,显示等位基因频率(allele frequency)。默认是使用所有人种的数据库,如果有特定要求,可以按照要求展示不同人种(比如AMR, AFR, ASN,EUR,中国人,日本人)等位基因频率。 

3) dbSNP注释: 
检测突变是否在dbSNP数据库中,如果在,显示rsID。 
默认使用db SNP135数据库,如果有特定的要求,可以使用dbSNP129,dbSNP130,dbSNP131,dbSNP132数据库。 

4) AVSIFT: 
SIFT是一款很受欢迎的检测非同义突变位点重要性的软件,对应非同义突变位点,会给定一个打分,若打分低于0.05,则表明突变很可能会影响到蛋白质的功能 

5) 与UCSC的数据库的关联: 
ftp://hgdownload.cse.ucsc.edu/goldenPath/hg19/database/.txt.gz,提供了大量的基因组注释信息,目前关联的数据库有: 

tfbsConsSites:在人/小鼠/大鼠中保守的转录因子结合位点,以transfac Matrix Database (v7.0)为基础。 
wgRna:snoRNA and miRNA注释。 

targetScanS:TargetScan预测的miRNA把区域。 
gwasCatalog:已经发表的各种疾病的GWAS结果。 
genomicSuperDups:基因组中的重复片段。 

phastConsElements46way:通过phastCons对脊椎动物的全基因组比对生成的保守区域,根据用于比对的物种数目,分为17way, 28way, 30way, 44way等。

6) cosmic63: 
已观察到的癌症相关突变,显示在COSMIC中的ID(identifiers),观察到的次数,以及观察到的癌组织。 

4. CNV: 
XHMM是一款外显子捕获拷贝数变异检测的优秀软件包,使用GATK和XHMM能够得到较好的外显子捕获的CNV结果。 

5. 其它: 
Polyphen-2 (Polymorphism Phenotyping v2)也是一款基于多序列比对和蛋白质3D结构,预测氨基酸替换(从一种氨基酸改变为另一种氨基酸)对蛋白质结构和功能影响的软件。 

 


可以通过GT(genotype)直接比较样品间的差异(GT简介:0表示与Ref相同,1表示与ALTS第1个碱基相同,2表示如ALTS第2个碱基相同)。

通过和多个数据库的提供关联精细筛选条件:


现在我们来看Fastq2vcf。可以流水化作业哦,省去以上多步骤的麻烦。

Fastq2vcf需要两个文件:一个描述排序数据的数据表和一个配置文件,用于生成一系列可以直接在Linux / Unix环境下运行的shell脚本。测序数据表包含有关样品标识符,平台,库,读取组,序列类型(配对结束或单端),目录和文件名的信息。用户可以使用电子表格程序或文本编辑器构建该表格,并将其保存为制表符分隔的平面文件。配置文件存储数据分析工具和程序参数的路径。配置fastq2vcf后,运行它将生成三类shell脚本文件,这些文件可以自动执行分析管道中的所有步骤。一个典型的流水线如图1所示 ,显示了fastq2vcf的输出,三种shell脚本文件,以及这些shell脚本的功能。首先,QC_mapping.sh包含用于调用质量控制和对齐程序的命令行,并格式化数据以供进一步处理。第二个,PreCalling.sh,包含删除重复数据和重新排列以减少误报的命令行。第三个脚本文件Variant.sh包含用于变体调用,过滤和注释的命令行。


看下,利用此包是不是流水化把以前的分析流程整合了,以后笔者有时间会抽空做个教程,让大家实操,让每个从事肿瘤研究的,医学生等都会进行外显子分析,有兴趣的可以加我微信报名 ,价格398元,大家可以先预报名入群,开课时间大约年后,到手把手教的视频发给您,随时解答大家的问题。



这里是医知圈的微信公号,欢迎您长按下列二维码并“识别二维码”关注。


相关新闻:
返回  收藏此页 打印本页  关闭
DNA亲子鉴定 人民币1250元/人 ——鉴定过程绝对保密 专家热线:0734-2576075 15367984271
鉴定新闻   友情链接   网站地图   关于我们   企业文化   中心寄语   衡阳亲子鉴定   深圳亲子鉴定   福建亲子鉴定   江西亲子鉴定   湖南亲子鉴定   移民亲子鉴定

联系地址:湖南省长沙市岳麓区桐梓坡路172号湘腾城市广场2605室       版权所有©2005-2009 湖南雅湘DNA亲子鉴定咨询中心