CNA-seq


检测cnv的范围:1KB~几M,中值100KB

杂合性缺失,位于一对同源染色体上的相同基因座位的两个等位基因中的一个(或其中部分核苷酸片段)发生缺失,与之配对的染色体上仍然存在

1:在有的文献中指出cfDNA长度一般在167bp,ctDNA一般在145bp.在脑脊液中发现(ctDNA)取代在血浆中。本文对13个病人进行了平均深度(0.4X)的测序,测序每个样本数据量标准化到10Mreads。在13人中有5人发现了 somatic copy number alterations (SCNAs)基因组按照30K的大小分成没有overlap的bin区域,根据GC含量矫正比对reads数量,拷贝数变异分析使用R软件包CNAclinic(https://github.com/sdchandra/CNAclinic ),reads counts标准化是使用中值,以及log化
影响因子:10.293

2:测序数据量为10M reads,在后续分析的时候也都标准化到这个范围。bin size选择是100K 数据R分析包是QDNAseq 病人中要比正常人包含更多cfDNA,因此对cfDNA也很重要。这篇文章尝试了多个binsize15 kb, 50 kb and 100 kb,最终选择了100KB
影响因子:10.199

3:选择bin窗口为10kb,在选取log的对照时候,选取的是千人基因组中血液样本,样本编号NA18535
影响因子:2.766

4:使用数据0.01X(小于10万条reads),使用的测序平台是Torrent Suite version 5.0.2,copy数目变异分析使用的R软件分析包QDNASeq,对于CNV的定义设置为1.5–20 Mb的长度 log2(CopyNumberRatio) ≥ 0.2。在分析之前抽取数据使用seqtk
影响因子:0

5:利用NIPT技术可以发现约在~7MB大小的CNV,且在敏感性和特异性上都可以达到95%以上,pathogenic cancer的CNV的范围从1M,5M甚至到100MB。这篇文章选取的bin的大小为10KB。计算每个bin里的reads数目使用的是HTSeQ_Count,采用的数据是模拟的
影响因子: 2.766

6:本篇文章使用不同的测序文库(short\3KB\5KB)对标准品na12878进行不同深度的测序(1X、3X、5X),从结果上来看如果是针对正常样本或者肿瘤组织样本可以建议测序的时候选取大文库,结果显示低深度的各个文库都检测出了黄金标准的CNV
影响因子:5.751

7:这是一篇综述性的文献,只是讲讲call CNV的方法,简单的汇总下对我有用的要点是,对于得到的CNV结果可以设置过滤1kb以下的结果,去除简单重复区域(如果与地重复区域含有70%的重复)这里call CNV只是针对单样本很多软件程序没有比较是源于有特殊分析需求比如样本需求
影响因子:8.855

8:本篇文章收集1002 cfDNA样本,有3%的人发现了chromosomal imbalances。全基因组单端测序,每个样本平均测序深度9.6M reads
影响因子: 13.926

9:选取了344个样本其中200个病人样本包含多种类型癌症,进行全基因组测序,测序深度在(0.4x)也就是在最后分析时数据都标准到10M reads,其中病人比正常人在插入片段长度在90-150bp内存在有统计意义的差异,且在后续CNV发现过程中更具有敏感性和特异性。因此在分析变异时可以进行片段筛选。通过片段筛选然后结合CNA计算出t-MAD。其他的特征提取是提取了P(20 to 150), P(100 to 150), P(160 to 180), P(180 to 220),and P(250 to 320); three features based on ratios of those proportions: P(20 to 150)/P(160 to 180), P(100 to 150)/P(163 to 169), and P(20 to 150)/P(180 to 220); and a further feature based on the amp- litude of the oscillations having 10-bp periodicity observed below 150 bp.这些特征,最终在选择预测算法中选择了随机森林和线性回归模型,特征选取上The best feature set for the LR model included t-MAD, 10-bp amplitude, P(160 to 180), P(180 to 220), and P(250 to 320)对于线性回归模型最好,随机森林的计算结果要好于线性回归的结果。
影响因子: 16.71

10:在测序比对过程中,基因组上的低复杂区域( DAC Blacklisted Regions )去掉,这些bed区域下载链接:
wgEncodeDukeMapabilityRegionsExcludable.bed.gz
wgEncodeDacMapabilityConsensusExcludable.bed.gz
这个是由 ENCODE project 承担发起的。

11:The wiggle (WIG) format is an older format for display of dense, continuous data such as GC percent, probability scores, and transcriptome data.Wiggle data elements must be equally sized.

12:关于bin(或者window)大小的选择建议参考下面的文章

13:测序深度要求至少10M reads,依据测序读长覆盖在<0.4X

14:在分析copy数过程中有一步称为segmente,其实就是 log2(copy-number/2)处理,针对于二倍体来说如果是没有改变则该值为0,扩增则大于0,缺失则小于0。之前都是芯片分析的数据,芯片数据数据分析使用的是GISTIC2,只考虑基因部分在文献

其定义的阈值为:

Genes with focal CNV values smaller than -0.3 are categorized as a “loss” (-1)
Genes with focal CNV values larger than 0.3 are categorized as a “gain” (+1)
Genes with focal CNV values between and including -0.3 and 0.3 are categorized as “neutral” (0).
参考链接:https://docs.gdc.cancer.gov/Data/Bioinformatics_Pipelines/CNV_Pipeline/
15:ichorCNA软件可以推断Tumor fraction (TFx) ,针对全基因组低深度cfDNA(0.1X),该软件可以评估的敏感度在(3%),针对外显子平均测序深度在~150x下,评估敏感度在(10%),该分析软件不需要对照,当然你也可以使用内部的对照,也可以自己建立。

低深度全基因组测序技术在产前诊断中的应用专家共识
1: 目前用于全基因组范围CNVs检测的技术为染色体微阵列分析(chromosomal microarray analyisis,CMA)成本较高。CMA技术对于<30%的嵌合体无法进行准确分析。

2: CNV-seq可精确检测低至10~50ng的DNA样本,研究还发现在核型分析判定的平衡易位样本中,有7.9%的样本在断裂连接处存在CNVs

3: CNV-seq无法检测三倍体以及多倍体,当CNV-seq检测提示性染色体拷贝数异常时,建议进一步进行荧光原位杂交(FISH)检测

4: 对于由47,XXX与45,X两种性染色体非整倍 体构成的嵌合体,若其细胞比例各占50%,则CNV— seq会将其判断为X染色体拷贝数无异常。

5: CNV—seq无法对包括单亲二倍体(uniparental disomy,UPD)在内的杂合性缺失(loss heterozygosity,LOH)进行检测

6: 对夫妻双方的外周血样本和胎儿样本同时进行 CNV—seq检测,将有利于及时确定CNVs的来源并判 断胎儿CNVs的致病性。

7: 常染色体非整倍体 建议终止妊娠。对于13、14、15、21、22号染色体的非整倍体,建议对父母行外周血染色体核型分析,排除存在罗氏易位的可能性。

生物信息分析文献结论汇总
1: 使用CNVkit检测CNV,但是需要构建基线文件采用了10男10女,而且这些正常样本必须是经过CMA验证正常的样本

关于拷贝数阈值的设置理论上:
duplication (three copies) log2 [1.5] =0.58
a deletion (one copy) is log2 [0.5] =1.0
Liang D, Peng Y, Lv W, et al. Copy number variation sequencing for comprehensive diagnosis of chromosome disease syndromes[J]. The Journal of Molecular Diagnostics, 2014, 16(5): 519-526.

在相关文献中:这个值设为1.2和0.8比如贝瑞发表的文章和dragen:

在华大的文献中:这个值设定为1.15和0.85

为了增加敏感性,华大的另一篇文献里提到设置为:1.1和0.9
Zhou X, Chen X, Jiang Y, et al. A Rapid PCR-Free Next-Generation Sequencing Method for the Detection of Copy Number Variations in Prenatal Samples[J]. Life, 2021, 11(2): 98.
Dong Z, Xie W, Chen H, et al. Copy‐number variants detection by low‐pass whole‐genome sequencing[J]. Current protocols in human genetics, 2017, 94(1): 8.17. 1-8.17. 16.
Wang H, Dong Z, Zhang R, et al. Low-pass genome sequencing versus chromosomal microarray analysis: implementation in prenatal diagnosis[J]. Genetics in Medicine, 2020, 22(3): 500-510

检测算法:

划动bin大小一般设置50kb
步长:5kb
解析度:100K
测序深度与读长

测序数据量,最少15M reads
对于读长单端50bp
理论模拟上,对于unique reads至少达到6M
Kucharík M, Budiš J, Hýblová M, et al. Copy Number Variant Detection with Low-Coverage Whole-Genome Sequencing Represents a Viable Alternative to the Conventional Array-CGH[J]. Diagnostics, 2021, 11(4): 708.
Chau M H K, Wang H, Lai Y, et al. Low-pass genome sequencing: a validated method in clinical cytogenetics[J]. Human Genetics, 2020, 139: 1403-1415.

华大share的分析代码
http://sourceforge.net/projects/increment-ratio-of-coverage/files/

Dong Z, Zhang J, Hu P, et al. Low-pass whole-genome sequencing in clinical cytogenetics: a validated approach[J]. Genetics in Medicine, 2016, 18(9): 940-948.
Dong Z, Xie W, Chen H, et al. Copy‐number variants detection by low‐pass whole‐genome sequencing[J]. Current protocols in human genetics, 2017, 94(1): 8.17. 1-8.17. 16.

 

posted @ 2023-05-19 23:08  xiaojikuaipao  阅读(316)  评论(0编辑  收藏  举报