重测序数据碱基质量评估
001、测序数据为fastq格式
fastq格式数据没四行为一个单位,其中第二行是碱基,第四行为对应的碱基质量值:
如下:
(base) [b20223040323@admin1 test01]$ ls ## 测试fastq格式数据 test.fastq (base) [b20223040323@admin1 test01]$ head -n 4 test.fastq | cat -n ## 第二行碱基; 第四行碱基质量值 1 @SRR12342886.1 1/1 2 TCTTCAAAAATTTCTCACAGCTTGTTGTGATCCACACAGTCAAAGGCTTTAAGTGTAGTCAGTGAAGCAGAAGTGGATATTTTTCTGGAATTCCCTTGCTTTCTCTGTGATCCAAGGGATTTGATCTCTGGTTCCTCTGCTTTTTCTAAAC 3 + 4 FFFFFFFFFF:FFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFF:FFFFFFFF:FFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFF:FFFFFFFFFFFFFF:F
碱基质量值不是数值的形式,而是ASCII码, 其对应的转换表格如下:
控制字符 ASCII值 控制字符 ASCII值 控制字符 ASCII值 控制字符 0 NUT 32 (space) 64 @ 96 、 1 SOH 33 ! 65 A 97 a 2 STX 34 " 66 B 98 b 3 ETX 35 # 67 C 99 c 4 EOT 36 $ 68 D 100 d 5 ENQ 37 % 69 E 101 e 6 ACK 38 & 70 F 102 f 7 BEL 39 , 71 G 103 g 8 BS 40 ( 72 H 104 h 9 HT 41 ) 73 I 105 i 10 LF 42 * 74 J 106 j 11 VT 43 + 75 K 107 k 12 FF 44 , 76 L 108 l 13 CR 45 - 77 M 109 m 14 SO 46 . 78 N 110 n 15 SI 47 / 79 O 111 o 16 DLE 48 0 80 P 112 p 17 DCI 49 1 81 Q 113 q 18 DC2 50 2 82 R 114 r 19 DC3 51 3 83 S 115 s 20 DC4 52 4 84 T 116 t 21 NAK 53 5 85 U 117 u 22 SYN 54 6 86 V 118 v 23 TB 55 7 87 W 119 w 24 CAN 56 8 88 X 120 x 25 EM 57 9 89 Y 121 y 26 SUB 58 : 90 Z 122 z 27 ESC 59 ; 91 [ 123 { 28 FS 60 < 92 \ 124 | 29 GS 61 = 93 ] 125 } 30 RS 62 > 94 ^ 126 ` 31 US 63 ? 95 _ 127 DEL
根据以上表格,可以将fastq格式数据中的碱基质量值ASCII码转换为数值的形式。
002、碱基的质量值表示的测序碱基的准确度,其计算公式:
Q = - 10 * logP
其中Q表示的质量值,P表示的是碱基错误的概率。
上述公式可以转换为:
P = 1o^(-Q/10)
由此可见 Q值越大, 则P值越小,及碱基错误的概率越小。
003、常见的质量评估Q20、Q30
Q20表示的碱基质量值为20,即Q = 20时,碱基错误的概率,即 P = 10^(-20/10) = 0.01;
Q20 为 95%,即表示碱基的质量值达到20的比例为95%.
同理 Q30 表示碱基的质量值30,即Q = 30时,碱基错误的概率,即P = 10^(-30/10)= 0.001;
Q30为90%,即表示碱基的质量值达到30的比例为90%。
参考:https://mp.weixin.qq.com/s?__biz=Mzg4NzA4MzUxOA==&mid=2247486721&idx=1&sn=c268b78f600d9acbe25831a62a47df12&chksm=cf8e9590f8f91c861157fe3dcbc8439826ba8134f7de67515de23409d746c6d34892695fcfee&cur_album_id=3101294931740213257&scene=189#wechat_redirect
分类:
生信
【推荐】国内首个AI IDE,深度理解中文开发场景,立即下载体验Trae
【推荐】编程新体验,更懂你的AI,立即体验豆包MarsCode编程助手
【推荐】抖音旗下AI助手豆包,你的智能百科全书,全免费不限次数
【推荐】轻量又高性能的 SSH 工具 IShell:AI 加持,快人一步
· 震惊!C++程序真的从main开始吗?99%的程序员都答错了
· 【硬核科普】Trae如何「偷看」你的代码?零基础破解AI编程运行原理
· 单元测试从入门到精通
· 上周热点回顾(3.3-3.9)
· winform 绘制太阳,地球,月球 运作规律
2022-09-29 linux中如何删除文本中指定单词前的所有内容
2022-09-29 linux 中如何输出包含指定字符串的单词