生信问题
1. 问题
1.1 多序列比对
一开始很难理解为什么3条序列的时间复杂度就是\(O(L^3)\)(\(L\)为序列长度).这里看下面这张图就明白必须要3条链一起对比,而不是两两对比就知道全部信息.主要是要找到全部序列的相似特点.
多序列比对有时用来区分一组序列之间的差异,但其主要用于描述一组序列之间的相似性关系,以便对一个基因家族的特征有一个简明扼要的了解。与双序列比对一样,多序列比对的方法建立在某个数学或生物学模型之上.
具体可以看这个博客Click.
1.2 为什么可以任意插入gaps
目前是我的猜测,因为基因序列在演化过程中会出现突变、插入和丢失的现象.假设有这种现象存在,因此在序列比对时,考虑插入gaps以获得更多的分数.但是也不能任意插入gaps,因此引入空位罚分的机制.参考下这篇ppt.
1.3 磁珠吸附mRNA的原理是什么
似乎RNA变成成熟RNA的时候,尾部会有增添一段\(Poly\ A\).
1.4 makeblastdb和构建参考基因组的Index是同一个吗?
1.5 下面代码的-p如果是正则为什么不起作用
试图将-p '(.+)$'
换成-p '>(.+)$'
seqkit replace -K -p '(.+)$' -r '{kv}' -k longest_map_modified.txt longest_transcript.proteins.fa > proteins.fa
\(update\):我现在感觉是匹配是从\(>\)后开始的,不然很难解释. \(2023.0929\).