生信问题

1. 问题

1.1 多序列比对

  一开始很难理解为什么3条序列的时间复杂度就是\(O(L^3)\)(\(L\)为序列长度).这里看下面这张图就明白必须要3条链一起对比,而不是两两对比就知道全部信息.主要是要找到全部序列的相似特点.

多序列比对有时用来区分一组序列之间的差异,但其主要用于描述一组序列之间的相似性关系,以便对一个基因家族的特征有一个简明扼要的了解。与双序列比对一样,多序列比对的方法建立在某个数学或生物学模型之上.

  具体可以看这个博客Click.
image
image

1.2 为什么可以任意插入gaps

  目前是我的猜测,因为基因序列在演化过程中会出现突变、插入和丢失的现象.假设有这种现象存在,因此在序列比对时,考虑插入gaps以获得更多的分数.但是也不能任意插入gaps,因此引入空位罚分的机制.参考下这篇ppt.

1.3 磁珠吸附mRNA的原理是什么

  似乎RNA变成成熟RNA的时候,尾部会有增添一段\(Poly\ A\).

1.4 makeblastdb和构建参考基因组的Index是同一个吗?

1.5 下面代码的-p如果是正则为什么不起作用

试图将-p '(.+)$'换成-p '>(.+)$'

seqkit replace -K -p '(.+)$' -r '{kv}' -k longest_map_modified.txt longest_transcript.proteins.fa > proteins.fa

\(update\):我现在感觉是匹配是从\(>\)后开始的,不然很难解释. \(2023.0929\).

posted @ 2023-09-26 19:14  acmloser  阅读(18)  评论(0编辑  收藏  举报