王哲MGG_AI - 博客园

2023年5月4日

摘要：报错信息为： (base) [wz@localhost temp]$ python ./summarizeAbundance.py -i gene.count -m output -c '9,16,21' -s ',+,+*' -n raw -o eggnog/10t/wz/temp/./summa 阅读全文

posted @ 2023-05-04 16:50 王哲MGG_AI 阅读(422) 评论(0) 推荐(0) 编辑

sed -i 's/^ko://' eggnog.KO.raw.txt

摘要：这个命令是在linux系统中运行的sed命令，用于编辑文件 eggnog.ko.raw.txt，其中的-i选项表示直接修改原文件。该命令匹配每一行的开始位置（^）后面跟着"ko:"字符串的内容，并将其替换为空字符串，即删除该字符串。在宏基因组分析过程中，可能需要对原始数据文件进行预处理和清洗，比如阅读全文

posted @ 2023-05-04 16:41 王哲MGG_AI 阅读(57) 评论(0) 推荐(0) 编辑

2023年5月3日

机器学习预测给定生物DNA序列是编码序列还是非编码序列

摘要：在生物学中，DNA序列通常指非编码序列，因为DNA是生物体内存储基因信息的一种生物大分子，具有一定的生物学特性和结构。然而，基于DNA序列的机器学习预测可以包括编码和非编码序列的任务。以下是一些基于DNA序列的机器学习应用：应用于非编码DNA序列的机器学习模型：基因预测：使用机器学习算法预测非编阅读全文

posted @ 2023-05-03 19:52 王哲MGG_AI 阅读(81) 评论(0) 推荐(0) 编辑

2023年4月22日

深度神经网如何通过从数据中学习特征来帮助避免人工提取特征

摘要：深度神经网络（dnn）通过从数据中直接学习特征，无需人为干预或专业知识，可以帮助避免需要手动提取特征的繁琐过程。深度神经网络由许多层组成，每个层都包含许多神经元。这些神经元组合成了一系列权重和偏差来映射输入特征到输出目标。通过反向传播算法，模型可以更新权重和偏差以优化其预测效果。在训练dnn时，阅读全文

posted @ 2023-04-22 17:40 王哲MGG_AI 阅读(96) 评论(0) 推荐(0) 编辑

2023年4月21日

01Megahit基因组装

摘要： 1、背景每一个物种的参考基因组序列（reference genome）的产生都要先通过测序的方法，获得基因组的测序读段（reads），然后再进行从头拼接或组装（英文名称为do novo genome assembly），最后还原测序物种的各条染色体的序列，即ATGC四种碱基的排列顺序。之所以要进阅读全文

posted @ 2023-04-21 10:19 王哲MGG_AI 阅读(1374) 评论(0) 推荐(0) 编辑

2023年4月19日

DNA序列数据处理

摘要： dna序列数据处理通常包括以下步骤：数据预处理：首先，需要对原始dna序列数据进行预处理。其中包括测序错误的纠正、碱基质量过滤和去除低质量序列等。这个阶段是非常重要的，因为数据预处理的质量直接影响后续的特征提取和模型学习。特征提取：在dna序列分析中，会涉及到许多不同的特征提取方法。例如，可以从阅读全文

posted @ 2023-04-19 21:10 王哲MGG_AI 阅读(131) 评论(0) 推荐(0) 编辑

Kraken序列分类算法

摘要：当然可以！kraken是一种流行的高效序列分类器，使用 k-mer （k个连续碱基组成的子串）方法对不同分类下的序列进行分类。以下是kraken序列分类算法简要说明：数据预处理首先，kraken会将参考数据库中的序列分割为固定长度的 k-mers，这些k-mer会被记录到一个查询表中。样品序列阅读全文

posted @ 2023-04-19 20:17 王哲MGG_AI 阅读(143) 评论(0) 推荐(0) 编辑

LCA投票

摘要： lca投票是一种用于树状结构中找到最近公共祖先（lca）的算法。在一些应用场景下，需要对n个节点进行m次询问，每次询问给出两个节点x和y，并询问它们的最近公共祖先。lca投票的时间复杂度为o(n+m)，效率较高，因此广泛应用于各种算法竞赛等场合。 lca投票的过程如下：从任意一个节点开始，通过dfs 阅读全文

posted @ 2023-04-19 17:06 王哲MGG_AI 阅读(25) 评论(0) 推荐(0) 编辑

2023年4月18日

如何将DNA序列输入到神经网络中

摘要： dna序列是由四个不同的核苷酸（腺嘌呤，胞嘧啶，鸟嘌呤和鳙嘌呤）组成的字符串，在神经网络中输入dna序列通常需要进行编码转换。以下是一些将dna序列输入到神经网络的方法： one-hot编码: one-hot编码是将dna序列中每个核苷酸表示成一个固定长度为4的二进制序列。例如： a: [1, 0, 阅读全文

posted @ 2023-04-18 21:15 王哲MGG_AI 阅读(717) 评论(0) 推荐(0) 编辑

k-mer

摘要： k-mer是一种用于描述序列数据的概念。在生物信息学中，k-mer通常指的是长度为k的连续子序列。例如，在dna序列中，4-mer（k=4）是四个连续的碱基；在蛋白质序列中，3-mer（k=3）是三个相邻的氨基酸。 k-mer在基因组学、转录组学和蛋白质组学等领域中广泛使用。它们可以用于许多任务，例阅读全文

posted @ 2023-04-18 19:51 王哲MGG_AI 阅读(140) 评论(0) 推荐(0) 编辑

王哲_UJN_MGG_AI

我坚信人们对于我们的脊骨，那无数次地探索、迷途、失败和成功，一定会给予热情、客观、公正的评定。是的，我焦急地等待他们的评定！

公告

王哲_UJN_MGG_AI

我坚信人们对于我们的脊骨，那无数次地探索、迷途、失败和成功，一定会给予热情、客观、公正的评定。 是的，我焦急地等待他们的评定！

公告

我坚信人们对于我们的脊骨，那无数次地探索、迷途、失败和成功，一定会给予热情、客观、公正的评定。是的，我焦急地等待他们的评定！