09 2023 档案
摘要:1. 背景 在前面小节我们使用了这些软件,因为混合使用比较让人混乱,这里总结理清楚一下. 2. seqtk 功能总览如下图所示. 2.1 seq 这个功能主要是对\(.fasta\)和\(.fastq\)格式的文件进行格式化. \(-l\) 主要是让序列每行显示多少个碱基 #每行显示60个氨基酸 s
阅读全文
摘要:1. 背景引入 本小节开始讲述转录组测序的准备工作.因为做的是有参的基因组分析,所以首先是准备参考基因组、测序数据.当数据准备完成后,接下来是比对参考基因组,表达定量,合并成表达矩阵,差异表达分析. 上面是转录组分析的大致步骤,这节我们介绍的是参考基因组. 2. 准备参考基因组 2.1 下载参考基因
阅读全文
摘要:1. 测序的应用 1.1 基因组组装 当我们进行二代测序时,常常就是将待测序列打碎,然后拼接,我们回顾一些基础知识: reads:就是我们测序产生的短读序列,通常一代和三代的reads读长在几千到几万bp之间,二代的相对较短,平均是几十到几百bp。 contig:中文叫做重叠群,就是不同reads之
阅读全文
摘要:1. 问题 1.1 多序列比对 一开始很难理解为什么3条序列的时间复杂度就是\(O(L^3)\)(\(L\)为序列长度).这里看下面这张图就明白必须要3条链一起对比,而不是两两对比就知道全部信息.主要是要找到全部序列的相似特点. 多序列比对有时用来区分一组序列之间的差异,但其主要用于描述一组序列之间
阅读全文
摘要:2023.09.24 1. 任务背景 芝麻是一种油料作物.产油比其他作物高很多,这里以基因的背景来研究芝麻产油的原因.这里我们专门研究FAD4基因,它在油脂合成中也起到重要作用.我们对比不同作物的FAD4基因的拷贝数,研究它对产油的影响. 下图是我们要得出的结论,我们发现FAD4在拟南芥中有3个拷贝
阅读全文
摘要:1. 问题引入 为了解决这些问题,容器技术出现了.容器技术与虚拟机有相似之处,具体的区别见下图.为了说明我直接复制了知乎的高赞回答: 服务器好比运输码头:拥有场地和各种设备(服务器硬件资源),服务器虚拟化好比作码头上的仓库:拥有独立的空间堆放各种货物或集装箱(仓库之间完全独立,独立的应用系统和操作系
阅读全文
摘要:1. 类别以及安装 Conda分为mini-conda和anaconda两种,第一个可以理解为纯净版,第二个附带了很多科学计算的包. 我们可以选择其中一个版本安装,使用wget + 网址即可.随后使用下文指令启动. bash Anaconda3-2023.03-1-Linux-x86_64.sh 搜
阅读全文
摘要:1. Linux 版本 当今Linux有许多流行的版本.Centos可以看作Redhat的社区版 2. Linux 服务器 服务器对于不同用途也会有不同的配置.比如下面的塔式服务器就比较适合小公司. 比较生草的是,这次的课程使用的是提供的远程服务器,所以我们不用安装虚拟机了(.) 3. 总览 3.1
阅读全文
摘要:本人的生物只有高中且4年没碰的水平,如果涉及生物的笔记没写对请见谅. 1. 总览 2. MGI 测序原理 MGI属于华大智造的专利技术,同样是用于测序.在解决下面三个问题上使用了不同的方法. (1) 如何区分不同碱基:这里可以看作一致,是相似的技术. (2) 荧光微弱:滚环扩增,形成DNA纳米球.要
阅读全文
摘要:本人的生物只有高中且4年没碰的水平,如果涉及生物的笔记没写对请见谅. 1. 一个典型的生物信息分析 我们在做生物信息分析时,常常是有一个目的,比如分析为什么某朵花是红色的.假设我们在做转录组数据分析,流程一般如下图所示: 得到数据后,我们会进行标准分析,得到一些信息比如基因表达信息、突变信息等,这个
阅读全文
摘要:1. 实验 1.1 背景介绍 根据输入音频判断是哪个讲话者. 1.2 数据集 数据集采用的是\(VoxCeleb2\).可以看这个Click了解数据集. 1.2.1 Data formats 目录下有三个json文件和很多pt文件,三个json文件作用标注在下图中,pt文件就是语音内容.其中,n_m
阅读全文