随笔分类 - 基因组学
摘要:备注:本文主要来源于知乎《全新的泛基因组解决方案》。关于大豆泛基因组文章解读,请看往期记录《大豆(Soybean, Glycine max)泛基因组2020Cell》。 一、研究内容 泛基因组产品采用从头组装的策略进行泛基因组构建,分析内容包括比较基因组分析、核心基因和非必需基因分析、结构变异(SV
阅读全文
摘要:问题 原问题来自:How to calculate overlapping genes between two genome annotation versions? 其实可分为两个问题: 一是我组装了一个新的基因组,做了多个注释版本,如何比较它们的feature?比如gene 二是我组装了一个新的
阅读全文
摘要:基因组长度 利用seqkit统计长度 seqkit stat test.fa 结果如下: file format type num_seqs sum_len min_len avg_len max_len test.fa FASTA DNA 149 396,098,845 10,246 2,658,
阅读全文
摘要:记录下braker2的使用要点,以备忘记。 流程使用 braker2有很多流程,根据你的数据:组装的基因组、转录组、蛋白(同源,包括近缘或远缘)选择不同流程,官网有说明: https://github.com/Gaius-Augustus/BRAKER 现在的动植物组装,大多数都含有以上三类数据吧,
阅读全文
摘要:在GWAS分析的结果中,偶尔会遇到到pvalue为0的SNP位点,这时如果直接做曼哈顿或QQ图,会出错,因为log0无意义。 此时,该如何处理? 如果你用的是Plink1.9来做的GWAS,可加一个参数: --output-min-p 1e-99,即将小于1e-99的pvalue都当成1e-99,0
阅读全文
摘要:基因结构预测中同源注释策略,将mRNA、cDNA、蛋白、EST等序列比对到组装的基因组中,在文章中通常使用以下比对软件: tblastn gamp exonerate blat 根据我的实测,以上软件整体都比较慢。gmap可设置多线程来提升速度。tblastn虽然也可以,但对提速没什么影响。exon
阅读全文
摘要:homology策略预测基因结构,下载了公共mRNA/CDS序列,考虑用gmap比对。本来是个很简单的脚本,但总是不那么顺利。 无论是用conda安装,还是源码安装较新版本,都存在问题。 gmap_build -D ./ -d reference reference.fa gmap -t 10 -D
阅读全文
摘要:1.conda安装 conda安装虽然简单,但还是有很多坑,而且很多都是隐形的坑。 # conda install -c bioconda repeatmasker conda install -c bioconda repeatmodeler repeatmodeler依赖于repeatmaske
阅读全文
摘要:1. 主要纠错类型 上篇HiC挂载软件以及如何用Juice_box手工纠错?我吐槽了Juicebox操作麻烦,且没有详细文档。今天在3d-dna流程3D de novo assembly (3D-DNA) pipeline中,终于找到Juicebox的官方文档了:http://aidenlab.or
阅读全文
摘要:1.常用HiC挂载软件 ALLHiC 张兴坦老师专为多倍体和高杂合度物种基因组挂载开发。如果是复杂基因组,肯定是首选。对于简单基因组,我跑了下,结果不佳。提了issue,张老师特意开发了个为简单基因组设计的流程:https://github.com/tangerzhang/ALLHiC/blob/m
阅读全文
摘要:需求 客户随手丢来一个基因型文件,类似于hapmap格式,只是少了中间多余的那几列,像这种类hapmap格式文件,往往是芯片数据。 这样的数据因为缺乏等位基因:参考碱基和变异碱基信息,对应在vcf文件中就是REF和ALT,导致后续一些分析没法进行。 那么,问题来了:怎么根据这个基因型文件来推断参考和
阅读全文
摘要:下了一些sra数据库中的公共数据,因为pretech和aspera不稳定,稍微大点的文件经常传断,部分文件我只能通过本地下载再上传。 那么问题来了,sra没有md5校验,我怎么知道我数据的完整性,尤其是通过本地下载的那些数据? 网上查了下是说,sra是自带md5校验的(The SRA archive
阅读全文
摘要:1. 什么是单倍型? 同源染色体:同源染色体,一个来自母本,一个来自于父本。 单倍型:单倍体基因型的简称。遗传学上指在单条染色体上一系列遗传变异位点的组合。 2. 单倍型组装的意义? 目前,大多数二倍体基因组组装都忽略了同源染色体之间的差异,将基因组组装成一个假的单倍体序列,这是二倍体类型的组装的人
阅读全文
摘要:前言 王向峰老师2020年发表在《Genomics Proteomics Bioinformatics》(IF=6.597)上的文章。对于做数据分析的人来说,如何挖掘公共数据,如何从海量SNP中挖掘目标SNP等问题都是每天要面对的,这篇文章给了一个参考,很值得学习。 文章从水稻变异数据库RVD的子库
阅读全文
摘要:前言 植物基因组大小跨越几个数量级,倍性和杂合性变化,以及新旧基因组转座子变化等带来组装挑战。三代和物理图谱提供了新机会,单倍型定相、结构变异分析、从头泛基因组研究成为新兴组装热点。 植物基因组发展: 拟南芥:sanger BAC-by-BAC。 shotgun OLC (CELERA assemb
阅读全文
摘要:1. 建立项目团体 多机构合作,数据和利益共享。 2. 收集目标基因组信息 考虑的因素: 基因组大小、倍性、杂合性、GC含量和重复。 数据库查询: fungi (http://www.zbi.ee/fungalgenomesize) animals (http://www.genomesize.co
阅读全文
摘要:单倍型,即单倍体基因型,概念很好理解。 单倍型分型的过程就称之Phasing,定相或基因分型。 Phasing的意义,在人类疾病遗传和动植物群体遗传中非常重要。也是imputation的必经过程。 vcf文件中,./.和.|.分别表示未定相和已定相。 Phasing的方法: 家系定相,最准确,一般根
阅读全文
摘要:组装策略 二代测序平台如Illumina、BGI,稳定可靠,数据质量高,成本低,读长短。 三代测序平台如PacBio、Nanopore,超长读长、无PCR扩增,错误率高,成本高。 现在物种的简单基因组基本已完成大多,纯二代组装已经没什么意义,复杂基因组或者高质量基因组基本都是三代测序为主。 由于经费
阅读全文
摘要:我们最常用最熟悉的功能数据库之一:GO(gene onotology),基因本体论。其实是一套标准词汇术语,目的是从不同角度来描述某个基因的特点和功能,三大本体如生物学进程(BP)、分子功能(MF)和细胞组分(CC)。 看文献的时候,偶然看到了TO(trait onotology)和CO(crop
阅读全文
摘要:说明 Admixture通过EM算法一般用于指定亚群分类;或者在不知材料群体结构背景下,通过迭代交叉验证获得error值,取最小error对应的K值为推荐亚群数目。如果我们预先已知群体的类型(百分百确信),那么可以考虑监督分类方法,设置标签,提高分群的准确性。 Admixture目前是1.3.0,文
阅读全文