基因组学 - 随笔分类(第4页) - 生物信息与育种

泛基因组分析方案

摘要：备注：本文主要来源于知乎《全新的泛基因组解决方案》。关于大豆泛基因组文章解读，请看往期记录《大豆(Soybean, Glycine max)泛基因组2020Cell》。一、研究内容泛基因组产品采用从头组装的策略进行泛基因组构建，分析内容包括比较基因组分析、核心基因和非必需基因分析、结构变异（SV 阅读全文

posted @ 2021-07-22 23:30 生物信息与育种阅读(3257) 评论(0) 推荐(0) 编辑

Bedtools如何比较两个参考基因组注释版本的基因？

摘要：问题原问题来自：How to calculate overlapping genes between two genome annotation versions？其实可分为两个问题：一是我组装了一个新的基因组，做了多个注释版本，如何比较它们的feature？比如gene 二是我组装了一个新的阅读全文

posted @ 2021-05-28 18:55 生物信息与育种阅读(613) 评论(0) 推荐(0) 编辑

如何根据fasta快速统计基因组大小及其各染色体长度？

摘要：基因组长度利用seqkit统计长度 seqkit stat test.fa 结果如下： file format type num_seqs sum_len min_len avg_len max_len test.fa FASTA DNA 149 396,098,845 10,246 2,658, 阅读全文

posted @ 2021-05-28 14:13 生物信息与育种阅读(3834) 评论(0) 推荐(0) 编辑

【基因组预测】braker2基因结构注释要点记录

摘要：记录下braker2的使用要点，以备忘记。流程使用 braker2有很多流程，根据你的数据：组装的基因组、转录组、蛋白（同源，包括近缘或远缘）选择不同流程，官网有说明： https://github.com/Gaius-Augustus/BRAKER 现在的动植物组装，大多数都含有以上三类数据吧，阅读全文

posted @ 2021-05-24 21:28 生物信息与育种阅读(2551) 评论(1) 推荐(0) 编辑

GWAS分析结果中pvalue/p.ajust为0时如何处理？

摘要：在GWAS分析的结果中，偶尔会遇到到pvalue为0的SNP位点，这时如果直接做曼哈顿或QQ图，会出错，因为log0无意义。此时，该如何处理？如果你用的是Plink1.9来做的GWAS，可加一个参数： --output-min-p 1e-99，即将小于1e-99的pvalue都当成1e-99，0 阅读全文

posted @ 2021-05-04 21:43 生物信息与育种阅读(1833) 评论(0) 推荐(0) 编辑

【基因组注释】同源注释比对软件tblastn、gamp和exonerate比较

摘要：基因结构预测中同源注释策略，将mRNA、cDNA、蛋白、EST等序列比对到组装的基因组中，在文章中通常使用以下比对软件： tblastn gamp exonerate blat 根据我的实测，以上软件整体都比较慢。gmap可设置多线程来提升速度。tblastn虽然也可以，但对提速没什么影响。exon 阅读全文

posted @ 2021-04-16 12:11 生物信息与育种阅读(3290) 评论(0) 推荐(0) 编辑

【基因组注释】GMAP安装使用问题

摘要：homology策略预测基因结构，下载了公共mRNA/CDS序列，考虑用gmap比对。本来是个很简单的脚本，但总是不那么顺利。无论是用conda安装，还是源码安装较新版本，都存在问题。 gmap_build -D ./ -d reference reference.fa gmap -t 10 -D 阅读全文

posted @ 2021-04-15 22:43 生物信息与育种阅读(1776) 评论(0) 推荐(0) 编辑

【基因组注释】RepeatMasker和RepeatModeler安装、配置与运行避坑

摘要：1.conda安装 conda安装虽然简单，但还是有很多坑，而且很多都是隐形的坑。 # conda install -c bioconda repeatmasker conda install -c bioconda repeatmodeler repeatmodeler依赖于repeatmaske 阅读全文

posted @ 2021-04-06 22:59 生物信息与育种阅读(7796) 评论(2) 推荐(1) 编辑

【基因组组装】HiC挂载Juicebox纠错补充

摘要：1. 主要纠错类型上篇HiC挂载软件以及如何用Juice_box手工纠错？我吐槽了Juicebox操作麻烦，且没有详细文档。今天在3d-dna流程3D de novo assembly (3D-DNA) pipeline中，终于找到Juicebox的官方文档了：http://aidenlab.or 阅读全文

posted @ 2021-03-29 18:12 生物信息与育种阅读(4548) 评论(0) 推荐(1) 编辑

【基因组组装】HiC挂载软件以及如何用Juice_box手工纠错？

摘要：1.常用HiC挂载软件 ALLHiC 张兴坦老师专为多倍体和高杂合度物种基因组挂载开发。如果是复杂基因组，肯定是首选。对于简单基因组，我跑了下，结果不佳。提了issue，张老师特意开发了个为简单基因组设计的流程：https://github.com/tangerzhang/ALLHiC/blob/m 阅读全文

posted @ 2021-03-28 23:18 生物信息与育种阅读(5512) 评论(0) 推荐(0) 编辑

如何反向推断基因型文件中的参考碱基（REF/ALT）？

摘要：需求客户随手丢来一个基因型文件，类似于hapmap格式，只是少了中间多余的那几列，像这种类hapmap格式文件，往往是芯片数据。这样的数据因为缺乏等位基因：参考碱基和变异碱基信息，对应在vcf文件中就是REF和ALT，导致后续一些分析没法进行。那么，问题来了：怎么根据这个基因型文件来推断参考和阅读全文

posted @ 2021-03-25 22:26 生物信息与育种阅读(481) 评论(0) 推荐(0) 编辑

NCBI SRA数据如何进行md5校验？

摘要：下了一些sra数据库中的公共数据，因为pretech和aspera不稳定，稍微大点的文件经常传断，部分文件我只能通过本地下载再上传。那么问题来了，sra没有md5校验，我怎么知道我数据的完整性，尤其是通过本地下载的那些数据？网上查了下是说，sra是自带md5校验的（The SRA archive 阅读全文

posted @ 2021-03-05 11:15 生物信息与育种阅读(2495) 评论(0) 推荐(0) 编辑

【转】单倍型基因组组装方法

摘要：1. 什么是单倍型？同源染色体：同源染色体，一个来自母本，一个来自于父本。单倍型：单倍体基因型的简称。遗传学上指在单条染色体上一系列遗传变异位点的组合。 2. 单倍型组装的意义？目前，大多数二倍体基因组组装都忽略了同源染色体之间的差异，将基因组组装成一个假的单倍体序列，这是二倍体类型的组装的人阅读全文

posted @ 2021-02-08 17:28 生物信息与育种阅读(2313) 评论(0) 推荐(0) 编辑

SR4R数据库：水稻4个SNP集的筛选及其应用

摘要：前言王向峰老师2020年发表在《Genomics Proteomics Bioinformatics》（IF=6.597）上的文章。对于做数据分析的人来说，如何挖掘公共数据，如何从海量SNP中挖掘目标SNP等问题都是每天要面对的，这篇文章给了一个参考，很值得学习。文章从水稻变异数据库RVD的子库阅读全文

posted @ 2021-02-06 17:12 生物信息与育种阅读(1324) 评论(0) 推荐(0) 编辑

构建一个近乎完整的植物基因组

摘要：前言植物基因组大小跨越几个数量级，倍性和杂合性变化，以及新旧基因组转座子变化等带来组装挑战。三代和物理图谱提供了新机会，单倍型定相、结构变异分析、从头泛基因组研究成为新兴组装热点。植物基因组发展：拟南芥：sanger BAC-by-BAC。 shotgun OLC （CELERA assemb 阅读全文

posted @ 2021-02-02 20:08 生物信息与育种阅读(807) 评论(0) 推荐(0) 编辑

基因组组装项目的十二步建议

摘要：1. 建立项目团体多机构合作，数据和利益共享。 2. 收集目标基因组信息考虑的因素：基因组大小、倍性、杂合性、GC含量和重复。数据库查询： fungi (http://www.zbi.ee/fungalgenomesize) animals (http://www.genomesize.co 阅读全文

posted @ 2021-02-01 22:35 生物信息与育种阅读(1157) 评论(0) 推荐(1) 编辑

关于单倍型和Phasing

摘要：单倍型，即单倍体基因型，概念很好理解。单倍型分型的过程就称之Phasing，定相或基因分型。 Phasing的意义，在人类疾病遗传和动植物群体遗传中非常重要。也是imputation的必经过程。 vcf文件中，./.和.|.分别表示未定相和已定相。 Phasing的方法：家系定相，最准确，一般根阅读全文

posted @ 2021-01-14 15:24 生物信息与育种阅读(2280) 评论(0) 推荐(0) 编辑

动植物基因组组装要点小结

摘要：组装策略二代测序平台如Illumina、BGI，稳定可靠，数据质量高，成本低，读长短。三代测序平台如PacBio、Nanopore，超长读长、无PCR扩增，错误率高，成本高。现在物种的简单基因组基本已完成大多，纯二代组装已经没什么意义，复杂基因组或者高质量基因组基本都是三代测序为主。由于经费阅读全文

posted @ 2021-01-13 11:55 生物信息与育种阅读(1241) 评论(0) 推荐(0) 编辑

除了GO基因本体论，还有PO、TO、CO等各种Ontology？

摘要：我们最常用最熟悉的功能数据库之一：GO（gene onotology），基因本体论。其实是一套标准词汇术语，目的是从不同角度来描述某个基因的特点和功能，三大本体如生物学进程（BP）、分子功能（MF）和细胞组分（CC）。看文献的时候，偶然看到了TO（trait onotology）和CO（crop 阅读全文

posted @ 2020-12-18 14:39 生物信息与育种阅读(677) 评论(0) 推荐(0) 编辑

Admixture的监督分群（Supervised analysis）

摘要：说明 Admixture通过EM算法一般用于指定亚群分类；或者在不知材料群体结构背景下，通过迭代交叉验证获得error值，取最小error对应的K值为推荐亚群数目。如果我们预先已知群体的类型（百分百确信），那么可以考虑监督分类方法，设置标签，提高分群的准确性。 Admixture目前是1.3.0，文阅读全文

posted @ 2020-12-17 12:35 生物信息与育种阅读(1096) 评论(0) 推荐(0) 编辑

生物信息与育种

生信、AI、大数据与育种相关，微信公众号：生物信息与育种

随笔分类 - 基因组学

公告