随笔分类 - 基因组学
摘要:多基因组比对 (multiple genome alignment, MGA)首先要定义多序列比对 (multiple sequence alignment, MSA)。MSA 是将同源关系分配给 3 个或更多序列的方法(对于 2 个序列,使用“成对”而非“多个”),其中一组核苷酸是同源的,如果它们
阅读全文
摘要:目录主要结果主要方法数据策略工具问题来了 2023年9月29日,哈尔滨工业大学王亚东团队联合中国农科院韩天富团队在bioRxiv发表了题为“A telomere-to-telomere genome assembly of Zhonghuang 13, a widely-grown soybean
阅读全文
摘要:Dr. Qi Sun是康奈尔大学高级研究员和生物信息学中心主任,长期以来从事生物信息学工作,在大数据的管理与分析上,特别是Genotype-By-Sequence (GBS),RNA-seq,ChIP-seq,small RNA,基因调控网络等方面积累了丰富的经验。在Science,Cell,Nat
阅读全文
摘要:目录需求描述尝试解决正确解决 需求描述 一个很简单的需求:一批水稻材料的芯片数据(位点少),想看看它们在3K Rice中处于何种亚群和位置。就需要将芯片位点与3K RG位点整合后进行分析。 已知3K Rice位点可从SNP-Seek中下载:https://snp-seek.irri.org/_dow
阅读全文
摘要:目录图形泛基因组的构建图泛构建方法获取和合并PAV变异图泛的存储格式线性参考基因组坐标的恢复图泛的可视化图泛的注释基因结构注释图泛的变异注释结构变异鉴定与基因分型图泛比对软件的优势图泛的应用功能元件的鉴定现有物种中的图泛规模基于图泛的GWAS未来应用结论与未来展望 图形泛基因组(图泛)以节点和路径的
阅读全文
摘要:目录深度学习:概念、工具和注意事项沿着分子生物学的中心法则进行深度学习DNA和基因特性蛋白质特性模型和数据共享理解基因组变异:从关联到因果关系和分子机制深度学习育种4.0:编辑育种结论 植物基因组学取得了巨大进步,其特点是高通量技术的爆炸式增长,以低成本识别多维全基因组分子表型。更重要的是,基因组学
阅读全文
摘要:目录基因组特征评估Survey简单植物基因组组装高杂合基因组组装高重复基因组组装高倍性基因组组装植物泛基因组组装测序技术发展与组装质量 基因组特征评估Survey 基因组大小、杂合度和重复序列含量是决定测序成本、组装难度和最终组装效果的最重要的几个特征。 全部测序read 中K-mer(在测序rea
阅读全文
摘要:目录关于GLNexus由于重叠变异产生的half-callsGATK joint calling对于half-calls的处理建议处理 关于GLNexus GLnexus是由DNAnexus开发,用于可扩展的gVCF合并和联合变异(joint calling)要求群体测序项目,GL即genotype
阅读全文
摘要:目录BSA的发展BSA分析框架BSA流程及影响因素BSA的群体BSA的算法BSA的软件BSA遗传群体、算法和软件的对应关系 BSA作为基因组学中基因挖掘的三板斧之一,最大优点是高效、经济、简便。通过选择双亲群体分离后代中具有极端表型的个体进行混样,然后比较不同极端混样池之间的多态性并结合表型进行目标
阅读全文
摘要:目录结构变异SV基于单个参考基因组鉴定SV通过构建泛基因组来鉴定SV转座元件与作物改良的相关性利用pan-genome进行QTL定位和GWAS利用pan-genome进行基因组预测泛基因组应用育种的挑战与机遇多倍体基因组的复杂性研究不足的作物基因组资源快速驯化新物种 结构变异SV 基于单个参考基因组
阅读全文
摘要:[toc] ## 需求描述 vcf是标准的基因型格式文件,其中包含的信息可多可少。主要在于INFO可无限扩展特征,以及每个样本的FORMAT信息,会大大增加vcf文件的大小。一般来说,GATK等软件得到的基因型都会有这些信息,初始变异我们最好保留它们,因为这是过滤位点/样本的依据。但是当我们确定了最
阅读全文
摘要:原始帖 Admixture做群体结构分析是好用,但也有一些不顺手的地方。最大的问题是不支持非整数的染色体号! 相信我们手里绝大部分vcf或plink格式文件,染色体ID基本是文本类型的吧。注意plink处理时加上-allow-extra-chr,若染色体数超过人类,可使用--chr-set设置。 s
阅读全文
摘要:不同基因组版本的位置(坐标)对应关系,在数据分析环节经常用到。 位置对应关系通常通过比对来获取,而信息一般存储在chain文件中。 对于人类、小鼠等模式生物而言,UCSC已经提供了不同版本的chain文件。 对于非模式生物,往往需要先自己制作chian文件,再通过ncbi的remap,UCSC的li
阅读全文
摘要:GMOD(Generic Model Organism Database) 是专为生物学家创建的开源项目,生物学家用作存储库和工具的交互应用程序和数据库的集合。 连通性是GMOD的关键。生物信息学应用程序和数据库大量产生,但其中许多工具很少使用,因为用户可能缺乏将工具连接到他们数据所需的资源或专业知
阅读全文
摘要:变异、基因表达和表型三者之间的关系很复杂,近期研究相关,头都想破了。然而很早以前就有人研究并总结过了。这里贴一个2015年发表NG上的TWAS综述,备忘。 TWAS研究路线: SNP、基因表达和表型三者之间的关系类型划分: Gusev A et al., Integrative approaches
阅读全文
摘要:BQSR vs. VQSR BQSR (Base Quality Score Recalibration)表示碱基质量值重校正。简言之,这是一个检测系统性错误的数据预处理步骤,用于检查测序仪估计每个碱基检测的准确性。 主要考虑了碱基在reads中的位置、上下文环境和原始质量值这三个因素,首先计算出原
阅读全文
摘要:长读长组装发展 2012:三代组装、二代校正;耗资源,适合小基因组,如细菌,4-15%错误率 2013:三代组装、三代校正;仍然只适用小的 2014:华夏一号(中国人三代参考基因组) 2016:Falcon/Falcon-Unzip,三代Pacbio二倍体真核生物 2017:ONT UItralon
阅读全文
摘要:
阅读全文
摘要:软件的安装 Python版McScan(jcvi工具包):https://github.com/tanghaibao/jcvi 以前只有python2,现在已有python3版本,建议用py3。安装可用pip: pip install jcvi ##或开发版 pip install git+git:
阅读全文
摘要:1. ncRNA 非编码RNA(Non-coding RNA, ncRNA) 包括rRNA,tRNA,snRNA,snoRNA 和microRNA 等不编码蛋白质的RNA,它们转录后直接在RNA 水平上就能行使各自的生物学功能,并不需要翻译成蛋白质。 2. 软件 tRNA注释 一般用tRNAscan
阅读全文