随笔分类 - 统计学与机器学习
摘要:❝ 我们能教会计算机理解人类语言,同样也能让它们读懂DNA。 2023年10月31日,加利福尼亚大学伯克利分校的科学家们在《美国科学院院刊》(PNAS)上发表了一篇突破性研究,提出了一种基于无监督DNA语言模型的新方法,该方法在全基因组范围内预测基因变异效果上,超越了现有的保守性评分模型。 研究团队
阅读全文
摘要:机器学习有很多模型算法,比如线性回归、逻辑回归、KNN分类、支持向量机、随机森林等,一般需要我们一个个地调用多个模型的拟合和预测。那么,有没有一个可自动执行机器学习建模过程、以及输出诸如准确率、精准率、召回率、F1、ROC、AUC等指标的工具?当然有,LazyPredict就是一个专为懒人打造的建模
阅读全文
摘要:近日,中国农业大学农学院汪海团队联合美国康奈尔大学、丹麦奥胡斯大学、北京大学现代农业研究院、坦桑尼亚农业科学院等单位在_PNAS在线发表了题为Modeling 0.6 million genes for the rational design of functional cis-regulatory
阅读全文
摘要:几年前做的机器学习与R语言相关笔记,迁移到公号记录之。 1-机器学习简介 2-懒惰学习K近邻(KNN) 3-概率学习朴素贝叶斯(NB) 4-决策树 5-规则学习算法 6-线性回归 7-回归树和模型树 8-神经网络 9-支持向量机 10-关联规则 11-Kmeans聚类 12-如何评估模型的性能? 1
阅读全文
摘要:近日,扬州大学张韬团队在aBIOTECH发表综述“Integrating machine learning and genome editing for crop improvement”。 随着大数据的积累,越来越多基于机器学习的方法被应用于植物科学研究,包括功能性基因和调控元件的挖掘,蛋白质结构
阅读全文
摘要:本文旨在比较机器学习方法在基因组预测中的表现,并评估其对高维数据的处理能力。作者使用了正则化回归、深度学习、集成和实例基础学习等不同类型的监督学习方法,分别应用于模拟动物育种数据集和三个实际玉米育种数据集中。 结果表明,机器学习方法的表现和计算成本取决于数据和目标性状,简单线性混合模型和正则化回归方
阅读全文
摘要:目录1.1 人工智能的概念和起源1.1.1 人工智能的概念1.1.2 人工智能的起源1.2 人工智能的黄金时代1.2.1 感知机1.2.2 贝叶斯网络1.2.3 模式识别1.2.4 人机对话1.2.5 知识表示1.2.6 计算机视觉1.3 人工智能的冬天1.4 人工智能的复兴期1.4.1 机器学习1
阅读全文
摘要:上世纪30年代,受Fisher关于显著性和假设检验的影响,统计数据分析流程一般如下图所示。 70年代,Tukey推荐使用探索性数据分析(EDA)进行统计分析。EDA 建立在数据可视化的基础上,然后辅以验证性数据分析 (CDA):假设驱动的推理方法,理想情况下应该是稳健的,而不是依赖于复杂的假设。 9
阅读全文
摘要:目录摘要将生物数据和知识转化为植物的精准设计育种机器学习(ML)在植物生物学中的应用案例研究:多组学数据关联研究(MODAS)中的数据降维(DR)亮点总结 今天简单回顾下中国农业大学王向峰教授团队2023年上半年发表在Trends in Plant Sicence的综述文章。该文阐释系统全面,值得赏
阅读全文
摘要:11月6日,OpenAI在旧金山举办首届开发者大会,发布了更强大、更便宜(根本不!)的GPT-4Turbo,做出六大升级:更长的上下文长度、更强的控制、知识升级、多模态、模型微调定制和更高的速率限制。 每个功能又强化了,于是我再次试了下文生图工具DALL·E,看看它的绘图功能到底如何了。 试试领域相
阅读全文
摘要:目录模型部署概述R语言模型云端/服务器部署httpuvjugopencpufieryplumberRserveRestRserve结语 模型部署概述 数据科学项目的生命周期通常以迭代方式执行以下主要阶段: 业务理解(Business understanding) 数据采集和理解(Data acqui
阅读全文
摘要:目录深度学习:概念、工具和注意事项沿着分子生物学的中心法则进行深度学习DNA和基因特性蛋白质特性模型和数据共享理解基因组变异:从关联到因果关系和分子机制深度学习育种4.0:编辑育种结论 植物基因组学取得了巨大进步,其特点是高通量技术的爆炸式增长,以低成本识别多维全基因组分子表型。更重要的是,基因组学
阅读全文
摘要:目录简介材料方法数据集SoyDNGP的模型结构比对模型的处理主要结果SoyDNGP在大豆基因组预测中展现了出色的能力大豆基因组预测中SoyDNGP与其他算法的性能比较SoyDNGP模型在不同大豆群体中的多功能预测能力SoyDNGP 在大豆之外的广泛应用SoyDNGP是一个面向大豆基因组预测的开放友好
阅读全文
摘要:[toc] ## 机器学习与GP 与动物育种相比,植物的基因组选择必须通过环境相互作用来考虑更大的基因型,并且需要添加适当的多环境试验数据。 机器学习 (ML) 和深度学习 (DL) 算法比线性预测模型更复杂,可以发现数据集中的非线性关系。与以前的方法相比,随机森林、支持向量机和人工神经网络由于其非
阅读全文
摘要:1. 矩阵相关性计算方法 base::cor/cor.test R基础函数cor或cor.test都可计算相关性系数,但cor可直接计算矩阵的相关性,而cor.test不可。 两者计算非矩阵时,cor仅得到相关系数,而cor.test还能得到pvalue。 library(ggplot2) cor(
阅读全文
摘要:主成分方差解释率计算 通常,求得了PCA降维后的特征值,我们就可以绘图,但各个维度的方差解释率没有得到,就无法获得PC坐标的百分比。 有些工具的结果是提供了维度标准差的,如ggbiplot绘图时,直接会给你算出各个坐标的方差解释率。但我觉得这类工具绘图远不如ggplot本身,此时,就需要自己计算。
阅读全文
摘要:1.原理的区别 主要区别在于,非加权组平均法(UPGMA)是基于平均链接方法的聚集层次聚类方法,而邻接法(NJ)是基于最小演化准则的迭代聚类法。 UPGMA的假定条件是:在进化过程中,每一世系发生趋异的次数相同,即核苷酸或氨基酸的替换速率是均等且恒定的。 UPGMA生成有根树,而NJ生成无根树。由于
阅读全文
摘要:一文读懂最大似然估计(附R代码) R语言中的最大似然估计 最大似然估计(Maximum likelihood estimation)(通过例子理解) https://blog.csdn.net/qq_39355550/article/details/81809467
阅读全文
摘要:最近看了不少统计基因组方面的资料,以为懂了,其实懵逼。实在是因为统计学基础太菜,似懂非懂,似是而非。记录下自己的理解,求轻喷。 1.GWAS模型 GWAS是表型和基因型之间的相关性分析,然而这个相关性用什么统计方法? GWAS模型的发展: 1.1卡方检验 实际比例是否符合预期分离比例,若不符合则认为
阅读全文