09 2020 档案

摘要:1.准备本地数据库文件 NR(Non-Redundant Protein Sequence Database)非冗余蛋白库,是所有GenBank+EMBL+DDBJ+PDB中的非冗余蛋白序列。Taxonomy物种分类数据库,包括大于7万余个物种的名字和系谱,这些物种都至少在遗传数据库中有一条核酸或蛋 阅读全文
posted @ 2020-09-26 20:27 生物信息与育种 阅读(2859) 评论(0) 推荐(1) 编辑
摘要:根据相似性原理,序列相似,功能相似,所有功能注释无非是用比对工具将输入序列比对到数据库序列,再将输入ID对应数据库ID,进一步对应到功能条目的关系。 数据库要么建到本地,要么联网调用API,一般的软件或包做注释都是通过联网来获得,或者调用依赖的一些专门注释的包(文件较大)。工业生产中,一般需要构建本 阅读全文
posted @ 2020-09-25 22:55 生物信息与育种 阅读(1027) 评论(1) 推荐(0) 编辑
摘要:博奥 http://www.capitalbiotech.com/territory.html?id=159。育种子业务主要做分子标记检测和芯片开发。 中玉金标记 http://www.cgmb.com.cn/(网站服务器不行,慢)。优势在芯片,后台也较硬(主要在北方)。 农博士(北京中农博思科技) 阅读全文
posted @ 2020-09-15 12:58 生物信息与育种 阅读(356) 评论(0) 推荐(0) 编辑
摘要:1.调整模型参数来提高性能 参数调整:调节模型合适的选项的过程,如股票C5.0决策树模型中的trials参数,神经网络中的调节节点、隐层数目,SVM中的核函数等等。 caret包自动调整参数:train函数,为分类和回归的150种不同机器学习模型自动搜寻一个最优的模型。支持的模型及相关可调节参数的详 阅读全文
posted @ 2020-09-11 21:23 生物信息与育种 阅读(2478) 评论(1) 推荐(0) 编辑
摘要:1.评估分类方法的性能 拥有能够度量实用性而不是原始准确度的模型性能评价方法是至关重要的。 3种数据类型评价分类器:真实的分类值;预测的分类值;预测的估计概率。之前的分类算法案例只用了前2种。 对于单一预测类别,可将predict函数设定为class类型,如果要得到预测的概率,可设为为prob、po 阅读全文
posted @ 2020-09-11 16:27 生物信息与育种 阅读(5008) 评论(0) 推荐(0) 编辑
摘要:1.理解Kmeans聚类 1)基本概念 聚类:无监督分类,对无标签案例进行分类。 半监督学习:从无标签的数据入手,是哦那个聚类来创建分类标签,然后用一个有监督的学习算法(如决策树)来寻找这些类中最重要的预测指标。 kmeans聚类算法特点: kmeans算法涉及将n个案例中的每一个案例分配到指定k个 阅读全文
posted @ 2020-09-11 09:59 生物信息与育种 阅读(2801) 评论(0) 推荐(0) 编辑
摘要:1.理解关联规则 1)基本认识 购物篮分析:用来判别事务型数据中商品之间关联的机器学习方法,在零售店之间广泛使用。 购物篮分析的结果是一组指定商品之间关系模式的关联规则。 表现形式:{花生酱,果冻}——>{面包},即如果购买了花生酱和果冻,就很有可能购买面包。商品的集合称为项集。 特点:无监督学习, 阅读全文
posted @ 2020-09-10 11:52 生物信息与育种 阅读(1477) 评论(0) 推荐(0) 编辑
摘要:1.理解支持向量机(SVM) 1)SVM特点 支持向量机和神经网络都是“黑箱模型”的代表:潜在的模型基于复杂的数学系统,而且结果难以解释。 SVM的目标是创建一个平面边界(“超平面”),使得任何一边的数据划分都是均匀的。结合了kNN和线性回归。 几乎适用于所有的学习任务,包括分类和数值预测。 2)用 阅读全文
posted @ 2020-09-08 22:55 生物信息与育种 阅读(1494) 评论(0) 推荐(0) 编辑
摘要:1.理解神经网络 1)基本概念 人工神经网络(ANN):对一组输入信号和一组输出信号之间的关系进行建模,模型来源于人类大脑对来自感觉输入刺激反应的理解。使用人工神经元或节点的网络来学习。 图灵测试:如果一个人不能把机器行为和一种生物行为区分开来,那么将该机器划分为智能类。 ANN应用方法:分类/数值 阅读全文
posted @ 2020-09-04 23:21 生物信息与育种 阅读(3382) 评论(0) 推荐(0) 编辑
摘要:1.理解回归树和模型树 决策树用于数值预测: 回归树:基于到达叶节点的案例的平均值做出预测,没有使用线性回归的方法。 模型树:在每个叶节点,根据到达该节点的案例建立多元线性回归模型。因此叶节点数目越多,一颗模型树越大,比同等回归树更难理解,但模型可能更精确。 将回归加入到决策树: 分类决策树中,一致 阅读全文
posted @ 2020-09-03 22:52 生物信息与育种 阅读(2962) 评论(0) 推荐(0) 编辑
摘要:1.理解回归 确定一个唯一的因变量(需预测的值)和一个或多个数值型的自变量(预测变量)之间的关系。 回归分析对数据间复杂关系建立模型,用来估计一种处理方法对结果影响和推断未来。也可用于假设检验。 线性回归:直线回归模型 简单线性回归:单一自变量 多元回归:多变量 也可对分类变量做回归: 逻辑回归:对 阅读全文
posted @ 2020-09-02 23:40 生物信息与育种 阅读(1285) 评论(0) 推荐(0) 编辑
摘要:1.分类规则原理 if-else逻辑:前件由特征值的特定组合构成,在满足规则的条件下,后件描述用来指定的分类值。 决策树必须从上至下应用,而规则是单独存在的事实。通常比决策树更简洁、直接和理解。 规则学习应用于以名义特征为主,或全部是名义特征的问题。 “独立而治之”:与决策树的**“分而治之”**不 阅读全文
posted @ 2020-09-02 21:57 生物信息与育种 阅读(1454) 评论(0) 推荐(0) 编辑
摘要:1.决策树原理 决策树:树形结构流程图(漏斗型),模型本身包含一些列逻辑决策。数据分类从根节点开始,根据特征值遍历树上的各个决策节点。 几乎可应用于任何类型的数据建模,且性能不错。但当数据有大量多层次的名义特征或者大量的数值特征时,可能会生成一个过于复杂的决策树。 递归划分/分而治之:利用特征值将数 阅读全文
posted @ 2020-09-01 23:14 生物信息与育种 阅读(1996) 评论(0) 推荐(0) 编辑
摘要:编写流程时,有一个好的习惯是将流程需要调用的软件、数据库等信息与脚本进行分离,这样可以统一管理流程的软件和数据库等信息,当它们路径改变或者升级的时候管理起来就很方便,而不需要去脚本中一个个寻找再修改。 在shell编程中,我们可以通过source config.txt来获取配置文件config.tx 阅读全文
posted @ 2020-09-01 18:11 生物信息与育种 阅读(549) 评论(0) 推荐(0) 编辑
摘要:1. 组装算法 一般有基于OLC(Overlap-Layout-Consensus, 先重叠后扩展)和基于DBG(De Brujin Graph)两种组装算法。基于OLC的组装方法适合长序列组装,运行依赖的数据结构需要消耗大量的内存,且运行速度比较慢,错误率高,而DBG组装方法内存消耗相对较低,运算 阅读全文
posted @ 2020-09-01 16:47 生物信息与育种 阅读(8294) 评论(0) 推荐(1) 编辑

点击右上角即可分享
微信分享提示