随笔分类 - 统计学与机器学习
摘要:1.调整模型参数来提高性能 参数调整:调节模型合适的选项的过程,如股票C5.0决策树模型中的trials参数,神经网络中的调节节点、隐层数目,SVM中的核函数等等。 caret包自动调整参数:train函数,为分类和回归的150种不同机器学习模型自动搜寻一个最优的模型。支持的模型及相关可调节参数的详
阅读全文
摘要:1.评估分类方法的性能 拥有能够度量实用性而不是原始准确度的模型性能评价方法是至关重要的。 3种数据类型评价分类器:真实的分类值;预测的分类值;预测的估计概率。之前的分类算法案例只用了前2种。 对于单一预测类别,可将predict函数设定为class类型,如果要得到预测的概率,可设为为prob、po
阅读全文
摘要:1.理解Kmeans聚类 1)基本概念 聚类:无监督分类,对无标签案例进行分类。 半监督学习:从无标签的数据入手,是哦那个聚类来创建分类标签,然后用一个有监督的学习算法(如决策树)来寻找这些类中最重要的预测指标。 kmeans聚类算法特点: kmeans算法涉及将n个案例中的每一个案例分配到指定k个
阅读全文
摘要:1.理解关联规则 1)基本认识 购物篮分析:用来判别事务型数据中商品之间关联的机器学习方法,在零售店之间广泛使用。 购物篮分析的结果是一组指定商品之间关系模式的关联规则。 表现形式:{花生酱,果冻}——>{面包},即如果购买了花生酱和果冻,就很有可能购买面包。商品的集合称为项集。 特点:无监督学习,
阅读全文
摘要:1.理解支持向量机(SVM) 1)SVM特点 支持向量机和神经网络都是“黑箱模型”的代表:潜在的模型基于复杂的数学系统,而且结果难以解释。 SVM的目标是创建一个平面边界(“超平面”),使得任何一边的数据划分都是均匀的。结合了kNN和线性回归。 几乎适用于所有的学习任务,包括分类和数值预测。 2)用
阅读全文
摘要:1.理解神经网络 1)基本概念 人工神经网络(ANN):对一组输入信号和一组输出信号之间的关系进行建模,模型来源于人类大脑对来自感觉输入刺激反应的理解。使用人工神经元或节点的网络来学习。 图灵测试:如果一个人不能把机器行为和一种生物行为区分开来,那么将该机器划分为智能类。 ANN应用方法:分类/数值
阅读全文
摘要:1.理解回归树和模型树 决策树用于数值预测: 回归树:基于到达叶节点的案例的平均值做出预测,没有使用线性回归的方法。 模型树:在每个叶节点,根据到达该节点的案例建立多元线性回归模型。因此叶节点数目越多,一颗模型树越大,比同等回归树更难理解,但模型可能更精确。 将回归加入到决策树: 分类决策树中,一致
阅读全文
摘要:1.理解回归 确定一个唯一的因变量(需预测的值)和一个或多个数值型的自变量(预测变量)之间的关系。 回归分析对数据间复杂关系建立模型,用来估计一种处理方法对结果影响和推断未来。也可用于假设检验。 线性回归:直线回归模型 简单线性回归:单一自变量 多元回归:多变量 也可对分类变量做回归: 逻辑回归:对
阅读全文
摘要:1.分类规则原理 if-else逻辑:前件由特征值的特定组合构成,在满足规则的条件下,后件描述用来指定的分类值。 决策树必须从上至下应用,而规则是单独存在的事实。通常比决策树更简洁、直接和理解。 规则学习应用于以名义特征为主,或全部是名义特征的问题。 “独立而治之”:与决策树的**“分而治之”**不
阅读全文
摘要:1.决策树原理 决策树:树形结构流程图(漏斗型),模型本身包含一些列逻辑决策。数据分类从根节点开始,根据特征值遍历树上的各个决策节点。 几乎可应用于任何类型的数据建模,且性能不错。但当数据有大量多层次的名义特征或者大量的数值特征时,可能会生成一个过于复杂的决策树。 递归划分/分而治之:利用特征值将数
阅读全文
摘要:1.理解朴素贝叶斯 1)基本概念 依据概率原则进行分类。如天气预测概率。 朴素贝叶斯(Naive Bayes, NB)适合场景:为估计一个结果的概率,从众多属性中提取的信息应该被同时考虑。 很多算法忽略了弱影响的特征(若有大量弱影响的特征,它们组合在一起的影响可能会很大),但NB算法利用了所有可以获
阅读全文
摘要:1.理解使用KNN进行分类 KNN特点 近邻分类器:一种懒惰学习器,即把未标记的案例归类为与它们最相似的带有标记的案例所在的类。当一个概念很难定义,但你看到它时知道它是什么,就适合用KNN分类。 KNN优点:简单有效;数据分布无要求;训练快 KNN缺点:不产生模型(发现特征间关系能力有限);分类慢;
阅读全文
摘要:1.基本概念 机器学习:发明算法将数据转化为智能行为 数据挖掘 VS 机器学习:前者侧重寻找有价值的信息,后者侧重执行已知的任务。后者是前者的先期准备 过程:数据——>抽象化——>一般化。或者:收集数据——推理数据——归纳数据——发现规律 抽象化: 训练:用一个特定模型来拟合数据集的过程 用方程来拟
阅读全文
摘要:1. 简介 基于串联质谱的蛋白质组学大部分是依赖于数据库(database search)的bottom-up策略研究。也就是实际谱图和理论谱图进行匹配打分,从而实现肽段和蛋白的鉴定和定量。如果是DDA的数据,因为一张二级谱是一条肽段,直接将数据库理论酶切碎裂后的理论谱和实际谱图匹配即可。但如果是D
阅读全文
摘要:初始数据类似: 蛋白质组数据虽不是严格的正态分布,但目前最常用的检验方法还是T检验(两组比较)和方差分析(多组比较)。这个话题值得深究,这里不展开。 主要是求多个蛋白的Pvalue值或FDR,用于差异筛选。 Pvalue <- c() type<-factor(c(rep("S01CC",3),re
阅读全文