随笔分类 - 机器学习
摘要:可以把问题根据难度从小到大排个序:大数据+分布均衡<大数据+分布不均衡<小数据+数据均衡<小数据+数据不均衡。 说明:对于小数据集,机器学习的方法是比较棘手的。对于需要解决的问题,拿到数据后,首先统计可用训练数据有多大,然后再观察数据分布情况。经验表明,训练数据中每个类别有5000个以上样本,其实也
阅读全文
摘要:1、决策树 适用条件:数据不同类边界是非线性的,并且通过不断将特征空间切分为矩阵来模拟。特征之间有一定的相关性。特征取值的数目应该差不多,因为信息增益偏向于更多数值的特征。 优点:1.直观的决策规则;2.可以处理非线性特征;3.考虑了变量之间的相互作用。 缺点:1.容易过拟合(随机森林、剪枝);2.
阅读全文
摘要:奇异值分解(Singular Value Decomposition,以下简称SVD)是在机器学习领域广泛应用的算法,它不光可以用于降维算法中的特征分解,还可以用于推荐系统,以及自然语言处理等领域。是很多机器学习算法的基石。本文就对SVD的原理做一个总结,并讨论在在PCA降维算法中是如何运用运用SV
阅读全文
摘要:1、Apriori算法 Apriori算法是常用的用于挖掘出数据关联规则的算法,它用来找出数据值中频繁出现的数据集合,找出这些集合的模式有助于我们做一些决策。 Apriori算法采用了迭代的方法,先搜索出候选1项集及对应的支持度,剪枝去掉低于支持度的1项集,得到频繁1项集。然后对剩下的频繁1项集进行
阅读全文
摘要:参考文献:https://www.jianshu.com/p/5314834f9f8e
阅读全文
摘要:在机器学习中,经常需要使用距离和相似性计算的公式,在做分类时,常常需要计算不同样本之间的相似性度量(Similarity Measurement),计算这个度量,我们通常采用的方法是计算样本之间的“距离(Distance)”。比如利用k-means进行聚类时,判断个体所属的类别,就需要使用距离计算公
阅读全文
摘要:四个方面: 1、基于数据改善性能 2、借助算法改善性能 3、用算法调参改善性能 4、借助模型融合改善性能 1、基于数据改善性能 改变你的训练集数据以及问题定义方式。 获得更多的数据; 数据扩充; 清洁数据:可以纠正或删除一些缺失或错误的观测值,或者在合理范围外的离群点,从而提升数据质量; 重新界定问
阅读全文
摘要:聚类算法 任务:将数据集中的样本划分成若干个通常不相交的子集,对特征空间的一种划分。 性能度量:类内相似度高,类间相似度低。两大类:1.有参考标签,外部指标;2.无参照,内部指标。 距离计算:非负性,同一性(与自身距离为0),对称性,直递性(三角不等式)。包括欧式距离(二范数),曼哈顿距离(一范数)
阅读全文
摘要:一、LDA算法 基本思想:LDA是一种监督学习的降维技术,也就是说它的数据集的每个样本是有类别输出的。这点和PCA不同。PCA是不考虑样本类别输出的无监督降维技术。 我们要将数据在低维度上进行投影,投影后希望每一种类别数据的投影点尽可能的接近,而不同类别的数据的类别中心之间的距离尽可能的大。 浅显来
阅读全文
摘要:逻辑回归详细推导:http://lib.csdn.net/article/machinelearning/35119 面试常见问题:https://www.cnblogs.com/ModifyRong/p/7739955.html 1、LR和SVM有什么相同点 (1)都是监督分类算法,判别模型; (
阅读全文
摘要:RF、GBDT和XGBoost都属于集成学习(Ensemble Learning),集成学习的目的是通过结合多个基学习器的预测结果来改善单个学习器的泛化能力和鲁棒性。 根据个体学习器的生成方式,目前的集成学习方法大致分为两大类:即个体学习器之间存在强依赖关系、必须串行生成的序列化方法,以及个体学习器
阅读全文
摘要:1、Adaboost算法原理,优缺点: 理论上任何学习器都可以用于Adaboost.但一般来说,使用最广泛的Adaboost弱学习器是决策树和神经网络。对于决策树,Adaboost分类用了CART分类树,而Adaboost回归用了CART回归树。 Adaboost算法可以简述为三个步骤: (1)首先
阅读全文
摘要:1、什么是随机采样? Bagging可以简单的理解为:放回抽样,多数表决(分类)或简单平均(回归); Bagging的弱学习器之间没有boosting那样的联系,不存在强依赖关系,基学习器之间属于并列生成。它的特点在“随机采样”。 随机采样(bootsrap)就是从我们的训练集里面采集固定个数的样本
阅读全文
摘要:1、什么是回归? 是一种监督学习方式,用于预测输入变量和输出变量之间的关系,等价于函数拟合,选择一条函数曲线使其更好的拟合已知数据且更好的预测未知数据。 2、线性回归 于一个一般的线性模型而言,其目标就是要建立输入变量和输出变量之间的回归模型。该模型是既是参数的线性组合,同时也是输入变量的线性组合。
阅读全文
摘要:1、boosting与bagging的概念: (1)bagging:从原始数据中随机抽样得到S个同样大小的数据集,来训练S个基学习器,各学习器之间互不依赖。是一种并行的方法。 各分类器的权重都是相等的。分类结果是用这S个分类器进行分类,选择分类器投票结果中最多的类别作为最后的分类结果。 (抽样方法为
阅读全文
摘要:逻辑回归常见问题: 1)https://www.cnblogs.com/ModifyRong/p/7739955.html 2)https://www.cnblogs.com/lianyingteng/p/7701801.html 3)LR 推导 (0)推导在笔记上,现在摘取部分要点如下: LR回归
阅读全文
摘要:1、SVM的原理是什么? SVM是一种二类分类模型。它的基本模型是在特征空间中寻找间隔最大化的分离超平面的线性分类器。(间隔最大是它有别于感知机) 试图寻找一个超平面来对样本分割,把样本中的正例和反例用超平面分开,并尽可能的使正例和反例之间的间隔最大。 支持向量机的基本思想可以概括为,首先通过非线性
阅读全文
摘要:0、思想: 对于给定的待分类项x,通过学习到的模型计算后验概率分布,即:在此项出现的条件下各个目标类别出现的概率,将后验概率最大的类作为x所属的类别。后验概率根据贝叶斯定理计算。 关键:为避免贝叶斯定理求解时面临的组合爆炸、样本稀疏问题,引入了条件独立性假设。用于分类的特征在类确定的条件下都是条件独
阅读全文