摘要:
随机森林(Random Forest, 简称RF)[Breiman, 2001a]是Bagging的一个扩展变体。随机森林在以决策树为基学习器构建Bagging集成的基础上,进一步在基决策树的训练过程中引入了随机属性选择。 阅读全文
摘要:
集成学习(ensemble learning),有时也被称为多分类器系统multi-classifier system)、基于委员会的学习(committee-based learning)等。可以说是现在非常火爆的机器学习方法了。它本身不是一个单独的机器学习算法,而是通过构建并结合多个机器学习器来完成学习任务。也就是我们常说的“博采众长”。 阅读全文
摘要:
上一篇笔记决策树(一)里学习了决策树的ID3算法,和ID3算法的改进版C4.5算法。对于C4.5算法,我们也提到了它的不足,比如模型是用较为复杂的熵来度量,使用了相对较为复杂的多叉树,只能处理分类不能处理回归等。对于这些问题,CART算法大部分做了改进。下面我们就来学习CART算法的相关内容。 阅读全文
摘要:
决策树(decision tree)是一类常见的机器学习方法。以二分类任务为例,我们希望从给定训练数据集学得一个模型用以对新的示例进行分类,这个把样本分类的任务,可以看作对“当前样本属于正类吗?”这个问题的“决策”或“判别”过程。顾名思义,决策树是基于树结构来进行决策的,这恰是人类在面临决策问题时一种很自然的处理机制。 阅读全文
摘要:
无论是在线性回归(Linear Regression)、逻辑回归(Logistic Regression)还是神经网络(Neural Network)等等,都会用到梯度下降算法。 阅读全文
摘要:
在学习机器学习算法的时候,很多训练算法用的就是梯度下降,然后很多资料也说朝着梯度的反方向变动,函数值下降最快 阅读全文
摘要:
在前面的笔记中,我们已经了解了线性模型。线性模型虽然简单,却有丰富的变化。 阅读全文
摘要:
L2正则化、L1正则化与稀疏性的原理是什么? 阅读全文
摘要:
除了我们自定义的变量之外,shell内定了一些变量,且其名称是我们不能随意更改的,其中就有位置参数(positional parameter)变量。 阅读全文
摘要:
岭回归与Lasso回归的出现是为了解决线性回归出现的过拟合以及在通过正规方程方法求解 阅读全文