机器学习--分类
一、说在前面
今天学习的是数据的分类,二分类,但是没有涉及到多种类。
二、笔记
1、数学知识回顾:点到平面距离、梯度下降法、最大似然估计
点到平面距离:点到直线、点到二维平面、点到超平面
梯度下降法:沿梯度下降最快的方向走
最大似然估计:求解概率模型参数的方法
线性可分训练集D={xi,yi}
2、感知机(Perceptron)
找到一条直线,将两类数据分开即可
3、支持向量机(Support Vector Machines)
找到一条直线,不仅将两类数据正确分类,还是的数据离直线尽量远,即间隔最大化
如果数据非线性:核技巧,可以实现将数据点从2维空间映射到3维空间中,使得数据线性可分
4、逻辑回归(Logistic Regression)
找到一条直线使得观察到训练集的“可能性”最大,赋予样本概率解释
5、分类模型评估与SKlearn分类模块
6、实践案例:使用感知机、逻辑回归和支持向量机进行中文新闻分类
总结:
感知机:
关注误分类样本,将训练集样本分对即可
是支持向量机、神经网络的基本模型
只能应用于线性可分数据集
逻辑回归:
使用Logistics函数赋予样本概率解释
使用最大似然法求解,是一种线性分类模型
为防止过度拟合,可在优化目标添加正则项
支持向量机:
可以试用核技巧将低维数据转换到高维运算,保持低维的计算量
如何选择核函数是一大困难
三、心得体会
虽然在学习的过程中没有明白其中的算法原理,但是体会到了其中的核心思想,通过对数据的层层处理和筛选训练以达到分类的目的。另外还有一个很深刻的体会,机器学习、深度学习、神经网络等等这方面的知识是一个层层递进的过程,数学知识和思想在其中都充当着很重要的角色。