机器学习面试问题2

算法原理

LR

logistic(逻辑回归)是一种广义线性回归分析模型，是一种分类算法。
通过函数L将w‘x+b对应一个隐状态p，p =L(w‘x+b),然后根据p 与1-p的大小决定因变量的值。L是logistic函数.
该模型是典型的数学模型，它服从逻辑斯蒂分布。
二项逻辑斯蒂回归模型是如下的条件概率分布：

在这里，x是输入，y是输出，w是权值向量参数，b是偏置参数。
对于给定的输入实例x，按照以上两个公式可以求得P(Y=1|x)和P(Y=0|x)。逻辑斯蒂回归比较两个条件概率值的大小，将实例x分到概率值较大的那一类。
将权值向量和输入向量加以扩充，仍记作w，x，即w=(x1,x2,…,wn,b),x=(x1,x2,…,xn,1)。这时，逻辑斯蒂回归模型如下：

线性函数的值越接近正无穷，概率值就越接近1；线性函数的值越接近负无穷，概率值就越接近0.如下图：

逻辑斯蒂回归模型学习时，对于给定的训练数据集可以应用极大似然估计法估计模型参数，这样，问题就变成了以对数似然函数为目标函数的最优化问题，逻辑斯蒂回归模型学习中通常采用的方法是梯度下降法及拟牛顿法。得到w的极大似然估计值w’，就可以得到逻辑斯蒂回归模型。

二项逻辑斯蒂回归模型可以推广到多项逻辑斯蒂回归模型：

二项逻辑斯蒂回归的参数估计法也可以推广到多维逻辑斯蒂回归。

k-NN

k-NN（k近邻法）是一种基本分类和回归方法。

k近邻模型的三个基本要素：距离度量，k值的选择，分类决策规则。常用的距离度量是欧式距离及更一般的Lp距离。k值小时，k近邻模型更复杂；k值大时，k近邻模型更简单。k值的选择反映了对近似误差与估计误差之间的权衡，通常由交叉验证选择最优的k。常用的分类决策规则是多数表决，对应于经验风险最小化。

k近邻模型对应于训练数据集对特征空间的一个划分。k近邻法中，当三个基本要素确定后，其结果唯一确定。

k近邻法的基本做法：
对给定的训练实例点和输入实例点，首先确定输入实例点的k个最近邻训练实例点，然后利用这k个训练实例点的类的多数来预测输入实例的类。

k近邻法的实现需要考虑如何快速搜索k个最近邻点。kd树是一种便于对k维空间中的数据进行快速检索的数据结构。kd树是二叉树，表示对k维空间的一个划分，其每个节点对应于k维空间划分中的一个超矩形区域。利用kd树可以省去对大部分数据点的搜索，从而减少搜索的计算量。

K-Means

K-Means算法是一种聚类算法。
以欧式距离作为相似度测度，它是求对应某一初始聚类中心向量V最优分类，使得评价指标J最小。算法采用误差平方和准则函数作为聚类准则函数。

基本思想：从n个对象中任意选择k个对象为中心进行聚类，而对于剩下的其他对象，则根据它们与这些聚类中心（距离均值所对应的对象）的相似度（距离），按照最小距离分别将它们分配给与其最相似的（距离聚类中心所代表的聚类是最小的）聚类，然后再计算每个所获新聚类的聚类中心（该聚类中的中心对象）结果将n个对象划分为k个聚类，且这些聚类满足：同一聚类中的对象相似度较高，不同聚类中的对象相似度较小。

算法流程：
首先从n个数据对象中任意选择k个对象作为初始聚类中心，将剩下的其他对象分别计算它们到这k个聚类中心的距离，归到距离最小的聚类中，每聚一次类，都要重新计算一次聚类中心，规则是将所有对象的距离均值所对应的对象作为聚类中心。

posted on 2017-03-31 23:44 飞鸟各投林阅读(219) 评论(0) 收藏举报

刷新页面返回顶部

飞鸟各投林

导航

公告

机器学习面试问题2

算法原理

LR

k-NN

K-Means