随笔分类 -  面试资料

摘要:一、Voting 模型融合其实也没有想象的那么高大上,从最简单的Voting说起,这也可以说是一种模型融合。假设对于一个二分类问题,有3个基础模型,那么就采取投票制的方法,投票多者确定为最终的分类。 二、Averaging 对于回归问题,一个简单直接的思路是取平均。稍稍改进的方法是进行加权平均。权值 阅读全文
posted @ 2019-07-01 16:52 USTC丶ZCC 阅读(993) 评论(0) 推荐(0) 编辑
摘要:奇异值分解(Singular Value Decomposition,以下简称SVD)是在机器学习领域广泛应用的算法,它不光可以用于降维算法中的特征分解,还可以用于推荐系统,以及自然语言处理等领域。是很多机器学习算法的基石。本文就对SVD的原理做一个总结,并讨论在在PCA降维算法中是如何运用运用SV 阅读全文
posted @ 2019-06-01 11:13 USTC丶ZCC 阅读(547) 评论(0) 推荐(0) 编辑
摘要:众所周知,极大似然估计是一种应用很广泛的参数估计方法。例如我手头有一些东北人的身高的数据,又知道身高的概率模型是高斯分布,那么利用极大化似然函数的方法可以估计出高斯分布的两个参数,均值和方差。这个方法基本上所有概率课本上都会讲,我这就不多说了,不清楚的请百度。 然而现在我面临的是这种情况,我手上的数 阅读全文
posted @ 2019-05-10 17:08 USTC丶ZCC 阅读(20360) 评论(0) 推荐(0) 编辑
摘要:正则化是一种回归的形式,它将系数估计(coefficient estimate)朝零的方向进行约束、调整或缩小。也就是说,正则化可以在学习过程中降低模型复杂度和不稳定程度,从而避免过拟合的危险。 一、数学基础 1. 范数 范数是衡量某个向量空间(或矩阵)中的每个向量以长度或大小。范数的一般化定义:对 阅读全文
posted @ 2018-12-15 15:53 USTC丶ZCC 阅读(9140) 评论(0) 推荐(0) 编辑
摘要:逻辑回归与最大熵 一个事件的几率(odds):指该事件发生与不发生的概率比值。对数几率是输入 x 的线性函数表示的模型,这就是逻辑回归模型。 为什么特征是离散的 稀疏向量内积乘法运算速度快,计算结果方便存储,容易扩展 离散化后的特征对异常数据有很强的鲁棒性 离散化后可以进行特征交叉,由M+N个变量变 阅读全文
posted @ 2018-11-19 11:16 USTC丶ZCC 阅读(184) 评论(0) 推荐(0) 编辑