02 2019 档案

摘要:一、概述 概率模型有时既含有观测变量,又含有隐变量,如果概率模型的变量都是观测变量,那么给定数据,可以直接利用极大似然估计法或者贝叶斯估计法估计模型参数。但是,当模型同时又含有隐变量时,就不能简单地使用这些方法。EM算法适用于带有隐变量的概率模型的参数估计,利用极大似然估计法逐步迭代求解。 二、je 阅读全文
posted @ 2019-02-25 17:24 光彩照人 阅读(738) 评论(0) 推荐(0) 编辑
摘要:一、xgboost模型函数形式 xgboost也是GBDT的一种,只不过GBDT在函数空间进行搜索最优F的时候,采用的是梯度下降法也就是一阶泰勒展开;而xgboost采用的是二阶泰勒展开也就是牛顿法,去每次逼近最优的F,泰勒展开越多与原函数形状越接近,比如在x0处进行展开,其展开越多,x0附近与原函 阅读全文
posted @ 2019-02-21 15:01 光彩照人 阅读(5814) 评论(0) 推荐(0) 编辑
摘要:一、提升树 提升方法实际采用加法模型(即基函数的线性组合)与前向分布算法。以决策树为基函数的提升方法称为提升树,boosting tree。对分类问题的决策树是二叉分类树,对回归问题的决策树是二叉回归树。提升树算法是AdaBoost算法的特殊情况。我的理解提升树分为普通提升树与梯度提升树,普通提升树 阅读全文
posted @ 2019-02-20 16:15 光彩照人 阅读(1406) 评论(0) 推荐(0) 编辑
摘要: 阅读全文
posted @ 2019-02-20 12:12 光彩照人 阅读(380) 评论(0) 推荐(0) 编辑
摘要:一、概述 KS(Kolmogorov-Smirnov)评价指标,通过衡量好坏样本累计分布之间的差值,来评估模型的风险区分能力。 KS、AUC、PR曲线对比: 1)ks和AUC一样,都是利用TPR、FPR两个指标来评价模型的整体训练效果。 2)不同之处在于,ks取的是TPR和FPR差值的最大值,能够找 阅读全文
posted @ 2019-02-07 12:15 光彩照人 阅读(22063) 评论(3) 推荐(0) 编辑
摘要:利用kdeplot可以查看两个变量之间的关系,比如查看x变量与目标变量y之间的关系,举例如下: 利用kdeplot探索某大学学生消费习惯于助学金获得关系,数据集如下所示: 通过分布可以发现,蓝色图像分布靠右,红色分布靠左,x轴表示消费金额,得出得到助学金的同学日常消费较未得到的同学更低,印证了助学金 阅读全文
posted @ 2019-02-07 11:41 光彩照人 阅读(590) 评论(0) 推荐(0) 编辑
摘要:单元分布 sns.distplot() 直方图(hist)+内核密度函数(kde) 在seaborn中最简便查看单元分布的函数是distplot().该函数默认绘制直方图并拟合内核密度估计。通过调整参数可以分别绘制直方图,拟合内核密度图,地毯图等。 x = np.random.normal(size 阅读全文
posted @ 2019-02-07 09:59 光彩照人 阅读(9566) 评论(0) 推荐(1) 编辑
摘要:apply:作用在dataframe的一行或一列上 applymap: 作用在dataframe的每一个元素上 关于apply传入多个参数: 阅读全文
posted @ 2019-02-05 19:30 光彩照人 阅读(313) 评论(0) 推荐(0) 编辑
摘要:一、理论概述 1)问题引出 先看如下几张图: 从上述图中可以看出,如果将3个图的数据点投影到x1轴上,图1的数据离散度最高,图3其次,图2最小。数据离散性越大,代表数据在所投影的维度上具有越高的区分度,这个区分度就是信息量。如果我们用方差来形容数据的离散性的话,就是数据方差越大,表示数据的区分度越高 阅读全文
posted @ 2019-02-02 14:49 光彩照人 阅读(6680) 评论(0) 推荐(0) 编辑
摘要:一、齐次线性方程 常数项全为0的线性方程称为齐次线性方程,也就是没有常数项。 性质: 1.齐次线性方程组的系数矩阵秩r(A)=n,方程组有唯一零解。 2.齐次线性方程组的系数矩阵秩r(A)<n,方程组有无数多解。 3. n元齐次线性方程组有非零解的充要条件是其系数行列式为零,此时系数矩阵为奇异矩阵, 阅读全文
posted @ 2019-02-01 17:55 光彩照人 阅读(2394) 评论(0) 推荐(0) 编辑

点击右上角即可分享
微信分享提示