摘要: 完整的分析流程,请点击以下连接: https://nbviewer.jupyter.org/github/China-LuoYaxiong/ipynb/blob/master/%E5%9F%BA%E4%BA%8E%E5%86%B3%E7%AD%96%E6%A0%91%E7%9A%84%E4%BF%9 阅读全文
posted @ 2019-09-12 21:14 罗亚雄 阅读(483) 评论(0) 推荐(0) 编辑
摘要: 关于主成分分析的理论推导(PCA降维算法) 一 特征选择与特征提取 关于主成分分析,严格一点说,它应该属于 特征提取 ,而不是 特征选择 。 我们先来看看什么是特征选择? 比如现在我们的训练数据集是: $$ \left \{ (x_{1},y_{1}),(x_{2},y_{2}),(x_{3},y_ 阅读全文
posted @ 2019-08-15 10:00 罗亚雄 阅读(1114) 评论(0) 推荐(0) 编辑
摘要: 梯度下降算法详解 介绍 如果说在机器学习领域有哪个优化算法最广为认知,用途最广,非梯度下降算法莫属。梯度下降算法是一种非常经典的求极小值的算法,比如在线性回归里我们可以用最小二乘法去解析最优解,但是其中会涉及到对矩阵求逆,由于多重共线性问题的存在是很让人难受的,无论进行L1正则化的Lasso回归还是 阅读全文
posted @ 2019-07-25 16:06 罗亚雄 阅读(1015) 评论(0) 推荐(0) 编辑
摘要: 阅读全文
posted @ 2019-06-01 22:40 罗亚雄 阅读(198) 评论(0) 推荐(0) 编辑
摘要: 阅读全文
posted @ 2019-06-01 17:47 罗亚雄 阅读(391) 评论(0) 推荐(0) 编辑
摘要: 阅读全文
posted @ 2019-05-30 18:59 罗亚雄 阅读(215) 评论(0) 推荐(0) 编辑
摘要: 1 IV的用途 IV的全称是Information Value,中文意思是信息价值,或者信息量。 我们在用逻辑回归、决策树等模型方法构建分类模型时,经常需要对自变量进行筛选。比如我们有200个候选自变量,通常情况下,不会直接把200个变量直接放到模型中去进行拟合训练,而是会用一些方法,从这200个自 阅读全文
posted @ 2019-05-28 09:43 罗亚雄 阅读(12533) 评论(0) 推荐(3) 编辑
摘要: 一、python实现k-means 效果如下: 数据集的分布图: 调用自己写的k-means进行聚类: 效果还是非常好 阅读全文
posted @ 2019-04-18 22:44 罗亚雄 阅读(794) 评论(0) 推荐(0) 编辑
摘要: 一 统计量 1. 设 X1,X2,…,Xn 是 从 总 体 X 中 抽 取 的 容 量 为 n 的 一 个 样 本 , 如 果 由 此 样 本 构 造 一 个 函 数 T(X1,X2,…,Xn) , 不 依 赖 于 任 何 未 知 参 数 , 则 称 函 数 T(X1,X2,…,Xn) 是一个统计量 阅读全文
posted @ 2019-04-14 15:43 罗亚雄 阅读(1160) 评论(0) 推荐(0) 编辑
摘要: 阅读全文
posted @ 2019-04-14 15:23 罗亚雄 阅读(282) 评论(0) 推荐(0) 编辑