机器学习 - 随笔分类 - 从前有座山，山上

摘要：![](https://img2020.cnblogs.com/blog/1140331/202011/1140331-20201106204319864-1670620580.png) 阅读全文

posted @ 2020-11-06 20:43 从前有座山，山上阅读(68) 评论(0) 推荐(0) 编辑

摘要：基于逻辑回归模型识别信用卡欺诈行为 1.平衡数据(imblearn) RandomOverSampler 过采样，从小众样本中复制样本或者使用SMOTE方法生成样本多次欠采样，然后合并多个估计器或者采用boost思想，分类正确的不再放入原来的大众样本中 2.GridSearchCV paramet 阅读全文

posted @ 2020-11-06 18:40 从前有座山，山上阅读(258) 评论(0) 推荐(0) 编辑

LableEncoder编码

摘要：from sklearn.preprocessing import LabelEncoder #举例对属性job进行LE编码 LE = LabelEncoder() label = LE.fit_transform(train['job']) print(label) sorted_job = so 阅读全文

posted @ 2020-10-31 20:07 从前有座山，山上阅读(779) 评论(0) 推荐(0) 编辑

核函数

摘要：几个常用的核函数：根据问题和数据的不同，选择不同的参数，实际上就是得到了不同的核函数。 1.多项式核

$K(x,z) = (x \bullet z + 1)^p$ ，在此情形下，分类决策函数成为： \(f(x) = \mbox{sign}(\sum_{i=1}^{N_s}a_i^*y 阅读全文

posted @ 2020-10-30 14:12 从前有座山，山上阅读(1001) 评论(0) 推荐(0) 编辑

建模时选择SVM还是LR？

摘要：这两个算法都可以解决线性分类问题和非线性分类问题(都使用kernel trick)。如果是非线性分类，那么我们就首选SVM。 SVM不是概率输出，Logistic Regression是概率输出。也就是说，当一个新样本来了，SVM只会告诉你它的分类，而Logistic Regression会告诉阅读全文

posted @ 2020-10-30 11:34 从前有座山，山上阅读(237) 评论(0) 推荐(0) 编辑

HIVE SQL与SQL的区别

摘要：HIVE SQL与SQL的区别： 1.HQL不支持增删改 2.不支持事务 3.支持分区存储 4.HQL不支持等值连接，使用JOIN 5.hive中没有not null，当字段为null时，使用\n代替 6.hive落地到hdfs，Mysql落地到磁盘阅读全文

posted @ 2020-10-29 20:03 从前有座山，山上阅读(3166) 评论(0) 推荐(1) 编辑

数据不平衡如何处理

摘要：数据不平衡 1.什么是数据不平衡一般都是假设数据分布是均匀的，每种样本的个数差不多，但是现实情况下我们取到的数据并不是这样的，如果直接将分布不均的数据直接应用于算法，大多情况下都无法取得理想的结果。这里着重考虑二分类，因为解决了二分类种的数据不平衡问题后，推而广之酒能得到多分类情况下的解决方案。阅读全文

posted @ 2020-10-29 18:46 从前有座山，山上阅读(1103) 评论(0) 推荐(0) 编辑

最大熵模型学习

摘要：最大熵模型 1.最大熵原理最大熵原理认为，学习概率模型时，在所有可能的概率模型(分布)中，熵最大的模型是最好的模型。通常用约束条件来确定概率模型的集合，所以，最大熵原理也可以表述为在满足约束条件的模型集合中选取熵最大的模型。最大熵原理认为，要选择的概率模型首先必须满足已有的事实，即约束条件。在没阅读全文

posted @ 2020-04-15 18:13 从前有座山，山上阅读(466) 评论(0) 推荐(1) 编辑

牛顿法与拟牛顿法

摘要：牛顿法的应用： 1.求根：原理是函数

$f(x)$ 展开到一阶导。 2.最优化：原理是函数

$f(x)$ 展开到二阶导。就应用2进行推导：

$f(x+\triangle x) = f(x)+ f'(x)\triangle x + \frac{1}{2} f''(x)\triangle x^2$ 这个式阅读全文

posted @ 2020-04-14 11:51 从前有座山，山上阅读(603) 评论(0) 推荐(0) 编辑

【转载】欧几里得空间与希尔伯特空间

摘要：函数空间 = 元素 + 规则，即一个函数空间由元素与元素所满足的规则定义，而要明白这些函数空间的定义首先得从距离，范数，内积，完备性等基本概念说起。一.距离说到距离，我们首先想到的是点与点之间的距离，除此之外还有向量之间的距离，曲线之间的距离，函数之间的距离…。这儿谈到距离的定义是阅读全文

posted @ 2020-04-07 12:41 从前有座山，山上阅读(1057) 评论(0) 推荐(0) 编辑

Python 多元线性回归

摘要：分析目的分析空气中主要污染物浓度与空气指数之间的关系分析数据天气污染物浓度的数据集，该数据集源自天气后报网站上爬取的数据，为北京2013年10月28日到2016年1月31日的空气污染物浓度的数据。包括空气质量等级、AQI指数和当天排名。 import pandas as pd import n 阅读全文

posted @ 2020-04-02 21:40 从前有座山，山上阅读(2267) 评论(0) 推荐(0) 编辑

Python 线性回归

摘要：分析：女性身高与体重的关系该数据集源自The World Almanac and Book of Facts（1975）给出了年龄在30-39岁之间的15名女性的身高和体重信息 1.线性回归 # packages import pandas as pd import numpy as np im 阅读全文

posted @ 2020-04-01 22:25 从前有座山，山上阅读(1025) 评论(0) 推荐(0) 编辑

线性回归与梯度下降法

摘要：一元线性回归 ①基本假设： y = w0 + w1x + ε 其中 w0,w1 为回归系数，ε 为随机误差项(noise) 给定样本集合 D = { (x1,y1),…,(xn,yn)}，我们的目标是找到一条直线　y = w0 + w1x ，使得所有样本点尽可能落在它的附近，即求解以下问题： ②一阅读全文

posted @ 2020-03-09 17:28 从前有座山，山上阅读(341) 评论(0) 推荐(0) 编辑

k近邻法

摘要：算法1：k近邻法复杂度：O(n) 算法2：构造平衡kd树算法3：搜索kd树复杂度:O(log(n)) 当空间维数接近训练实例数时，他的效率会迅速下降，几乎接近线性扫描 python代码实现k近邻法： # # k近邻算法步骤： 1.导入数据 2.分割数据(用于交叉验证) 3.k近邻算法 4.模阅读全文

posted @ 2020-03-09 12:47 从前有座山，山上阅读(229) 评论(0) 推荐(0) 编辑

逻辑回归与梯度下降法

摘要：广义线性模型：因变量不服从正态分布时，但所服从的的分布属于指数族分布，这样的模型成为广义线性模型。逻辑回归公式推导：定义：联结函数: 则，记，则有，损失函数的推导： (利用极大似然估计) 似然函数：两边取对数(单调性不变)：损失函数：梯度下降法更新参数：梯度方向时函数值增加最快的阅读全文

posted @ 2020-03-03 20:26 从前有座山，山上阅读(528) 评论(0) 推荐(0) 编辑

感知机与梯度下降法

摘要：1.什么是感知机感知机是一种线性分类模型，属于判别模型。感知机模型的假设空间是定义在特征空间中的所有线性分类模型或线性分类器，即函数集合。 2.感知机学习策略 2.1 数据集的线性可分性给定一个数据集，其中，,,, 如果存在某个超平面 , 能够将数据集的正实例点和负实例点完全正确地划分到超平面的阅读全文

posted @ 2020-03-03 12:54 从前有座山，山上阅读(1351) 评论(0) 推荐(0) 编辑

为什么梯度反方向是函数值局部下降最快的方向？

摘要：恢复内容开始转载：https://zhuanlan.zhihu.com/p/24913912 刚接触梯度下降这个概念的时候，是在学习机器学习算法的时候，很多训练算法用的就是梯度下降，然后资料和老师们也说朝着梯度的反方向变动，函数值下降最快，但是究其原因的时候，很多人都表达不清楚。所以我整理出自己的阅读全文

posted @ 2020-03-02 20:04 从前有座山，山上阅读(376) 评论(0) 推荐(0) 编辑

机器学习对数几率回归

摘要：https://blog.csdn.net/uncle_gy/article/details/78788737 阅读全文

posted @ 2019-10-10 13:20 从前有座山，山上阅读(175) 评论(0) 推荐(0) 编辑

从前有座山，山上

随笔分类 - 机器学习

公告