随笔分类 -  深度学习&机器学习&机器学习 / 机器学习

sklearn数据处理,特征工程,各种基础算法
摘要:# 1 什么是无监督学习 ![](https://img2023.cnblogs.com/blog/1914163/202306/1914163-20230612001316098-2079420465.png) - 一家广告平台需要根据相似的人口学特征和购买习惯将美国人口分成不同的小组,以便广告客 阅读全文
posted @ 2023-06-12 00:53 lipu123 阅读(102) 评论(0) 推荐(0) 编辑
摘要:# 1 简介 **当训练或者计算好一个模型之后,那么如果别人需要我们提供结果预测,就需要保存模型(主要是保存算法的参数)** # 2 sklearn模型的保存和加载API >from sklearn.externals import joblib >- 保存:joblib.dump(rf, 'tes 阅读全文
posted @ 2023-06-11 23:59 lipu123 阅读(52) 评论(0) 推荐(0) 编辑
摘要:# 1 逻辑回归的简介 ## 1.1 简介 **逻辑回归(Logistic Regression)是机器学习中的一种分类模型,逻辑回归是一种分类算法,虽然名字中带有回归,但是它与回归之间有一定的联系。由于算法的简单和高效,在实际中应用非常广泛。** ## 1.2 应用场景 - 广告点击率(是否会被点 阅读全文
posted @ 2023-06-11 23:44 lipu123 阅读(142) 评论(0) 推荐(0) 编辑
摘要:# 1.带有L2正则化的线性回归-岭回归 岭回归,其实也是一种线性回归。只不过在算法建立回归方程时候,加上正则化的限制,从而达到解决过拟合的效果 # 2.API ``` sklearn.linear_model.Ridge(alpha=1.0, fit_intercept=True,solver=" 阅读全文
posted @ 2023-06-11 20:15 lipu123 阅读(39) 评论(0) 推荐(0) 编辑
摘要:**问题:训练数据训练的很好啊,误差也不大,为什么在测试集上面有问题呢? 当算法在某个数据集当中出现这种情况,可能就出现了过拟合或者欠拟合的现象。** # 1. 什么是过拟合与欠拟合 **欠拟合(学习的特征太少了,预测不准)** ![image](https://img2023.cnblogs.co 阅读全文
posted @ 2023-06-11 20:02 lipu123 阅读(42) 评论(0) 推荐(0) 编辑
摘要:# 1 回归问题 >**什么是回归问题 目标值 连续型的数据** **应用场景 房价预测 销售额度预测 金融:贷款额度预测、利用线性回归以及系数分析因子** # 2 什么是线性回归 ## 2.1 定义 >**线性回归(Linear regression)是利用回归方程(函数)对一个或多个自变量(特征 阅读全文
posted @ 2023-06-11 19:23 lipu123 阅读(61) 评论(0) 推荐(0) 编辑
摘要:``` 说明线性回归的原理 应用LinearRegression或SGDRegressor实现回归预测 记忆回归算法的评估标准及其公式 说明线性回归的缺点 说明过拟合与欠拟合的原因以及解决方法 说明岭回归的原理即与线性回归的不同之处 说明正则化对于权重参数的影响 说明L1和L2正则化的区别 说明逻辑 阅读全文
posted @ 2023-06-11 00:22 lipu123 阅读(9) 评论(0) 推荐(0) 编辑
摘要:因为决策树会出现那种过拟合的情况,这时候我们就会用到随机森林 # 1 什么是集成学习方法 >集成学习通过建立几个模型组合的来解决单一预测问题。它的工作原理是生成多个分类器/模型,各自独立地学习和作出预测。这些预测最后结合成组合预测,因此优于任何一个单分类的做出预测。 **说白了,就是三个臭皮匠顶一个 阅读全文
posted @ 2023-06-11 00:10 lipu123 阅读(111) 评论(0) 推荐(0) 编辑
摘要:# 1.认识决策树 >**决策树思想的来源非常朴素,程序设计中的条件分支结构就是if-then结构,最早的决策树就是利用这类结构分割数据的一种分类学习方法 怎么理解这句话?通过一个对话例子** ![image](https://img2023.cnblogs.com/blog/1914163/202 阅读全文
posted @ 2023-06-10 20:28 lipu123 阅读(74) 评论(0) 推荐(0) 编辑
摘要:# 1 什么是朴素贝叶斯算法 ![image](https://img2023.cnblogs.com/blog/1914163/202306/1914163-20230610173416866-384467657.png) ![image](https://img2023.cnblogs.com/ 阅读全文
posted @ 2023-06-10 19:14 lipu123 阅读(33) 评论(0) 推荐(0) 编辑
摘要:# 1.什么是交叉验证(cross validation) 交叉验证:将拿到的训练数据,分为训练和验证集。以下图为例:将数据分成5份,其中一份作为验证集。然后经过5次(组)的测试,每次都更换不同的验证集。即得到5组模型的结果,取平均值作为最终结果。又称5折交叉验证。 我们之前知道数据分为训练集和测试 阅读全文
posted @ 2023-06-10 17:02 lipu123 阅读(136) 评论(0) 推荐(0) 编辑
摘要:# 1.来源 **fit和transform没有任何关系,仅仅是数据处理的两个不同环节,之所以出来fit_transform这个函数名,仅仅是为了写代码方便,会高效一点。 sklearn里的封装好的各种算法使用前都要fit,fit相对于整个代码而言,为后续API服务。fit之后,然后调用各种API方 阅读全文
posted @ 2023-06-10 16:01 lipu123 阅读(241) 评论(0) 推荐(1) 编辑
摘要:# 1.转换器 **想一下之前做的特征工程的步骤? 1、实例化 (实例化的是一个转换器类(Transformer)) 2、调用fit_transform(对于文档建立分类词频矩阵,不能同时调用) ** ``` 标准化: (x-mean)/std fit_transform() fit() 计算每一列 阅读全文
posted @ 2023-06-10 13:55 lipu123 阅读(24) 评论(0) 推荐(0) 编辑
摘要: 阅读全文
posted @ 2023-06-10 12:06 lipu123 阅读(12) 评论(0) 推荐(0) 编辑
摘要:# 1.什么是特征降维 >降低的对象为二维数组 此处的降维为**降低特征**的个数 **降维是指在某些限定条件下,降低随机变量(特征)个数,得到一组“不相关”主变量的过程** ![image](https://img2023.cnblogs.com/blog/1914163/202306/19141 阅读全文
posted @ 2023-06-10 11:53 lipu123 阅读(225) 评论(0) 推荐(0) 编辑
摘要:# 1.数据集 **学习是可能用到的数据集** >训练集分为训练集和测试集 Kaggle https://www.kaggle.com/datasets 大数据竞赛平台 80 万科学家 真实数据 数据量巨大 UCI http://archive.ics.uci.edu/ml/ 收录了 559 个数据 阅读全文
posted @ 2023-06-09 22:11 lipu123 阅读(148) 评论(0) 推荐(0) 编辑
摘要:# 1 数据预处理 > **数据预处理是通过一些转换函数将特征数据转换成更加适合算法模型的特征数据过程** 例如: ![image](https://img2023.cnblogs.com/blog/1914163/202306/1914163-20230612105841612-156821624 阅读全文
posted @ 2023-06-08 22:43 lipu123 阅读(598) 评论(0) 推荐(0) 编辑
摘要:# 1.为什么要特征工程 >**业界广泛流传∶数据和特征决定了机器学习的上限,而模型和算法只是逼近这个上限而已。** # 2.什么是特征工程 > 意义:会直接影响机器学习的效果 sklearn 特征工程 pandas 数据清洗、数据处理 应用 DictVectorizer 实现对类别特征进行数值化、 阅读全文
posted @ 2023-06-08 09:17 lipu123 阅读(75) 评论(0) 推荐(0) 编辑
摘要:一:图像领域 包括人脸识别,街道交通信号识别 二:自然语言识别(NPL) 机器学习定义: 机器学习是从数据中自动分析获得模型,并利用模型对未知数据进行预测。 数据集的构成:特征值+目标值 机器学习的分类:1.监督学习(有一个目标的) 目标值:类别--分类问题(比如说识别猫狗,目标是一个类别) 目标值 阅读全文
posted @ 2023-06-06 21:03 lipu123 阅读(55) 评论(0) 推荐(0) 编辑

点击右上角即可分享
微信分享提示