无监督学习-K-means算法
摘要:1、 什么是无监督学习 一家广告平台需要根据相似的人口学特征和购买习惯将美国人口分成不同的小组,以便广告客户可以通过有关联的广告接触到他们的目标客户。 Airbnb 需要将自己的房屋清单分组成不同的社区,以便用户能更轻松地查阅这些清单。 一个数据科学团队需要降低一个大型数据集的维度的数量,以便简化建
阅读全文
posted @
2020-12-20 22:04
神秘杰尼龟
阅读(381)
推荐(0)
模型保存和加载
摘要:当训练或者计算好一个模型之后,那么如果别人需要我们提供结果预测,就需要保存模型(主要是保存算法的参数) 1、sklearn模型的保存和加载API from sklearn.externals import joblib 保存:joblib.dump(rf, 'test.pkl') 加载:estima
阅读全文
posted @
2020-12-20 21:56
神秘杰尼龟
阅读(128)
推荐(0)
分类算法-逻辑回归与二分类
摘要:逻辑回归(Logistic Regression)是机器学习中的一种分类模型,逻辑回归是一种分类算法,虽然名字中带有回归,但是它与回归之间有一定的联系。由于算法的简单和高效,在实际中应用非常广泛。 1、逻辑回归的应用场景 广告点击率 是否为垃圾邮件 是否患病 金融诈骗 虚假账号 看到上面的例子,我们
阅读全文
posted @
2020-12-20 21:54
神秘杰尼龟
阅读(1118)
推荐(0)
线性回归的改进-岭回归
摘要:1、 带有L2正则化的线性回归-岭回归 岭回归,其实也是一种线性回归。只不过在算法建立回归方程时候,加上正则化的限制,从而达到解决过拟合的效果 1.1 API sklearn.linear_model.Ridge(alpha=1.0, fit_intercept=True,solver="auto"
阅读全文
posted @
2020-12-20 21:46
神秘杰尼龟
阅读(197)
推荐(0)
欠拟合与过拟合
摘要:问题:训练数据训练的很好啊,误差也不大,为什么在测试集上面有问题呢? 当算法在某个数据集当中出现这种情况,可能就出现了过拟合现象。 1、 什么是过拟合与欠拟合 欠拟合 过拟合 分析 第一种情况:因为机器学习到的天鹅特征太少了,导致区分标准太粗糙,不能准确识别出天鹅。 第二种情况:机器已经基本能区别天
阅读全文
posted @
2020-12-20 21:45
神秘杰尼龟
阅读(617)
推荐(0)
线性回归
摘要:1、 线性回归的原理 1.1 线性回归应用场景 房价预测 销售额度预测 金融:贷款额度预测、利用线性回归以及系数分析因子 1.2 什么是线性回归 1.2.1定义与公式 线性回归(Linear regression)是利用回归方程(函数)对一个或多个自变量(特征值)和因变量(目标值)之间关系进行建模的
阅读全文
posted @
2020-12-20 21:41
神秘杰尼龟
阅读(1022)
推荐(0)
集成学习方法之随机森林
摘要:1、 什么是集成学习方法 集成学习通过建立几个模型组合的来解决单一预测问题。它的工作原理是生成多个分类器/模型,各自独立地学习和作出预测。这些预测最后结合成组合预测,因此优于任何一个单分类的做出预测。 2、 什么是随机森林 在机器学习中,随机森林是一个包含多个决策树的分类器,并且其输出的类别是由个别
阅读全文
posted @
2020-12-20 21:14
神秘杰尼龟
阅读(138)
推荐(0)
决策树
摘要:1、认识决策树 决策树思想的来源非常朴素,程序设计中的条件分支结构就是if-then结构,最早的决策树就是利用这类结构分割数据的一种分类学习方法 怎么理解这句话?通过一个对话例子 想一想这个女生为什么把年龄放在最上面判断!!!!!!!!! 2、决策树分类原理详解 为了更好理解决策树具体怎么分类的,我
阅读全文
posted @
2020-12-20 15:15
神秘杰尼龟
阅读(182)
推荐(0)
朴素贝叶斯算法
摘要:1、 什么是朴素贝叶斯分类方法 2、 概率基础 2.1 概率(Probability)定义 概率定义为一件事情发生的可能性 扔出一个硬币,结果头像朝上 某天是晴天 P(X) : 取值在[0, 1] 2.2 女神是否喜欢计算案例 在讲这两个概率之前我们通过一个例子,来计算一些结果: 问题如下: 那么其
阅读全文
posted @
2020-12-20 14:57
神秘杰尼龟
阅读(135)
推荐(0)
模型选择与调优
摘要:1、为什么需要交叉验证 交叉验证目的:为了让被评估的模型更加准确可信 2、什么是交叉验证(cross validation) 交叉验证:将拿到的训练数据,分为训练和验证集。以下图为例:将数据分成5份,其中一份作为验证集。然后经过5次(组)的测试,每次都更换不同的验证集。即得到5组模型的结果,取平均值
阅读全文
posted @
2020-12-20 14:46
神秘杰尼龟
阅读(161)
推荐(0)
K-近邻算法
摘要:问题:回忆分类问题的判定方法 什么是K-近邻算法 你的“邻居”来推断出你的类别 1、K-近邻算法(KNN) 1.1 定义 如果一个样本在特征空间中的k个最相似(即特征空间中最邻近)的样本中的大多数属于某一个类别,则该样本也属于这个类别。 来源:KNN算法最早是由Cover和Hart提出的一种分类算法
阅读全文
posted @
2020-12-20 14:39
神秘杰尼龟
阅读(229)
推荐(0)
sklearn转换器和估计器
摘要:转换器和估计器 1.1 转换器 想一下之前做的特征工程的步骤? 1、实例化 (实例化的是一个转换器类(Transformer)) 2、调用fit_transform(对于文档建立分类词频矩阵,不能同时调用) 我们把特征工程的接口称之为转换器,其中转换器调用有这么几种形式 fit_transform
阅读全文
posted @
2020-12-20 14:26
神秘杰尼龟
阅读(174)
推荐(0)
数据集介绍与划分
摘要:拿到的数据是否全部都用来训练一个模型? 1、 数据集的划分 机器学习一般的数据集会划分为两个部分: 训练数据:用于训练,构建模型 测试数据:在模型检验时使用,用于评估模型是否有效 划分比例: 训练集:70% 80% 75% 测试集:30% 20% 30% API sklearn.model_sele
阅读全文
posted @
2020-12-20 14:13
神秘杰尼龟
阅读(992)
推荐(0)
特征工程
摘要:2.1 特征工程 2.1.1 可用的数据集 Kaggle网址:https://www.kaggle.com/datasets UCI数据集网址: http://archive.ics.uci.edu/ml/ scikit-learn网址:http://scikit-learn.org/stable/
阅读全文
posted @
2020-12-17 16:17
神秘杰尼龟
阅读(280)
推荐(0)
人工智能概述
摘要:1.1.1 机器学习与人工智能、深度学习 人工智能范围 机器学习和人工智能,深度学习的关系 机器学习是人工智能的一个实现途径 深度学习是机器学习的一个方法发展而来 达特茅斯会议-人工智能的起点 1956年8月,在美国汉诺斯小镇宁静的达特茅斯学院中, 约翰·麦卡锡(John McCarthy) 马文·
阅读全文
posted @
2020-12-17 14:13
神秘杰尼龟
阅读(450)
推荐(0)
wget选项
摘要:wget调用 wget [option]… [URL]… wget [选项]…[ URL ]… Wget只会下载命令行中指定的所有URL。 URL是统一资源定位符,定义如下。 但是,可能希望更改Wget的某些默认参数。可以通过两种方式执行此操作:永久性地将适当的命令添加到.wgetrc,或在命令行上
阅读全文
posted @
2020-12-10 22:05
神秘杰尼龟
阅读(268)
推荐(0)
wget参数
摘要:#wget参数详解 wget 是一个从网络上自动下载文件的自由工具,支持通过 HTTP、HTTPS、FTP 三个最常见的 TCP/IP协议 下载,并可以使用 HTTP 代理。 启动参数 这一类参数主要提供软件的一些基本信息。 -V,--version 显示软件版本号然后退出; -h,--help 显
阅读全文
posted @
2020-12-09 22:37
神秘杰尼龟
阅读(1022)
推荐(0)