11 2021 档案

4-spark core
摘要:一:spark 入门 1.1 spark概述 1、什么是spark 基于内存的计算引擎,它的计算速度非常快。但是仅仅只涉及到数据的计算,并没有涉及到数据的存储。 2、为什么要学习spark MapReduce框架局限性 1,Map结果写磁盘,Reduce写HDFS,多个MR之间通过HDFS交换数据 阅读全文

posted @ 2021-11-24 17:39 paike123 阅读(55) 评论(0) 推荐(0) 编辑

3.hbase
摘要:一:HBase简介&在Hadoop生态中的地位 1.1 什么是HBase HBase是一个分布式的、面向列的开源数据库 HBase是Google BigTable的开源实现 HBase不同于一般的关系数据库, 适合非结构化数据存储 1.2 BigTable BigTable是Google设计的分布式 阅读全文

posted @ 2021-11-19 14:32 paike123 阅读(127) 评论(0) 推荐(0) 编辑

2:hive
摘要:1 Hive简介 1.1 什么是 Hive Hive 由 Facebook 实现并开源,是基于 Hadoop 的一个数据仓库工具,可以将结构化的数据映射为一张数据库表,并提供 HQL(Hive SQL)查询功能,底层数据是存储在 HDFS 上。 Hive 本质: 将 SQL 语句转换为 MapRed 阅读全文

posted @ 2021-11-14 00:00 paike123 阅读(55) 评论(0) 推荐(0) 编辑

1.hadoop
摘要:1: hadoop 核心组件 Hadoop是所有搜索引擎的共性问题的廉价解决方案 如何存储持续增长的海量网页: 单节点 V.S. 分布式存储 如何对持续增长的海量网页进行排序: 超算 V.S. 分布式计算 HDFS 解决分布式存储问题 MapReduce 解决分布式计算问题 Hadoop Commo 阅读全文

posted @ 2021-11-13 23:41 paike123 阅读(64) 评论(0) 推荐(0) 编辑

4.决策树算法api
摘要:1决策树算法api class sklearn.tree.DecisionTreeClassifier(criterion=’gini’, max_depth=None,random_state=None) criterion 特征选择标准 "gini"或者"entropy",前者代表基尼系数,后者 阅读全文

posted @ 2021-11-06 22:48 paike123 阅读(114) 评论(0) 推荐(0) 编辑

3.决策树算法-特征工程-特征提取
摘要:什么是特征提取呢? 1.1 定义 将任意数据(如文本或图像)转换为可用于机器学习的数字特征 注:特征值化是为了计算机更好的去理解数据 特征提取分类: 字典特征提取(特征离散化) 文本特征提取 图像特征提取(深度学习将介绍) 1.2 特征提取API sklearn.feature_extraction 阅读全文

posted @ 2021-11-06 22:32 paike123 阅读(773) 评论(0) 推荐(0) 编辑

2.决策树算法-cart剪枝
摘要:1 为什么要剪枝 •横轴表示在决策树创建过程中树的结点总数,纵轴表示决策树的预测精度。 •实线显示的是决策树在训练集上的精度,虚线显示的则是在一个独立的测试集上测量出来的精度。 •随着树的增长,在训练样集上的精度是单调上升的, 然而在独立的测试样例上测出的精度先上升后下降。 出现这种情况的原因: • 阅读全文

posted @ 2021-11-06 22:19 paike123 阅读(144) 评论(0) 推荐(0) 编辑

1. 决策树算法简介
摘要:1. 决策树算法简介 决策树思想的来源非常朴素,程序设计中的条件分支结构就是if-else结构,最早的决策树就是利用这类结构分割数据的一种分类学习方法 决策树:是一种树形结构,其中每个内部节点表示一个属性上的判断,每个分支代表一个判断结果的输出,最后每个叶节点代表一种分类结果,本质是一颗由多个判断节 阅读全文

posted @ 2021-11-06 22:12 paike123 阅读(1165) 评论(0) 推荐(0) 编辑

3-Roc曲线绘制
摘要:关于ROC曲线的绘制过程,通过以下举例进行说明 假设有6次展示记录,有两次被点击了,得到一个展示序列(1:1,2:0,3:1,4:0,5:0,6:0),前面的表示序号,后面的表示点击(1)或没有点击(0)。 然后在这6次展示的时候都通过model算出了点击的概率序列。 下面看三种情况。 1 曲线绘制 阅读全文

posted @ 2021-11-06 10:12 paike123 阅读(327) 评论(0) 推荐(0) 编辑

2:逻辑回归-分类评估方法
摘要:1.分类评估方法 1.1 精确率与召回率 1.1.1 混淆矩阵 在分类任务下,预测结果(Predicted Condition)与正确标记(True Condition)之间存在四种不同的组合,构成混淆矩阵(适用于多分类) 1.1.2 精确率(Precision)与召回率(Recall) 精确率:预 阅读全文

posted @ 2021-11-06 10:08 paike123 阅读(205) 评论(0) 推荐(0) 编辑

1:逻辑回归介绍
摘要:逻辑回归(Logistic Regression)是机器学习中的一种分类模型,逻辑回归是一种分类算法,虽然名字中带有回归,但是它与回归之间有一定的联系。由于算法的简单和高效,在实际中应用非常广泛。 1 逻辑回归的应用场景 广告点击率 是否为垃圾邮件 是否患病 金融诈骗 虚假账号 看到上面的例子,我们 阅读全文

posted @ 2021-11-06 09:23 paike123 阅读(423) 评论(0) 推荐(0) 编辑

5.线性回归-欠拟合和过拟合以及过拟合时的解决方法-正则化
摘要:1 定义 过拟合:一个假设在训练数据上能够获得比其他假设更好的拟合, 但是在测试数据集上却不能很好地拟合数据,此时认为这个假设出现了过拟合的现象。(模型过于复杂) 欠拟合:一个假设在训练数据上不能获得更好的拟合,并且在测试数据集上也不能很好地拟合数据,此时认为这个假设出现了欠拟合的现象。(模型过于简 阅读全文

posted @ 2021-11-04 21:47 paike123 阅读(2131) 评论(0) 推荐(0) 编辑

4.线性回归api与波士顿房价预测案例
摘要:线性回归api再介绍 sklearn.linear_model.LinearRegression(fit_intercept=True) 通过正规方程优化 fit_intercept:是否计算偏置 LinearRegression.coef_:回归系数 LinearRegression.interc 阅读全文

posted @ 2021-11-04 21:15 paike123 阅读(266) 评论(0) 推荐(0) 编辑

3.线性回归-梯度下降算法简介
摘要:常见的梯度下降算法有: 全梯度下降算法(Full gradient descent), 随机梯度下降算法(Stochastic gradient descent), 随机平均梯度下降算法(Stochastic average gradient descent) 小批量梯度下降算法(Mini-batc 阅读全文

posted @ 2021-11-04 19:44 paike123 阅读(384) 评论(0) 推荐(0) 编辑

2.线性回归的损失和优化问题
摘要:思考: 假设刚才的房子例子,真实的数据之间存在这样的关系 真实关系:真实房子价格 = 0.02×中心区域的距离 + 0.04×城市一氧化氮浓度 + (-0.12×自住房平均房价) + 0.254×城镇犯罪率 那么现在呢,我们随意指定一个关系(猜测) 随机指定关系:预测房子价格 = 0.25×中心区域 阅读全文

posted @ 2021-11-04 19:37 paike123 阅读(201) 评论(0) 推荐(0) 编辑

1.线性回归基础
摘要:1:线性回归简介 1:应用场景:房价预测,销售额度预测,带块额度预测 2:定义与公式: 线性回归(Linear regression)是利用回归方程(函数)对一个或多个自变量(特征值)和因变量(目标值)之间关系进行建模的一种分析方式。 特点:只有一个自变量的情况称为单变量回归,多于一个自变量情况的叫 阅读全文

posted @ 2021-11-04 17:36 paike123 阅读(209) 评论(0) 推荐(0) 编辑

5 K-近邻算法实现鸢尾花种类预测
摘要:1 再识K-近邻算法API sklearn.neighbors.KNeighborsClassifier(n_neighbors=5,algorithm='auto') n_neighbors: int,可选(默认= 5),k_neighbors查询默认使用的邻居数 algorithm:{‘auto 阅读全文

posted @ 2021-11-03 09:53 paike123 阅读(128) 评论(0) 推荐(0) 编辑

4 特征工程-特征预处理
摘要:1 什么是特征预处理 1.1 特征预处理定义 scikit-learn的解释 provides several common utility functions and transformer classes to change raw feature vectors into a represen 阅读全文

posted @ 2021-11-03 09:47 paike123 阅读(71) 评论(0) 推荐(0) 编辑

3.scikit-learn中数据集介绍
摘要:1. scikit-learn数据集API介绍 sklearn.datasets 加载获取流行数据集 datasets.load_*() 获取小规模数据集,数据包含在datasets里 datasets.fetch_*(data_home=None) 获取大规模数据集,需要从网络上下载,函数的第一个 阅读全文

posted @ 2021-11-03 09:34 paike123 阅读(266) 评论(0) 推荐(0) 编辑

2.kd树
摘要:1:kd简介 1.1 什么是kd树 根据KNN每次需要预测一个点时,我们都需要计算训练数据集里每个点到这个点的距离,然后选出距离最近的k个点进行投票。当数据集很大时,这个计算成本非常高,针对N个样本,D个特征的数据集,其算法复杂度为O(DN^2)。 kd树:为了避免每次都重新计算一遍距离,算法会把距 阅读全文

posted @ 2021-11-03 08:52 paike123 阅读(488) 评论(0) 推荐(0) 编辑

python 异步编程
摘要:1:协程 协程不是操作系统提供的,是一种用户状态内的上下文切换技术,简言而之,其实就是通过一个线程实现代码块相互切换执行。 def func1(): print(1) ... print(2) def func2(): print(3) ... print(4) func1() func2() 上述 阅读全文

posted @ 2021-11-02 10:49 paike123 阅读(1327) 评论(0) 推荐(1) 编辑

导航

< 2025年3月 >
23 24 25 26 27 28 1
2 3 4 5 6 7 8
9 10 11 12 13 14 15
16 17 18 19 20 21 22
23 24 25 26 27 28 29
30 31 1 2 3 4 5
点击右上角即可分享
微信分享提示