2021 年 11月随笔档案 - paike123

4-spark core

摘要：一：spark 入门 1.1 spark概述 1、什么是spark 基于内存的计算引擎，它的计算速度非常快。但是仅仅只涉及到数据的计算，并没有涉及到数据的存储。 2、为什么要学习spark MapReduce框架局限性 1，Map结果写磁盘，Reduce写HDFS，多个MR之间通过HDFS交换数据阅读全文

posted @ 2021-11-24 17:39 paike123 阅读(55) 评论(0) 推荐(0) 编辑

3.hbase

摘要：一：HBase简介&在Hadoop生态中的地位 1.1 什么是HBase HBase是一个分布式的、面向列的开源数据库 HBase是Google BigTable的开源实现 HBase不同于一般的关系数据库, 适合非结构化数据存储 1.2 BigTable BigTable是Google设计的分布式阅读全文

posted @ 2021-11-19 14:32 paike123 阅读(127) 评论(0) 推荐(0) 编辑

2：hive

摘要：1 Hive简介 1.1 什么是 Hive Hive 由 Facebook 实现并开源，是基于 Hadoop 的一个数据仓库工具，可以将结构化的数据映射为一张数据库表，并提供 HQL(Hive SQL)查询功能，底层数据是存储在 HDFS 上。 Hive 本质: 将 SQL 语句转换为 MapRed 阅读全文

posted @ 2021-11-14 00:00 paike123 阅读(55) 评论(0) 推荐(0) 编辑

1.hadoop

摘要：1: hadoop 核心组件 Hadoop是所有搜索引擎的共性问题的廉价解决方案如何存储持续增长的海量网页: 单节点 V.S. 分布式存储如何对持续增长的海量网页进行排序: 超算 V.S. 分布式计算 HDFS 解决分布式存储问题 MapReduce 解决分布式计算问题 Hadoop Commo 阅读全文

posted @ 2021-11-13 23:41 paike123 阅读(64) 评论(0) 推荐(0) 编辑

4.决策树算法api

摘要：1决策树算法api class sklearn.tree.DecisionTreeClassifier(criterion=’gini’, max_depth=None,random_state=None) criterion 特征选择标准 "gini"或者"entropy"，前者代表基尼系数，后者阅读全文

posted @ 2021-11-06 22:48 paike123 阅读(114) 评论(0) 推荐(0) 编辑

3.决策树算法-特征工程-特征提取

摘要：什么是特征提取呢？ 1.1 定义将任意数据（如文本或图像）转换为可用于机器学习的数字特征注：特征值化是为了计算机更好的去理解数据特征提取分类: 字典特征提取(特征离散化) 文本特征提取图像特征提取（深度学习将介绍） 1.2 特征提取API sklearn.feature_extraction 阅读全文

posted @ 2021-11-06 22:32 paike123 阅读(773) 评论(0) 推荐(0) 编辑

2.决策树算法-cart剪枝

摘要：1 为什么要剪枝 •横轴表示在决策树创建过程中树的结点总数，纵轴表示决策树的预测精度。 •实线显示的是决策树在训练集上的精度，虚线显示的则是在一个独立的测试集上测量出来的精度。 •随着树的增长，在训练样集上的精度是单调上升的，然而在独立的测试样例上测出的精度先上升后下降。出现这种情况的原因： • 阅读全文

posted @ 2021-11-06 22:19 paike123 阅读(144) 评论(0) 推荐(0) 编辑

1. 决策树算法简介

摘要：1. 决策树算法简介决策树思想的来源非常朴素，程序设计中的条件分支结构就是if-else结构，最早的决策树就是利用这类结构分割数据的一种分类学习方法决策树：是一种树形结构，其中每个内部节点表示一个属性上的判断，每个分支代表一个判断结果的输出，最后每个叶节点代表一种分类结果，本质是一颗由多个判断节阅读全文

posted @ 2021-11-06 22:12 paike123 阅读(1165) 评论(0) 推荐(0) 编辑

3-Roc曲线绘制

摘要：关于ROC曲线的绘制过程，通过以下举例进行说明假设有6次展示记录，有两次被点击了，得到一个展示序列（1:1,2:0,3:1,4:0,5:0,6:0），前面的表示序号，后面的表示点击（1）或没有点击（0）。然后在这6次展示的时候都通过model算出了点击的概率序列。下面看三种情况。 1 曲线绘制阅读全文

posted @ 2021-11-06 10:12 paike123 阅读(327) 评论(0) 推荐(0) 编辑

2：逻辑回归-分类评估方法

摘要：1.分类评估方法 1.1 精确率与召回率 1.1.1 混淆矩阵在分类任务下，预测结果(Predicted Condition)与正确标记(True Condition)之间存在四种不同的组合，构成混淆矩阵(适用于多分类) 1.1.2 精确率(Precision)与召回率(Recall) 精确率：预阅读全文

posted @ 2021-11-06 10:08 paike123 阅读(205) 评论(0) 推荐(0) 编辑

1：逻辑回归介绍

摘要：逻辑回归（Logistic Regression）是机器学习中的一种分类模型，逻辑回归是一种分类算法，虽然名字中带有回归，但是它与回归之间有一定的联系。由于算法的简单和高效，在实际中应用非常广泛。 1 逻辑回归的应用场景广告点击率是否为垃圾邮件是否患病金融诈骗虚假账号看到上面的例子，我们阅读全文

posted @ 2021-11-06 09:23 paike123 阅读(423) 评论(0) 推荐(0) 编辑

5.线性回归-欠拟合和过拟合以及过拟合时的解决方法-正则化

摘要：1 定义过拟合：一个假设在训练数据上能够获得比其他假设更好的拟合，但是在测试数据集上却不能很好地拟合数据，此时认为这个假设出现了过拟合的现象。(模型过于复杂) 欠拟合：一个假设在训练数据上不能获得更好的拟合，并且在测试数据集上也不能很好地拟合数据，此时认为这个假设出现了欠拟合的现象。(模型过于简阅读全文

posted @ 2021-11-04 21:47 paike123 阅读(2131) 评论(0) 推荐(0) 编辑

4.线性回归api与波士顿房价预测案例

摘要：线性回归api再介绍 sklearn.linear_model.LinearRegression(fit_intercept=True) 通过正规方程优化 fit_intercept：是否计算偏置 LinearRegression.coef_：回归系数 LinearRegression.interc 阅读全文

posted @ 2021-11-04 21:15 paike123 阅读(266) 评论(0) 推荐(0) 编辑

3.线性回归-梯度下降算法简介

摘要：常见的梯度下降算法有：全梯度下降算法(Full gradient descent），随机梯度下降算法（Stochastic gradient descent），随机平均梯度下降算法（Stochastic average gradient descent）小批量梯度下降算法（Mini-batc 阅读全文

posted @ 2021-11-04 19:44 paike123 阅读(384) 评论(0) 推荐(0) 编辑

2.线性回归的损失和优化问题

摘要：思考：假设刚才的房子例子，真实的数据之间存在这样的关系真实关系：真实房子价格 = 0.02×中心区域的距离 + 0.04×城市一氧化氮浓度 + (-0.12×自住房平均房价) + 0.254×城镇犯罪率那么现在呢，我们随意指定一个关系（猜测）随机指定关系：预测房子价格 = 0.25×中心区域阅读全文

posted @ 2021-11-04 19:37 paike123 阅读(201) 评论(0) 推荐(0) 编辑

1.线性回归基础

摘要：1：线性回归简介 1：应用场景：房价预测，销售额度预测，带块额度预测 2：定义与公式：线性回归(Linear regression)是利用回归方程(函数)对一个或多个自变量(特征值)和因变量(目标值)之间关系进行建模的一种分析方式。特点：只有一个自变量的情况称为单变量回归，多于一个自变量情况的叫阅读全文

posted @ 2021-11-04 17:36 paike123 阅读(209) 评论(0) 推荐(0) 编辑

5 K-近邻算法实现鸢尾花种类预测

摘要：1 再识K-近邻算法API sklearn.neighbors.KNeighborsClassifier(n_neighbors=5,algorithm='auto') n_neighbors： int,可选（默认= 5），k_neighbors查询默认使用的邻居数 algorithm：{‘auto 阅读全文

posted @ 2021-11-03 09:53 paike123 阅读(128) 评论(0) 推荐(0) 编辑

4 特征工程-特征预处理

摘要：1 什么是特征预处理 1.1 特征预处理定义 scikit-learn的解释 provides several common utility functions and transformer classes to change raw feature vectors into a represen 阅读全文

posted @ 2021-11-03 09:47 paike123 阅读(71) 评论(0) 推荐(0) 编辑

3.scikit-learn中数据集介绍

摘要：1. scikit-learn数据集API介绍 sklearn.datasets 加载获取流行数据集 datasets.load_*() 获取小规模数据集，数据包含在datasets里 datasets.fetch_*(data_home=None) 获取大规模数据集，需要从网络上下载，函数的第一个阅读全文

posted @ 2021-11-03 09:34 paike123 阅读(266) 评论(0) 推荐(0) 编辑

2.kd树

摘要：1：kd简介 1.1 什么是kd树根据KNN每次需要预测一个点时，我们都需要计算训练数据集里每个点到这个点的距离，然后选出距离最近的k个点进行投票。当数据集很大时，这个计算成本非常高，针对N个样本，D个特征的数据集，其算法复杂度为O（DN^2）。 kd树：为了避免每次都重新计算一遍距离，算法会把距阅读全文

posted @ 2021-11-03 08:52 paike123 阅读(488) 评论(0) 推荐(0) 编辑

python 异步编程

摘要：1：协程协程不是操作系统提供的，是一种用户状态内的上下文切换技术，简言而之，其实就是通过一个线程实现代码块相互切换执行。 def func1(): print(1) ... print(2) def func2(): print(3) ... print(4) func1() func2() 上述阅读全文

posted @ 2021-11-02 10:49 paike123 阅读(1327) 评论(0) 推荐(1) 编辑

莫凡

11 2021 档案