03 2023 档案
摘要:分类算法之逻辑回归 逻辑回归(Logistic Regression),简称LR。它的特点是能够是我们的特征输入集合转化为0和1这两类的概率。一般来说,回归不用在分类问题上,因为回归是连续型模型,而且受噪声影响比较大。如果非要应用进入,可以使用逻辑回归。了解过线性回归之后再来看逻辑回归可以更好的理解
阅读全文
摘要:线性回归 波士顿房价预测案例 步骤 导入数据 数据分割 数据标准化 正规方程预测 梯度下降预测 # 导入模块 import pandas as pd # 导入数据 from sklearn.model_selection import train_test_split # 数据分割 from skl
阅读全文
摘要:分类算法之决策树 决策树是一种基本的分类方法,当然也可以用于回归。我们一般只讨论用于分类的决策树。决策树模型呈树形结构。在分类问题中,表示基于特征对实例进行分类的过程,它可以认为是if-then规则的集合。在决策树的结构中,每一个实例都被一条路径或者一条规则所覆盖。通常决策树学习包括三个步骤:特征选
阅读全文
摘要:模型检验-交叉验证 一般在进行模型的测试时,我们会将数据分为训练集和测试集。在给定的样本空间中,拿出大部分样本作为训练集来训练模型,剩余的小部分样本使用刚建立的模型进行预测。 训练集与测试集 训练集与测试集的分割可以使用cross_validation中的train_test_split方法,大部分
阅读全文
摘要:分类算法之k-近邻 k-近邻算法采用测量不同特征值之间的距离来进行分类 优点:精度高、对异常值不敏感、无数据输入假定 缺点:计算复杂度高、空间复杂度高 使用数据范围:数值型和标称型 一个例子弄懂k-近邻 电影可以按照题材分类,每个题材又是如何定义的呢?那么假如两种类型的电影,动作片和爱情片。动作片有
阅读全文
摘要:scikit-learn数据集 我们将介绍sklearn中的数据集类,模块包括用于加载数据集的实用程序,包括加载和获取流行参考数据集的方法。它还具有一些人工数据生成器。 sklearn.datasets (1)datasets.load_*() 获取小规模数据集,数据包含在datasets里 (2)
阅读全文
摘要:特征降维 降维 PCA(Principal component analysis),主成分分析。特点是保存数据集中对方差影响最大的那些特征,PCA极其容易受到数据中特征范围影响,所以在运用PCA前一定要做特征标准化,这样才能保证每维度特征的重要性等同。 sklearn.decomposition.P
阅读全文
摘要:数据的特征预处理 单个特征 (1)归一化 归一化首先在特征(维度)非常多的时候,可以防止某一维或某几维对数据影响过大,也是为了把不同来源的数据统一到一个参考区间下,这样比较起来才有意义,其次可以程序可以运行更快。 例如:一个人的身高和体重两个特征,假如体重50kg,身高175cm,由于两个单位不一样
阅读全文
摘要:数据的特征抽取 现实世界中多数特征都不是连续变量,比如分类、文字、图像等,为了对非连续变量做特征表述,需要对这些特征做数学化表述,因此就用到了特征提取. sklearn.feature_extraction提供了特征提取的很多方法 分类特征变量提取 我们将城市和环境作为字典数据,来进行特征的提取。
阅读全文
摘要:设计思想 hadoop2.x启用了主备节点切换模式(1主1备) 当主节点出现异常的时候,集群直接将备用节点切换成主节点 要求备用节点马上就要工作 主备节点内存几乎同步 有独立的线程对主备节点进行监控健康状态 需要有一定的选举机制,帮助我们确定主从关系 我们需要实时存储日志的中间件 ActiveNam
阅读全文
摘要:HDFS 写入数据流程 宏观流程 | No | 步骤 | 详情 | | : | : | : | | 1 | 客户端向HDFS发送写数据请求 | hdfs dfs -put tomcat.tar.gz /bdg/ | | 2 | filesystem通过rpc调用namenode的create方法 |
阅读全文
摘要:安全模式 集群启动时的一个状态 安全模式是HDFS的一种工作状态,处于安全模式的状态下,只向客户端提供文件的只读视图,不接受对命名空间的修改;同时NameNode节点也不会进行数据块的复制或者删除 NameNode启动时 首先将镜像文件(fsimage)载入内存,并执行编辑日志(edits)中的各项
阅读全文
摘要:文件的数据类型 文件有一个stat命令 元数据信息-->描述文件的属性 文件有一个vim命令 查看文件的数据信息 分类 元数据 File 文件名 Size 文件大小(字节) Blocks 文件使用的数据块总数 IO Block 数据块的大小 regular file:文件类型(常规文件) Devic
阅读全文
摘要:Hadoop集群搭建笔记 本文档在最小化安装centos7后的操作。 首先,对于大数据集群提前进行主机名、IP地址、主次服务的规划: node01 :192.168.135.80 NN DN node02 :192.168.135.81 DN node03 :192.168.135.82 DN SN
阅读全文
摘要:Hadoop Model Hadoop Common 基础型功能 Hadoop Distributed File System 负责存放数据 YARN 负责资源的调配 MapReduce 大数据的计算框架 Ozone 数据存放到仓库 Hadoop Submarine 机器学习引擎 分布式文件系统架构
阅读全文