摘要: 1.随机森林算法采用Bootstrap(有放回的随机采样)采样从样本集中选出n个样本,但是更进一步,它从所以属性中随机选取K个属性,然后再选择最佳分割属性最为节点建立CART决策树。随机森林算法进行了两次采样。重复以上步骤k次,建立k棵CART决策树,这k颗CART决策树构成随机森林,通过投票的方式 阅读全文
posted @ 2019-11-09 15:12 煮酒一笑观花 阅读(367) 评论(0) 推荐(0) 编辑
摘要: 1. 决策树(decision tree):是一种基本的分类与回归方法,分类树对离散变量做决策树,回归树对连续变量做决策树 在分类问题中,表示基于特征对实例进行分类的过程,可以认为是if-then的集合,也可以认为是定义在特征空间与类空间上的条件概率分布。 2. 决策树的基本思想是以信息熵为变量构造 阅读全文
posted @ 2019-11-06 16:01 煮酒一笑观花 阅读(115) 评论(0) 推荐(0) 编辑
摘要: 自增和自减运算符是单目运算符,可以放在操作元之前,也可以放在操作元之后。操作元必须是一个整型或浮点型变量。 ++a(--a) : 表示在使用变量a之前,先使a的值加(减)1 a++(a--) : 表示在使用变量a之后,使a的值加(减)1 eg:a=4 b=++a; //先将a的值加1,然后赋值给b, 阅读全文
posted @ 2019-04-23 14:33 煮酒一笑观花 阅读(994) 评论(1) 推荐(0) 编辑
摘要: 1. sudo docker pull microsoft/mssql-server-linux:2017-latest 2. sudo docker run -e 'ACCEPT_EULA=Y' -e 'MSSQL_SA_PASSWORD=Root123456!' -p 1433:1433 --n 阅读全文
posted @ 2019-01-08 10:20 煮酒一笑观花 阅读(516) 评论(0) 推荐(0) 编辑
摘要: 1. sudo yum install -y yum-utils device-mapper-persistent-data lvm2 2. sudo yum-config-manager --add-repo http://mirrors.aliyun.com/docker-ce/linux/ce 阅读全文
posted @ 2019-01-08 10:18 煮酒一笑观花 阅读(382) 评论(0) 推荐(0) 编辑
摘要: 1.说明: Spark Standalone 集群是Master--Slaves架构的集群模式,和大部分的Master--Slaves 结构集群一样,存在着Master单点故障的问题。Spark提供了两种解决方案去解决这个单点故障的问题; 方案一:基于文件系统的单点恢复 主要用于开发或测试环境,sp 阅读全文
posted @ 2018-12-04 10:09 煮酒一笑观花 阅读(1760) 评论(0) 推荐(0) 编辑
摘要: 1. 下载spark安装包下载地址spark官网:http://spark.apache.org/downloads.html这里我们使用 spark-2.0.2-bin-hadoop2.7版本. 2. 规划安装目录/opt/bigdata 3 .解压安装包tar -zxvf spark-2.0.2 阅读全文
posted @ 2018-12-03 10:15 煮酒一笑观花 阅读(205) 评论(0) 推荐(0) 编辑
摘要: 1.什么是Spark spark是一种快速,通用,可扩展的大数据分析引擎,集成了大数据相关的各种能力。Hadoop的中间结果需要存储在硬盘上,这就产生了较高的延迟。而Spark基于内存计算,解决了这个延迟的速度问题。Spark本身可以直接读写Hadoop上任何格式数据,这使得批处理更加快速。 2.为 阅读全文
posted @ 2018-12-03 09:54 煮酒一笑观花 阅读(124) 评论(0) 推荐(0) 编辑
摘要: 单机版部署: tar -xvf hbase-2.1.0-bin.tar.gz -C /export/servers/ cd /export/servers/hbase-2.1.0 rm -rf docs #配置环境变量 vim /etc/profile export HBASE_HOME=/expo 阅读全文
posted @ 2018-11-22 11:30 煮酒一笑观花 阅读(155) 评论(0) 推荐(0) 编辑
摘要: 1.Hbase是一个用java语言实现的,构建于Hadoop分布式系统(HDFS)上的分布式数据库。 2.HBase的特点: a:海量存储 b:列式存储(可以针对列进行权限控制和读取) c:多版本:根据时间戳存储不同版本的数据 d:稀疏性: 1. 为空的列不占用实际存储空间 2.传统数据库为空的列依 阅读全文
posted @ 2018-11-22 11:26 煮酒一笑观花 阅读(114) 评论(0) 推荐(0) 编辑