摘要: 进入cd /usr/local/flume/conf/ vi kafka.conf 配置 agent.sources=s1 agent.channels=c1 agent.sinks=k1 agent.sources.s1.type=exec agent.sources.s1.command=tai 阅读全文
posted @ 2019-07-25 20:48 王坤华的博客 阅读(213) 评论(0) 推荐(0) 编辑
摘要: 官方文档 rz上传到/usr/local/下 解压 tar xzvf 文件 改名 mv 文件 名字 环境变量 vi /etc/profile export KAFKA_HOME=/usr/local/kafka 生成环境变量 source /etc/profile 启动zkServer.sh sta 阅读全文
posted @ 2019-07-25 20:42 王坤华的博客 阅读(399) 评论(0) 推荐(0) 编辑
摘要: 安装包 1.得到软件包 azkaban-executor-server-2.5.0.tar.gz azkaban-sql-script-2.5.0.tar.gz azkaban-web-server-2.5.0.tar.gz 2.在/usr/local下创建azkaban目录 mkdir -p /u 阅读全文
posted @ 2019-07-25 20:24 王坤华的博客 阅读(359) 评论(0) 推荐(0) 编辑
摘要: flume执行原理 是什么 三大可新组件 1.源端采集了理数据给他传输了管道中,管道加载的数据传输到下沉端,在传输到 2. 安装flume 压缩包 上传到 cd /usr/local/ 目录下 手动输入 解压 tar xzvf apache-flume-1.8.0-bin.tar 改名 mv apa 阅读全文
posted @ 2019-07-25 18:19 王坤华的博客 阅读(177) 评论(0) 推荐(0) 编辑
摘要: zookeeper是一个管理的作用 zookeeper有一个老大叫:leader。跟着老大的有两个小弟follwer,follwer 叫做跟随者 连接zookeeper的六个节点我们称它为客户端 zookeeper同步每个集群中的线程 zookeeper是单个存在的 阅读全文
posted @ 2019-07-25 18:05 王坤华的博客 阅读(124) 评论(0) 推荐(0) 编辑
摘要: 安装ZOOKEEPER 将压缩包上传到 /usr/local下 解压 tar xzvf zookeeper-3.4.8.tar.gz 给解压后的文件目录改名 mv zookeeper-3.4.8 zookeeper 修改环境变量 export ZOOKEEPER_HOME=/usr/local/zo 阅读全文
posted @ 2019-07-25 18:04 王坤华的博客 阅读(120) 评论(0) 推荐(0) 编辑
摘要: select * from emp where comm is null or comm=0;/*没有提成的员工*/ 查询有提成的员工所有信息 select * from emp where comm is not null and comm>0;/*有提成的员工*/ 找出有奖金的员工的不同工作,不 阅读全文
posted @ 2019-07-25 18:00 王坤华的博客 阅读(150) 评论(0) 推荐(0) 编辑
摘要: MYSQL数据库安装文档 本文档是MYSQL-5.6.25/5.7.X MARIADB在CENTOS 6.5 64位版本上安装的文档,经过测试并没有发现问题。 安装以前先查看服务器里是否有老版本的MYSQL已经被安装了 rpm -qa |grep mysql 如果有就删除掉旧版本的MYSQL即可 r 阅读全文
posted @ 2019-07-25 17:45 王坤华的博客 阅读(95) 评论(0) 推荐(0) 编辑
摘要: 查看当前实例下有多少个数据库 show databases; 查看表 show tables; 创建数据库 create database jili; 使用数据库 use jili; 删除数据库 drop database jili; 建表 create table xxxx (字段 字段类型。。。 阅读全文
posted @ 2019-07-25 17:45 王坤华的博客 阅读(119) 评论(0) 推荐(0) 编辑
摘要: 第一节:HBase能做什么? 第一节:HBase能做什么? 第一节:HBase能做什么? 1.海量数据存储。2.准实时查询。 上百亿行*上百亿列,实现百毫秒查询。 hbase应用于海量数据存储,只有当数据量非常大的时候,Hbase才能发挥其相应的威力。比如几百万的数据量,是完全没有必要用到Hbase 阅读全文
posted @ 2019-07-25 17:41 王坤华的博客 阅读(152) 评论(0) 推荐(0) 编辑
摘要: 上传hbase-1.2.6-bin.tar.gz 到/usr/local tar xf hbase-1.2.6-bin.tar.gz mv hbase-1.2.6 hbase vim /etc/profile #添加环境变量 export HBASE_HOME=/usr/local/hbase :$ 阅读全文
posted @ 2019-07-25 17:38 王坤华的博客 阅读(115) 评论(0) 推荐(0) 编辑
摘要: 我们从这里开始? what is hive? Hive最初是应Facebook每天产生的海量新兴社会网络数据进行管理和机器学习的需求而产生和发展的。那么,到底什么是Hive,我们先看看Hive官网Wiki是如何介绍Hive的: https://cwiki.apache.org/confluence/ 阅读全文
posted @ 2019-07-25 17:30 王坤华的博客 阅读(570) 评论(0) 推荐(0) 编辑
摘要: 一 为什么要学习HIVE? 为什么不是ORACLE和MYSQL? 因为大数据时代 数据量成几何倍数增长,并且数据量非常庞大。大到要用PB EB这种量级去衡量。而我们的ORACLE/MYQL这种数据库是TB级数据库,所以远远的达不到大数据时代对数据的要求。 还有由于大数据工程师主要来自两个方向: 第一 阅读全文
posted @ 2019-07-25 17:18 王坤华的博客 阅读(610) 评论(0) 推荐(0) 编辑
摘要: HIVE的连接模式== 本地连接模式 直接启动hive命令 HIVE的远程连接 这里要启动HIVE的服务 thirft进行编写 hiveserver2 —- > 前台启动 后台启动 前台启动 hiveserver2 后台启动 hiveserver2 & beeline !connect jdbc:h 阅读全文
posted @ 2019-07-25 17:17 王坤华的博客 阅读(4927) 评论(0) 推荐(0) 编辑
摘要: 分区表 在Hive Select查询中,一般会扫描整个表内容(HDFS上文件的内容),会消耗很多时间做没必要的工作。分区表指的是在创建表时,指定partition的分区空间。 庞大的数据集可能需要耗费大量的时间去处理。在许多场景下,可以通过分区或切片的方法减少每一次扫描总数据量,这种做法可以显著地改 阅读全文
posted @ 2019-07-25 17:15 王坤华的博客 阅读(667) 评论(0) 推荐(0) 编辑
摘要: CREATE TABLE A (X STRING); CREATE TABLE () 语句已经定义完成。数据库定义完成。进行直接解释 select找一张表的流程 表所在的库 >在库下找所在的表 HIVE CREATE TABLE A (wangxiaojia int); MYSQL INERT IN 阅读全文
posted @ 2019-07-25 17:13 王坤华的博客 阅读(204) 评论(0) 推荐(0) 编辑
摘要: 1 老三样 2 开启hadoop 完全开启 start-all.sh 3 确认我们的MYSQL处在工作状态 4 修改HIVE的配置文件 cd /usr/local/hive/conf hive-2.x cp hive-env.sh.template hive-env.sh cp hive-defau 阅读全文
posted @ 2019-07-25 17:08 王坤华的博客 阅读(284) 评论(0) 推荐(0) 编辑