05 2019 档案

摘要:BulkLoad加载文件到HBase表 1、功能 将本地数据导入到HBase中 2、原理 BulkLoad会将tsv/csv格式的文件编程hfile文件,然后再进行数据的导入,这样可以避免大量数据导入时造成的集群写入压力过大。 3、作用 4、案例 Step1、配置临时环境变量 $ export HB 阅读全文
posted @ 2019-05-31 00:05 zhangqi0828 阅读(657) 评论(0) 推荐(0) 编辑
摘要:HBase Shell 1、status 例如:显示服务器状态 2、whoami 显示HBase当前用户,例如: 3、list 显示当前所有的表 4、count 统计指定表的记录数,例如: 5、describe 展示表结构信息 6、exists 检查表是否存在,适用于表量特别多的情况 7、is_en 阅读全文
posted @ 2019-05-31 00:05 zhangqi0828 阅读(77) 评论(0) 推荐(0) 编辑
摘要:Base节点的管理 1、服役(commissioning) 当启动regionserver时,regionserver会向Hmaster注册并开始接收本地数据,开始的时候,新加入的节点不会有任何数据,平衡器开启的情况下,将会有新的region移动到开启的RegionServer上。如果启动和停止进程 阅读全文
posted @ 2019-05-31 00:05 zhangqi0828 阅读(795) 评论(0) 推荐(0) 编辑
摘要:HBase读写流程 1、HBase读数据流程 HRegionServer保存着meta表以及表数据,要访问表数据,首先Client先去访问zookeeper,从zookeeper里面获取meta表所在的位置信息,即找到这个meta表在哪个HRegionServer上保存着。 接着Client通过刚才 阅读全文
posted @ 2019-05-30 15:00 zhangqi0828 阅读(532) 评论(0) 推荐(0) 编辑
摘要:Hbase的API操作 一、解压Maven离线仓库到指定的目录 我这次使用的是linux环境下的eclipse来进行操作的,所以我们先配置linux的maven仓库,当然你也可以在window环境下进行操作然后打成jar包在linux下进行执行。 二、编写相应的代码 使用api进行hbase的创建表 阅读全文
posted @ 2019-05-30 15:00 zhangqi0828 阅读(397) 评论(0) 推荐(0) 编辑
摘要:HBase表数据的转移 在Hadoop阶段,我们编写的MR任务分别进程了Mapper和Reducer两个类,而在HBase中我们需要继承的是TableMapper和TableReducer两个类。 目标:将fruit表中的一部分数据,通过MR迁入到fruit_mr表中 Step1、构建ReadFru 阅读全文
posted @ 2019-05-29 00:34 zhangqi0828 阅读(360) 评论(0) 推荐(0) 编辑
摘要:HBase和Hadoop的集群类型 1、单机模式 主要用于开发工作,一台机器上运行所有的守护进程,或者一台机器运行多个虚拟机。一般用于评估和测试。 2、小型集群 20台机器以内的集群,不同的机器运行不同的守护进程,适用于数据量和处理请求较少的小型生产环境。 3、中型集群 20到1000台机器集群,3 阅读全文
posted @ 2019-05-29 00:34 zhangqi0828 阅读(1239) 评论(0) 推荐(0) 编辑
摘要:我们虚拟机所有的默认设置都在.metadata的文件夹中,如果我们的测试中需要将虚拟机的所有的设置恢复到原始设置,那么只需要删除。metadata文件夹即可。 阅读全文
posted @ 2019-05-28 19:35 zhangqi0828 阅读(4769) 评论(0) 推荐(0) 编辑
摘要:1、进入HBase客户端命令操作界面 2、查看帮助命令 3、查看当前数据库中有哪些表 4、创建一张表 5、向表中存储一些数据 6、扫描查看存储的数据 或:查看某个rowkey范围内的数据 7、查看表结构 8、更新指定字段的数据 查看更新后的数据: 9、查看指定行的数据 或:查看指定行指定列或列族的数 阅读全文
posted @ 2019-05-28 09:42 zhangqi0828 阅读(316) 评论(0) 推荐(0) 编辑
摘要:1、确保HBase集群已正常停止 2、在conf目录下创建backup-masters文件 3、在backup-masters文件中配置高可用HMaster节点 4、将整个conf目录scp到其他节点 5、打开页面测试 http://hadoop-senior01.itguigu.com:60010 阅读全文
posted @ 2019-05-28 09:36 zhangqi0828 阅读(160) 评论(0) 推荐(0) 编辑
摘要:1、Zookeeper集群的正常部署并启动 2、Hadoop集群的正常部署并启动 3、解压HBase 4、修改HBase配置文件 hbase-env.sh hbase-env.sh hbase-site.xml hbase-site.xml regionservers (集群域名) regionse 阅读全文
posted @ 2019-05-28 09:30 zhangqi0828 阅读(863) 评论(0) 推荐(0) 编辑
摘要:短路的意思就是惰性计算,符号右边的就不进行计算了. ||和&&就是这样, 阅读全文
posted @ 2019-05-27 15:08 zhangqi0828 阅读(3826) 评论(0) 推荐(1) 编辑
摘要:常用命令列举 这里给大家列出来了一部分Sqoop操作时的常用参数,以供参考,需要深入学习的可以参看对应类的源代码。 序号 命令 类 说明 1 import ImportTool 将数据导入到集群 2 export ExportTool 将集群数据导出 3 codegen CodeGenTool 获取 阅读全文
posted @ 2019-05-27 10:36 zhangqi0828 阅读(7167) 评论(1) 推荐(0) 编辑
摘要:导入数据(集群为对象) 在Sqoop中“导入”概念指:从非大数据集群(RDBMS)向大数据集群(HDFS,HIVE,HBASE)中传输数据,叫做:导入,即使用import关键字。 1 RDBMS到HDFS 1) 确定Mysql服务开启正常 2) 在Mysql中新建一张表并插入一些数据 3) 导入数据 阅读全文
posted @ 2019-05-27 10:35 zhangqi0828 阅读(430) 评论(0) 推荐(0) 编辑
摘要:导出数据 在Sqoop中,“导出”概念指:从大数据集群(HDFS,HIVE,HBASE)向非大数据集群(RDBMS)中传输数据,叫做:导出,即使用export关键字。 HIVE/HDFS到RDBMS 提示:Mysql中如果表不存在,不会自动创建 脚本打包 使用opt格式的文件打包sqoop命令,然后 阅读全文
posted @ 2019-05-27 10:35 zhangqi0828 阅读(871) 评论(0) 推荐(0) 编辑
摘要:Sqoop安装 安装Sqoop的前提是已经具备Java和Hadoop的环境。(sqoop底层原理还是mapreduce的输入和输出) 3.1 下载并解压 1) 下载地址:http://mirrors.hust.edu.cn/apache/sqoop/1.4.6/ 2) 上传安装包sqoop-1.4. 阅读全文
posted @ 2019-05-26 20:28 zhangqi0828 阅读(171) 评论(0) 推荐(0) 编辑
摘要:Sqoop简介 Sqoop是一款开源的工具,主要用于在Hadoop(Hive)与传统的数据库(mysql、postgresql...)间进行数据的传递,可以将一个关系型数据库(例如 : MySQL ,Oracle ,Postgres等)中的数据导进到Hadoop的HDFS中,也可以将HDFS的数据导 阅读全文
posted @ 2019-05-26 20:23 zhangqi0828 阅读(2411) 评论(0) 推荐(0) 编辑
摘要:Oozie的安装与部署 1、解压Oozie 2、Hadoop配置文件修改,完成后scp到其他机器节点 core-site.xml 配置JobHistoryServer服务(必须) mapred-site.xml yarn-site.xml 完成后:记得scp同步到其他机器节点。 3、开启Hadoop 阅读全文
posted @ 2019-05-25 01:38 zhangqi0828 阅读(356) 评论(0) 推荐(0) 编辑
摘要:Oozie框架: 1、Oozie英文翻译:驯象人 2、Oozie简介 3、Oozie在集群中扮演的角色 定时调度任务,多任务可以按照执行的逻辑顺序调度。 4、Oozie的功能模块 Workflow:顺序执行流程节点,支持fork(分支多个节点),join(合并多个节点为一个) Coordinator 阅读全文
posted @ 2019-05-25 01:37 zhangqi0828 阅读(281) 评论(0) 推荐(0) 编辑
摘要:* Hive创建表的三种方式 1、使用create命令创建一个新表 2、把一张表的某些字段抽取出来,创建成一张新表 3、复制表结构 * Hive表导入数据五种方式 1、本地导入 2、HDFS导入 3、覆盖导入 4、查询导入 5、insert导入 * Hive表导出数据四种方式 1、本地导出 2、HD 阅读全文
posted @ 2019-05-24 20:21 zhangqi0828 阅读(1204) 评论(0) 推荐(0) 编辑
摘要:一直时候用idea很久没有使用eclipse了,idead的ctrl+鼠标滚轮是可以调节字体大小,这项功能是我的最爱。 早就忘记eclipse的智能助手设置,今天翻下以前的笔记,觉得还是做个博客方便今后查找吧。 window=》preferences=>Java=>Editor=>Content A 阅读全文
posted @ 2019-05-24 17:39 zhangqi0828 阅读(248) 评论(0) 推荐(0) 编辑
摘要:一、 HBase的起源 HBase的原型是Google的BigTable论文,受到了该论文思想的启发,目前作为Hadoop的子项目来开发维护,用于支持结构化的数据存储。 官方网站:http://hbase.apache.org * 2006年Google发表BigTable白皮书 * 2006年开始 阅读全文
posted @ 2019-05-24 16:31 zhangqi0828 阅读(407) 评论(0) 推荐(0) 编辑
摘要:拦截器原理 Producer拦截器(interceptor)是在Kafka 0.10版本被引入的,主要用于实现clients端的定制化控制逻辑。 对于producer而言,interceptor使得用户在消息发送前以及producer回调逻辑前有机会对消息做一些定制化需求,比如修改消息等。同时,pr 阅读全文
posted @ 2019-05-23 00:15 zhangqi0828 阅读(360) 评论(0) 推荐(0) 编辑
摘要:概述 1 Kafka Streams Kafka Streams。Apache Kafka开源项目的一个组成部分。是一个功能强大,易于使用的库。用于在Kafka上构建高可分布式、拓展性,容错的应用程序。 2 Kafka Streams特点 1)功能强大 高扩展性,弹性,容错 2)轻量级 无需专门的集 阅读全文
posted @ 2019-05-23 00:15 zhangqi0828 阅读(552) 评论(0) 推荐(0) 编辑
摘要:关系型数据库 结构: * 数据库以表的形式存在 * 支持FAT、NTFS、EXT、文件系统 * 使用Commit log存储日志 * 参考系统是坐标系统 * 使用主键(PK) * 支持分区 * 使用行、列、单元格 功能: * 支持向上扩展 * 使用SQL查询 * 面向行,即每一行都是一个连续单元 * 阅读全文
posted @ 2019-05-23 00:15 zhangqi0828 阅读(308) 评论(0) 推荐(0) 编辑
摘要:链接: https://www.yiibai.com/javafx 阅读全文
posted @ 2019-05-22 11:55 zhangqi0828 阅读(429) 评论(0) 推荐(0) 编辑
摘要:Kafka消费过程分析 kafka提供了两套consumer API:高级Consumer API和低级API。 1 高级API 1)高级API优点 高级API 写起来简单 不需要去自行去管理offset,系统通过zookeeper自行管理 不需要管理分区,副本等情况,系统自动管理 消费者断线会自动 阅读全文
posted @ 2019-05-22 10:43 zhangqi0828 阅读(2814) 评论(0) 推荐(0) 编辑
摘要:1.集群规划 kafka集群配置是依赖zookeeper的,所以需要保证先安装了zookeeper和jdk注意:kafka内自带zookeeper,我们不使用自带的. 2 jar包下载 http://kafka.apache.org/downloads.html Kafka集群部署 1)解压安装包 阅读全文
posted @ 2019-05-21 00:27 zhangqi0828 阅读(195) 评论(0) 推荐(0) 编辑
摘要:eclipse打包插件安装 1)将net.sf.fjep.fatjar_0.0.32.jar拷贝到eclipse安装目录中的plugins目录下,然后重启eclipse即可。 软件获取方式: 2)插件使用方法 阅读全文
posted @ 2019-05-20 18:11 zhangqi0828 阅读(497) 评论(0) 推荐(0) 编辑
摘要:1.Kafka概述 在流式计算中,Kafka一般用来缓存数据,Storm通过消费Kafka的数据进行计算。 1)Apache Kafka是一个开源消息系统,由Scala写成。是由Apache软件基金会开发的一个开源消息系统项目。 2)Kafka最初是由LinkedIn开发,并于2011年初开源。20 阅读全文
posted @ 2019-05-20 10:12 zhangqi0828 阅读(1393) 评论(0) 推荐(0) 编辑
摘要:一、lua数组 Lua数组大小不固定,下标是从 1开始。 二、lua数据类型转换 lua提供了数据类型转换的函数,这些转换函数baokuo:转换数字和转换字符串。 1、转换字符串 toString()可以将布尔类型和数值类型转换为字符串类型,实例: local bVar = false; print 阅读全文
posted @ 2019-05-20 00:44 zhangqi0828 阅读(6624) 评论(0) 推荐(0) 编辑
摘要:1.函数定义 lua编程语言函数定义格式如下: optional_function_scope:该参数是可选的制定函数是全局函数还是局部函数,未设置该 参数默认为全局函数,如果你需要设置函数为局部函数需要使用关键字 local。 optional_function_scope:该参数是可选的制定函数 阅读全文
posted @ 2019-05-20 00:44 zhangqi0828 阅读(251) 评论(0) 推荐(0) 编辑
摘要:一、table table是 Lua的一种数据结构用来帮助我们创建不同的数据类型,如:数字、字典等。 Lua table使用关联型数组,你可以用任意类型的值来作数组的索引,但这个值不能是 nil。 Lua table是不固定大小的,你可以根据自己需要进行扩容。 Lua也是通过 table来解决模块( 阅读全文
posted @ 2019-05-20 00:44 zhangqi0828 阅读(329) 评论(0) 推荐(0) 编辑
摘要:一、条件语句 --条件 -- if if(true) then print("ok") end -- if else a,b=10,20 if(a>b) then print(a) else print(b) end 二、循环语句 for循环分为数值 for循环与泛型 for循环 1.数值 for循 阅读全文
posted @ 2019-05-20 00:43 zhangqi0828 阅读(308) 评论(0) 推荐(0) 编辑
摘要:1、赋值运算符 2.算术运算符 3.关系运算符 4.逻辑运算符 --逻辑运算符 5.其它运算符 恢复内容结束 阅读全文
posted @ 2019-05-19 19:42 zhangqi0828 阅读(557) 评论(0) 推荐(0) 编辑
摘要:一、单行注释 二、多行注释 案例: 阅读全文
posted @ 2019-05-19 14:32 zhangqi0828 阅读(7771) 评论(0) 推荐(0) 编辑
摘要:Lua数据类型与变量 Lua中有 8个基本类型分别为: nil、boolean、number、string、userdata、function、thread和 table。 lua变量三种类型:全局变量、局部变量、表中的域 Lua中的变量全是全局变量,哪怕是一个语句块或者函数里,除非用local显式 阅读全文
posted @ 2019-05-19 09:12 zhangqi0828 阅读(1265) 评论(0) 推荐(0) 编辑
摘要:一、交互模式 二、脚本式 创建一个以lua结尾的文件,例如hello.lua文件内容 println("hello world") 阅读全文
posted @ 2019-05-18 20:34 zhangqi0828 阅读(3028) 评论(0) 推荐(0) 编辑
摘要:Lua是一种轻量小巧的脚本语言,用标准 C语言编写并以源代码形式开放,其设计目的是 为了嵌入应用程序中,从而为应用程序提供灵活的扩展和定制功能。官网: http://www.lua.org/ 安装过程为以下: 阅读全文
posted @ 2019-05-18 20:28 zhangqi0828 阅读(512) 评论(0) 推荐(0) 编辑
摘要:1.监控端口数据: flume启动: 参数说明: --conf conf/ :表示配置文件存储在conf/目录 --name a1 :表示给agent起名为a1 --conf-file job/flume-telnet.conf :flume本次启动读取的配置文件是在job文件夹下的flume-te 阅读全文
posted @ 2019-05-18 08:59 zhangqi0828 阅读(1337) 评论(0) 推荐(0) 编辑
摘要:netstat命令是一个监控TCP/IP网络的非常有用的工具,它可以显示路由表、实际的网络连接以及每一个网络接口设备的状态信息。 基本语法:netstat [选项] 选项参数: -t或--tcp:显示TCP传输协议的连线状况; -u或--udp:显示UDP传输协议的连线状况; -n或--numeri 阅读全文
posted @ 2019-05-17 23:02 zhangqi0828 阅读(299) 评论(0) 推荐(0) 编辑
摘要:bin/flume-ng agent --conf conf/ --name a3 --conf-file conf/flume-dir.conf & 在使用Spooling Directory Source 注意事项: 1、不要在监控目录中创建并持续修改文件 2、上传完成的文件会以.COMPLET 阅读全文
posted @ 2019-05-17 18:21 zhangqi0828 阅读(194) 评论(0) 推荐(0) 编辑
摘要:https://www.cnblogs.com/ikaka/p/5197316.html 阅读全文
posted @ 2019-05-17 15:21 zhangqi0828 阅读(85) 评论(0) 推荐(0) 编辑
摘要:ETL是将业务系统的数据经过抽取、清洗转换之后加载到数据仓库的过程,目的是将企业中的分散、零乱、标准不统一的数据整合到一起,为企业的决策提供分析依据。 ETL是BI项目重要的一个环节。 通常情况下,在BI项目中ETL会花掉整个项目至少1/3的时间,ETL设计的好坏直接关接到BI项目的成败。 ETL的 阅读全文
posted @ 2019-05-17 10:43 zhangqi0828 阅读(490) 评论(0) 推荐(0) 编辑
摘要:数据获取的方式主要可以分为两种: 1.网站日志文件(log files) 页面埋点js自定义的采集. 1.网站日志文件(log files) 页面埋点js自定义的采集. 优缺点: web服务器自带的日志记录功能:优点方便,缺点信息收集不全 自定义的js埋点收集:优点想收集啥就收集啥,缺点需要系统的开 阅读全文
posted @ 2019-05-16 10:30 zhangqi0828 阅读(1047) 评论(0) 推荐(0) 编辑
摘要:三台机器zookeeper的集群环境搭建 Zookeeper 集群搭建指的是 ZooKeeper 分布式模式安装。 通常由 2n+1台 servers 组成。 这是因为为了保证 Leader 选举(基于 Paxos 算法的实现) 能过得到多数的支持,所以 ZooKeeper 集群的数量一般为奇数。Z 阅读全文
posted @ 2019-05-16 09:37 zhangqi0828 阅读(1048) 评论(0) 推荐(0) 编辑
摘要:阻塞与非阻塞:讲究的是服务端在数据没有准备好的情况下服务端如何响应同步与非同步:讲究的是cpu在数据没有准备好的情况下如何响应 阅读全文
posted @ 2019-05-16 09:24 zhangqi0828 阅读(98) 评论(0) 推荐(0) 编辑
摘要:zookeeper是一个分布式的协调服务框架 其本质是一个分布式的小文件存储系统,可以存储一些小的文件,官方建议每个小文件不要超过一兆 zk一般都是装奇数台,便于zk内部的一些投票选举 leader:zk集群当中的主节点,主要用于处理事务性请求以及非事务性请求 follower:主要用于处理非事务性 阅读全文
posted @ 2019-05-16 09:22 zhangqi0828 阅读(123) 评论(0) 推荐(0) 编辑
摘要:CentOS 6 Linux防火墙 service iptables status (功能描述:查看防火墙状态) chkconfig iptables –list (功能描述:查看防火墙开机启动状态) service iptables stop (功能描述:临时关闭防火墙) chkconfig ip 阅读全文
posted @ 2019-05-16 09:04 zhangqi0828 阅读(261) 评论(0) 推荐(0) 编辑
摘要:配置hadoop的HA大概可以分为以下几步: 配置zookpeer(namenode之间的通信要靠zk来实现) 配置hadoop的 hadoop-env.sh hdfs-site.xml core-site.xml slave hadoop-env.sh hdfs-site.xml core-sit 阅读全文
posted @ 2019-05-16 01:02 zhangqi0828 阅读(168) 评论(0) 推荐(0) 编辑
摘要:镜像文件和编辑日志文件 1)概念 namenode被格式化之后,将在/opt/module/hadoop-2.7.2/data/tmp/dfs/name/current目录中产生如下文件 edits_0000000000000000000 fsimage_0000000000000000000.md 阅读全文
posted @ 2019-05-15 14:43 zhangqi0828 阅读(419) 评论(0) 推荐(0) 编辑
摘要:当提交已经打包好的jar包时候,控制台出现以下的错误. 阅读全文
posted @ 2019-05-14 11:37 zhangqi0828 阅读(3399) 评论(0) 推荐(0) 编辑
摘要:常用快捷键 Ctrl+1 快速修复(最经典的快捷键,就不用多说了)Ctrl+D: 删除当前行Ctrl+Alt+↓ 复制当前行到下一行(复制增加) Ctrl+Alt+↑ 复制当前行到上一行(复制增加) Alt+↓ 当前行和下面一行交互位置(特别实用,可以省去先剪切,再粘贴了) Alt+↑ 当前行和上面 阅读全文
posted @ 2019-05-13 22:49 zhangqi0828 阅读(116) 评论(0) 推荐(0) 编辑
摘要:命令基本语法 功能描述 help 显示所有操作命令 ls path [watch] 使用 ls 命令来查看当前znode中所包含的内容 ls2 path [watch] 查看当前节点数据并能看到更新次数等数据 create 普通创建 -s 含有序列 -e 临时(重启或者超时消失) get path 阅读全文
posted @ 2019-05-09 17:49 zhangqi0828 阅读(881) 评论(0) 推荐(0) 编辑
摘要:kudu安装过成中可能出现的问题 1、给用户添加sudo权限的时候报错 sudo: /etc/sudoers is world writable 解决方式:pkexec chmod 555 /etc/sudoers sudo: /etc/sudoers is world writable 解决方式: 阅读全文
posted @ 2019-05-08 11:36 zhangqi0828 阅读(3343) 评论(0) 推荐(0) 编辑
摘要:给用户添加权限时候出现:sudo: /etc/sudoers is world writable| sudo: /etc/sudoers is world writable解决方式: 阅读全文
posted @ 2019-05-08 11:32 zhangqi0828 阅读(2840) 评论(0) 推荐(0) 编辑
摘要:电脑强制关机后,centos系统启动失败,报异常:锁定文件失败 打不开磁盘“D:\vms\S1\CentOS 64 位.vmdk”或它所依赖的某个快照磁盘。解决办法:进入D:\vms\S1目录,删除下图的两个文件夹: 转自:https://blog.csdn.net/qq_34896163/arti 阅读全文
posted @ 2019-05-05 17:21 zhangqi0828 阅读(2096) 评论(0) 推荐(0) 编辑
摘要:在使用 hdfs 的时候出现如下错误: 18/01/12 09:04:34 INFO fs.TrashPolicyDefault: Namenode trash configuration: Deletion interval = 0 minutes, Emptier interval = 0 mi 阅读全文
posted @ 2019-05-04 07:17 zhangqi0828 阅读(490) 评论(0) 推荐(0) 编辑
摘要:/home/bigdata/hadoop/spark-2.1.1-bin-hadoop2.7/sbin/start-all.sh 启动后执行jps命令,主节点上有Master进程,其他子节点上有Work进行,登录Spark管理界面查看集群状态(主节点):http://master01:8080/ 到 阅读全文
posted @ 2019-05-01 11:50 zhangqi0828 阅读(315) 评论(0) 推荐(0) 编辑

点击右上角即可分享
微信分享提示