摘要: HIVE特殊分隔符处理 Hive对文件中的分隔符默认情况下只支持单字节分隔符,,默认单字符是\001。当然你也可以在创建表格时指定数据的分割符号。但是如果数据文件中的分隔符是多字符的,如下图: 01||zhangsan 02||lisi 03||wangwu 补充:hive读取数据的机制 1、首先用 阅读全文
posted @ 2019-03-30 18:59 Transkai 阅读(2757) 评论(0) 推荐(0) 编辑
摘要: 采集需求:比如业务系统使用log4j生成的日志,日志内容不断增加,需要把追加到日志文件中的数据实时采集到hdfs,使用agent串联 根据需求,首先定义以下3大要素 第一台flume agent l 采集源,即source——监控文件内容更新 : exec ‘tail -F file’ l 下沉目标 阅读全文
posted @ 2019-03-30 18:26 Transkai 阅读(1237) 评论(0) 推荐(0) 编辑
摘要: Telnet安装 一、查看本机是否安装telnet #rpm -qa | grep telnet 如果什么都不显示。说明你没有安装telnet 二、开始安装 yum install xinetd yum install telnet yum install telnet-server 三、装好tel 阅读全文
posted @ 2019-03-30 10:35 Transkai 阅读(844) 评论(0) 推荐(0) 编辑
摘要: 1. hive的数据类型Hive的内置数据类型可以分为两大类:(1)、基础数据类型;(2)、复杂数据类型2. hive基本数据类型基础数据类型包括: TINYINT,SMALLINT,INT,BIGINT,BOOLEAN,FLOAT,DOUBLE,STRING,BINARY,TIMESTAMP,DE 阅读全文
posted @ 2019-03-28 00:23 Transkai 阅读(2308) 评论(0) 推荐(0) 编辑
摘要: 一.修改表 增加/删除分区 语法结构 ALTER TABLE table_name ADD [IF NOT EXISTS] partition_spec [ LOCATION 'location1' ] partition_spec [ LOCATION 'location2' ] ... part 阅读全文
posted @ 2019-03-24 21:43 Transkai 阅读(312) 评论(0) 推荐(0) 编辑
摘要: HBase Shell 操作 3.1 基本操作1.进入 HBase 客户端命令行,在hbase-2.1.3目录下 bin/hbase shell 2.查看帮助命令 hbase(main):001:0> help 3.查看当前数据库中有哪些表 hbase(main):002:0> list 3.2 表 阅读全文
posted @ 2019-03-21 21:50 Transkai 阅读(2594) 评论(0) 推荐(0) 编辑
摘要: Hadoop-HA机制HA概述high available(高可用) 所谓HA(high available),即高可用(7*24小时不中断服务)。 实现高可用最关键的策略是消除单点故障。HA严格来说应该分成各个组件的HA机制:HDFS的HA和YARN的HA。 Hadoop2.0之前,在HDFS集群 阅读全文
posted @ 2019-03-21 01:50 Transkai 阅读(312) 评论(0) 推荐(0) 编辑
摘要: HBase介绍 HBase是参考google的bigtable的一个开源产品,建立在hdfs之上的一个提供高可靠性、高性能、列存储、可伸缩、实时读写的数据库系统。是一种介于nosql和RDBMs之间的一种数据库系统,仅支持通过rowkey和range进行数据的检索,主要存储非结构化数据和半结构化数据 阅读全文
posted @ 2019-03-21 01:26 Transkai 阅读(293) 评论(0) 推荐(0) 编辑
摘要: 前期准备1.修改Linux主机名 2.修改IP 3.修改主机名和IP的映射关系 /etc/hosts ######注意######如果你们公司是租用的服务器或是使用的云主机(如华为用主机、阿里云主机等) /etc/hosts里面要配置的是内网IP地址和主机名的映射关系 4.关闭防火墙 5.ssh免登 阅读全文
posted @ 2019-03-20 10:04 Transkai 阅读(1113) 评论(0) 推荐(1) 编辑
摘要: Flume介绍Flume是Apache基金会组织的一个提供的高可用的,高可靠的,分布式的海量日志采集、聚合和传输的系统,Flume支持在日志系统中定制各类数据发送方,用于收集数据;同时,Flume提供对数据进行简单处理,并写到各种数据接受方(可定制)的能力。 当前Flume有两个版本,Flume 0 阅读全文
posted @ 2019-03-19 17:23 Transkai 阅读(1019) 评论(0) 推荐(0) 编辑
摘要: Sqoop命令详解 1、import命令 案例1:将mysql表test中的数据导入hive的hivetest表,hive的hivetest表不存在。 sqoop import --connect jdbc:mysql://hadoop-001:3306/test --username root - 阅读全文
posted @ 2019-03-19 01:28 Transkai 阅读(1279) 评论(0) 推荐(0) 编辑
摘要: 一.Sqoop Sqoop介绍 Sqoop是一款开源的工具,主要用于在Hadoop(Hive)与传统的数据库(mysql、oracle...)间进行数据的传递,可以将一个关系型数据库中的数据导进到Hadoop的HDFS中,也可以将HDFS的数据导进到关系型数据库中。一般情况下,是将数据分析的结果导出 阅读全文
posted @ 2019-03-18 22:17 Transkai 阅读(3395) 评论(0) 推荐(0) 编辑
摘要: HiveServer 查看/home/hadoop/bigdatasoftware/apache-hive-0.13.1-bin/bin目录文件,其中有hiveserver2 启动hiveserver2,如下图: 打开多一个终端,查看进程 有RunJar进程说明hiveserver正在运行; bee 阅读全文
posted @ 2019-03-18 13:21 Transkai 阅读(854) 评论(0) 推荐(0) 编辑
摘要: yarn是什么?1、它是一个资源调度及提供作业运行的系统环境平台 资源:cpu、mem等 作业:map task、reduce Task yarn产生背景?它是从hadoop2.x版本才引入1、hadoop1.x版本它是如何资源调度及作业运行机制原理a、JobTracker(主节点) (a):接受客 阅读全文
posted @ 2019-03-18 00:59 Transkai 阅读(3994) 评论(0) 推荐(1) 编辑
摘要: 在Linux环境下安装zookeeper 在Linux环境下安装zookeeper 1、 将zookeeper-3.4.13.tar.gz复制到linux操作系统 2、 通过putty终端访问linux操作 详细步骤可见以下链接 https://www.cnblogs.com/Transkai/p/ 阅读全文
posted @ 2019-03-18 00:35 Transkai 阅读(416) 评论(0) 推荐(0) 编辑