随笔分类 - hadoop
摘要:Hive 版本 hive --version Hive 3.1.2 我们总会遇到想改一个字段名的情况,这类需求在日常工作中也会存在,但是遇到一个现象:更改字段字段名之后,相对应的字段名的值为 NULL、 alter table tablename change old_column new_colu
阅读全文
摘要:Hive中没有直接删除字段的操作,只有 Add/Replace 做个测试: 1)建表操作 create table if not exists temp.test1( applseq string comment '申请号' ,data_dt string comment '日期' ,flag st
阅读全文
摘要:1.下载驱动:wget http://jdbc.postgresql.org/download/postgresql-9.2-1002.jdbc4.jar 2.放到sqoop的lib下cp postgresql-9.2-1002.jdbc4.jar /opt/cloudera/parcels/CDH
阅读全文
摘要:创建parquet table :create table tabname(a int,b int) STORED AS PARQUET;创建带压缩的parquet table:create table tabname(a int,b int) STORED AS PARQUET TBLPROPER
阅读全文
摘要:yarn简述yarn是一个资源调度平台,负责为运算程序提供服务器运算资源,相当于一个分布式操作系统平台,而mapreduce等运算程序则相当于运行与操作系统之上的应用程序。 ResourceManager:总的老大:处理客户端请求,监控NodeManager,启动或监控ApplicationMast
阅读全文
摘要:本博文解决的问题:现在我们有一个CSV格式的一个文件download.csv,里面是我们需要的数据,想把数据装入到数据impala数据库中1.首先整理文本文件打开download.csv,选择文件,另存为,保存类型:制表符分隔.txt2.创建表 drop table if exists test.c
阅读全文
摘要:在hive建表中,默认的分隔符为 ‘,’ ,可以指定想用的分隔符 hive默认的列分割类型为org.apache.hadoop.hive.serde2.lazy.LazySimpleSerDe,这其实就是^A分隔符,hive中默认使用^A(ctrl+A)作为列分割符,如果用户需要指定的话,等同于ro
阅读全文
摘要:1、存储Hive版本的元数据表(VERSION) 2、Hive数据库相关的元数据表(DBS、DATABASE_PARAMS) DBS:该表存储Hive中所有数据库的基本信息 字段如下: DATABASE_PARAMS:该表存储数据库的相关参数,在CREATE DATABASE时候用WITH DBPR
阅读全文
摘要:主要的命令:DistCp 官方有明确的解释:http://hadoop.apache.org/docs/r1.0.4/cn/distcp.html 概述: DistCp(分布式拷贝)是用于大规模集群内部和集群之间拷贝的工具。 它使用Map/Reduce实现文件分发,错误处理和恢复,以及报告生成。 它
阅读全文
摘要:MSCK REPAIR TABLE命令主要是用来解决通过hdfs dfs -put或者hdfs api写入hive分区表的数据在hive中无法被查询到的问题。我们知道hive有个服务叫metastore,这个服务主要是存储一些元数据信息,比如数据库名,表名或者表的分区等等信息。如果不是通过hive的
阅读全文
摘要:博文参考:https://www.cnblogs.com/tashanzhishi/p/10917956.html 如果你们学习过Python,可以用Python来对Hbase进行操作。 happybase使用:https://happybase.readthedocs.io/en/latest/u
阅读全文
摘要:遇到的问题:进行sqoop抽数时,虽然能成功执行,但是过程中有很多这样的信息 19/11/20 15:17:11 INFO mapreduce.Job: Task Id : attempt_1573713322094_0282_m_000002_0, Status : FAILEDError: ja
阅读全文
摘要:Apache Hive支持Apache Hadoop中使用的几种熟悉的文件格式,如TextFile,RCFile,SequenceFile,AVRO,ORC和Parquet格式。 Cloudera Impala也支持这些文件格式。 在建表时使用STORED AS (TextFile|RCFile|S
阅读全文
摘要:Sqoop是一个用于在Hadoop和关系数据库或大型机之间传输数据的工具。您可以使用Sqoop将关系数据库管理系统(RDBMS)中的数据导入Hadoop分布式文件系统(HDFS),在Hadoop MapReduce中转换数据,然后将数据导出回RDBMS。Sqoop自动化了这个过程的大部分,它依赖于数
阅读全文
摘要:此随笔仅记录一下常用的Hadoop shell 操作的命令 参考官方文档 http://hadoop.apache.org/docs/r1.0.4/cn/hdfs_shell.html FS Shell 调用文件系统(FS)Shell命令应使用 bin/hadoop fs <args>的形式。 所有
阅读全文
摘要:master 192.168.1.30 saver1 192.168.1.40 saver2 192.168.1.50 首先,时间同步 然后,ssh互通 接下来开始: 1.安装MySQL5.6.44 tar -xvf MySQL-5.6.44-1.el6.x86_64.rpm-bundle.tar
阅读全文
摘要:参考文档:http://archive.cloudera.com/cdh5/cdh/5/oozie-4.0.0-cdh5.3.6/DG_QuickStart.htmltar -zxvf oozie-hadooplibs-4.0.0-cdh5.3.6.tar.gzcd /home/hadoop/CDH
阅读全文
摘要:收集hive的log hive的运行日志: /home/hadoop/CDH5.3.6/hive-0.13.1-cdh5.3.6/log/hive.log* memory*hdfs /user/flume/hive-log 1.需要四个包: 传到/home/hadoop/CDH5.3.6/flume
阅读全文
摘要:Flume is a distributed, reliable, and available service for efficiently collecting, aggregating, and moving large amounts of log data. It has a simple
阅读全文
摘要:Sqoop(发音:skup)是一款开源的工具,主要用于在Hadoop(Hive)与传统的数据库(mysql、postgresql...)间进行数据的传递,可以将一个关系型数据库(例如 : MySQL ,Oracle ,Postgres等)中的数据导进到Hadoop的HDFS中,也可以将HDFS的数据
阅读全文