hadoop - 随笔分类 - 醉城、

Hive 修改字段名后其值为NULL

摘要：Hive 版本 hive --version Hive 3.1.2 我们总会遇到想改一个字段名的情况，这类需求在日常工作中也会存在，但是遇到一个现象：更改字段字段名之后，相对应的字段名的值为 NULL、 alter table tablename change old_column new_colu 阅读全文

posted @ 2022-04-02 17:44 醉城、阅读(1137) 评论(0) 推荐(0) 编辑

hive 中删除字段/去掉字段

摘要：Hive中没有直接删除字段的操作，只有 Add/Replace 做个测试： 1）建表操作 create table if not exists temp.test1( applseq string comment '申请号' ,data_dt string comment '日期' ,flag st 阅读全文

posted @ 2022-01-25 16:40 醉城、阅读(6172) 评论(0) 推荐(0) 编辑

sqoop 抽取 postgres 数据库的数据

摘要：1.下载驱动：wget http://jdbc.postgresql.org/download/postgresql-9.2-1002.jdbc4.jar 2.放到sqoop的lib下cp postgresql-9.2-1002.jdbc4.jar /opt/cloudera/parcels/CDH 阅读全文

posted @ 2020-11-23 18:23 醉城、阅读(1280) 评论(0) 推荐(0) 编辑

Hive插入parquet格式进行压缩

摘要：创建parquet table :create table tabname(a int,b int) STORED AS PARQUET;创建带压缩的parquet table:create table tabname(a int,b int) STORED AS PARQUET TBLPROPER 阅读全文

posted @ 2020-11-19 18:29 醉城、阅读(2089) 评论(0) 推荐(0) 编辑

yarn任务执行流程

摘要：yarn简述yarn是一个资源调度平台，负责为运算程序提供服务器运算资源，相当于一个分布式操作系统平台，而mapreduce等运算程序则相当于运行与操作系统之上的应用程序。 ResourceManager：总的老大：处理客户端请求，监控NodeManager，启动或监控ApplicationMast 阅读全文

posted @ 2020-09-15 11:53 醉城、阅读(1089) 评论(0) 推荐(0) 编辑

把csv导入到hive表中步骤

摘要：本博文解决的问题：现在我们有一个CSV格式的一个文件download.csv，里面是我们需要的数据，想把数据装入到数据impala数据库中1.首先整理文本文件打开download.csv，选择文件，另存为，保存类型：制表符分隔.txt2.创建表 drop table if exists test.c 阅读全文

posted @ 2020-05-29 10:43 醉城、阅读(7138) 评论(0) 推荐(1) 编辑

Hive建表-分隔符

摘要：在hive建表中，默认的分隔符为 ‘，’ ，可以指定想用的分隔符 hive默认的列分割类型为org.apache.hadoop.hive.serde2.lazy.LazySimpleSerDe，这其实就是^A分隔符，hive中默认使用^A(ctrl+A)作为列分割符，如果用户需要指定的话，等同于ro 阅读全文

posted @ 2020-04-08 11:18 醉城、阅读(8288) 评论(0) 推荐(0) 编辑

Hive元数据信息表详解

摘要：1、存储Hive版本的元数据表(VERSION) 2、Hive数据库相关的元数据表(DBS、DATABASE_PARAMS) DBS：该表存储Hive中所有数据库的基本信息字段如下: DATABASE_PARAMS：该表存储数据库的相关参数，在CREATE DATABASE时候用WITH DBPR 阅读全文

posted @ 2020-04-04 17:29 醉城、阅读(4611) 评论(0) 推荐(2) 编辑

Hadoop的数据迁移

摘要：主要的命令：DistCp 官方有明确的解释：http://hadoop.apache.org/docs/r1.0.4/cn/distcp.html 概述： DistCp（分布式拷贝）是用于大规模集群内部和集群之间拷贝的工具。它使用Map/Reduce实现文件分发，错误处理和恢复，以及报告生成。它阅读全文

posted @ 2020-03-26 19:32 醉城、阅读(937) 评论(0) 推荐(0) 编辑

HIVE常用命令之MSCK REPAIR TABLE

摘要：MSCK REPAIR TABLE命令主要是用来解决通过hdfs dfs -put或者hdfs api写入hive分区表的数据在hive中无法被查询到的问题。我们知道hive有个服务叫metastore，这个服务主要是存储一些元数据信息，比如数据库名，表名或者表的分区等等信息。如果不是通过hive的阅读全文

posted @ 2019-12-06 17:34 醉城、阅读(3054) 评论(0) 推荐(0) 编辑

python 操作Hbase 详解

摘要：博文参考：https://www.cnblogs.com/tashanzhishi/p/10917956.html 如果你们学习过Python，可以用Python来对Hbase进行操作。 happybase使用：https://happybase.readthedocs.io/en/latest/u 阅读全文

posted @ 2019-11-26 16:53 醉城、阅读(4812) 评论(0) 推荐(0) 编辑

解决sqoop抽数报错：IO Error: Connection reset

摘要：遇到的问题：进行sqoop抽数时，虽然能成功执行，但是过程中有很多这样的信息 19/11/20 15:17:11 INFO mapreduce.Job: Task Id : attempt_1573713322094_0282_m_000002_0, Status : FAILEDError: ja 阅读全文

posted @ 2019-11-20 15:55 醉城、阅读(2038) 评论(0) 推荐(0) 编辑

hive 存储格式对比

摘要：Apache Hive支持Apache Hadoop中使用的几种熟悉的文件格式，如TextFile，RCFile，SequenceFile，AVRO，ORC和Parquet格式。 Cloudera Impala也支持这些文件格式。在建表时使用STORED AS (TextFile|RCFile|S 阅读全文

posted @ 2019-11-18 17:41 醉城、阅读(1373) 评论(0) 推荐(0) 编辑

sqoop1.4.6 用法总结一

摘要：Sqoop是一个用于在Hadoop和关系数据库或大型机之间传输数据的工具。您可以使用Sqoop将关系数据库管理系统(RDBMS)中的数据导入Hadoop分布式文件系统(HDFS)，在Hadoop MapReduce中转换数据，然后将数据导出回RDBMS。Sqoop自动化了这个过程的大部分，它依赖于数阅读全文

posted @ 2019-08-19 15:28 醉城、阅读(1631) 评论(0) 推荐(0) 编辑

Hadoop Shell 操作

摘要：此随笔仅记录一下常用的Hadoop shell 操作的命令参考官方文档 http://hadoop.apache.org/docs/r1.0.4/cn/hdfs_shell.html FS Shell 调用文件系统(FS)Shell命令应使用 bin/hadoop fs <args>的形式。所有阅读全文

posted @ 2019-08-15 09:30 醉城、阅读(192) 评论(0) 推荐(0) 编辑

安装CDH5.11.2集群

摘要：master 192.168.1.30 saver1 192.168.1.40 saver2 192.168.1.50 首先，时间同步然后，ssh互通接下来开始： 1.安装MySQL5.6.44 tar -xvf MySQL-5.6.44-1.el6.x86_64.rpm-bundle.tar 阅读全文

posted @ 2019-07-28 22:48 醉城、阅读(491) 评论(0) 推荐(0) 编辑

CHD-5.3.6集群上oozie安装

摘要：参考文档：http://archive.cloudera.com/cdh5/cdh/5/oozie-4.0.0-cdh5.3.6/DG_QuickStart.htmltar -zxvf oozie-hadooplibs-4.0.0-cdh5.3.6.tar.gzcd /home/hadoop/CDH 阅读全文

posted @ 2019-06-27 10:38 醉城、阅读(360) 评论(0) 推荐(0) 编辑

CHD-5.3.6集群上Flume的文件监控

摘要：收集hive的log hive的运行日志： /home/hadoop/CDH5.3.6/hive-0.13.1-cdh5.3.6/log/hive.log* memory*hdfs /user/flume/hive-log 1.需要四个包：传到/home/hadoop/CDH5.3.6/flume 阅读全文

posted @ 2019-06-23 20:19 醉城、阅读(468) 评论(0) 推荐(0) 编辑

CHD-5.3.6集群上Flume安装

摘要：Flume is a distributed, reliable, and available service for efficiently collecting, aggregating, and moving large amounts of log data. It has a simple 阅读全文

posted @ 2019-06-23 16:59 醉城、阅读(463) 评论(0) 推荐(0) 编辑

CHD-5.3.6集群上sqoop安装

摘要：Sqoop(发音：skup)是一款开源的工具，主要用于在Hadoop(Hive)与传统的数据库(mysql、postgresql...)间进行数据的传递，可以将一个关系型数据库（例如： MySQL ,Oracle ,Postgres等）中的数据导进到Hadoop的HDFS中，也可以将HDFS的数据阅读全文

posted @ 2019-06-02 22:48 醉城、阅读(509) 评论(0) 推荐(0) 编辑

希言自然

常存虚怀若谷，常保求知若渴

随笔分类 - hadoop

随笔分类 (235)

阅读排行榜

推荐排行榜