摘要: 一.Flume收集各数据库日志,准实时抽取到HDFS 安装HDP,包含Flume 方案优点: 1.配置简单,不用编程:只要在flume.conf文件中配置source、channel及sink的相关属性 2.采用普通SQL轮询的方式实现,具有通用性,适用于所有关系库数据源 方案缺点: 1.在源库上执 阅读全文
posted @ 2018-12-01 22:29 点点积累 阅读(14031) 评论(2) 推荐(0) 编辑
摘要: 常用命令 启动Hadoop 进入HADOOP_HOME目录。 执行sh bin/start-all.sh 关闭Hadoop 进入HADOOP_HOME目录。 执行sh bin/stop-all.sh 1、查看指定目录下内容:hadoop fs –ls [文件目录][root@cdh01 tmp]#  阅读全文
posted @ 2018-12-01 22:28 点点积累 阅读(386) 评论(0) 推荐(0) 编辑
摘要: 基础命令 查看已有topic 进入kafka解压目录:/home/zallds/kafka_2.10-0.10.2.1 执行如下命令,就会列出所有topic [zallds@PUBLIC-26 bin]$ bin/kafka-topics.sh -list -zookeeper localhost: 阅读全文
posted @ 2018-12-01 22:26 点点积累 阅读(220) 评论(0) 推荐(0) 编辑
摘要: #创建分区表CREATE TABLE if not exists data_center.test_partition (id int,name string,age int)PARTITIONED BY (date_id string)row format delimited fields ter 阅读全文
posted @ 2018-12-01 22:25 点点积累 阅读(17946) 评论(0) 推荐(0) 编辑
摘要: insert overwrite table ods.zeg_so select *,case when zsm.id is not null then cast(current_timestamp as string) else zs.etl_update end etl_update from 阅读全文
posted @ 2018-12-01 22:23 点点积累 阅读(2388) 评论(0) 推荐(0) 编辑
摘要: drop table dw.fct_so;create table dw.fct_so(so_id bigint comment '订单ID',parent_so_id bigint comment '父订单ID (如果未拆单,则等于so_id)',order_code string comment 阅读全文
posted @ 2018-12-01 22:21 点点积累 阅读(961) 评论(0) 推荐(0) 编辑
摘要: 1.hive模糊搜索表 show tables like '*name*';2.查看表结构信息 desc formatted table_name; desc table_name;3.查看分区信息 show partitions table_name;4.根据分区查询数据 select table 阅读全文
posted @ 2018-12-01 22:14 点点积累 阅读(2063) 评论(0) 推荐(0) 编辑
摘要: 1)创建表时:创建内部表时,会将数据移动到数据仓库指向的路径;若创建外部表,仅记录数据所在的路径, 不对数据的位置做任何改变。 2)删除表时:在删除表的时候,内部表的元数据和数据会被一起删除, 而外部表只删除元数据,不删除数据。这样外部表相对来说更加安全些,数据组织也更加灵活,方便共享源数据。 阅读全文
posted @ 2018-12-01 22:08 点点积累 阅读(1340) 评论(0) 推荐(0) 编辑