代码改变世界

hive元数据管理

2020-05-12 01:35 by 吃辣椒, 1334 阅读, 0 推荐, 收藏,
摘要:HIVE元数据整理dbs: 存放database信息,包括数据库名称、DB_LOCATION_URI、主键为DB_IDtbls:存放table信息,包括表名称,表类型(内部、外部)、主键TBL_ID,外键DB_ID关联database表,SD_ID关联表参数信息sds:存放table参数信息,包括表 阅读全文

sparkStreaming 知识点

2019-11-06 02:20 by 吃辣椒, 262 阅读, 0 推荐, 收藏,
摘要:hadoop仓库: https://repositories.cloudera.com/artifactory spark streaming定义: 将不同的数据源数据经过spark streaming处理之后将结果输出到外部文件系统 特点 低延时 能从错误中高效的恢复 能够运行在成百上千的节点 能 阅读全文

kafka实战-spark

2019-10-11 02:12 by 吃辣椒, 251 阅读, 0 推荐, 收藏,
摘要:kafka概述 和消息系统类似 kafka架构和核心概念 producer 生产者 consumer 消费者 broker 容器,每一条记录包含:key value timestamp(时间戳) topic 主题 启动ZK zkServer.sh start 启动kafka sh kafka-ser 阅读全文

在windos环境安装python第三方包报错

2019-10-10 16:37 by 吃辣椒, 156 阅读, 0 推荐, 收藏,
摘要:在winwods安装airflow报错, error: Microsoft Visual C++ 9.0 is required. Get it from http://aka.ms/vcpython27 解决方法:下载 VCForPython27.msi 。 地址: http://www.micr 阅读全文

kafka记录

2019-10-08 00:31 by 吃辣椒, 499 阅读, 0 推荐, 收藏,
摘要:启动produce命令: kafka-topics --create --zookeeper yzsjhl82-216.opi.com:2181/kafka,YZSJHL82-215.opi.com:2181/kafka,yzsjhl82-217.opi.com:2181/kafka,yzsjhl8 阅读全文

flume实战

2019-09-28 22:56 by 吃辣椒, 188 阅读, 0 推荐, 收藏,
摘要:flume 三大组件 source 收集 channel 聚集 sink 输出 使用Flume关键就是写配置文件 A 配置source B 配置channel C 配置sink D 把以上3个组件串起来 1.通过IP端口 接收数据 启动agent flume-ng agent \ --name a1 阅读全文