随笔分类 -  Hadoop

摘要:select id ,json_extract_scalar(json_item,'$.user_id') as user_id ,json_extract_scalar(json_item,'$.url') as user_id from ( select A.id ,concat('{',rep 阅读全文
posted @ 2022-07-23 20:11 chenzechao 阅读(1338) 评论(0) 推荐(0) 编辑
摘要:### hadoop docker pull docker.io/sequenceiq/hadoop-docker docker run -itd --name hadoop -h hadoop -P sequenceiq/hadoop-docker docker exec -it hadoop b 阅读全文
posted @ 2021-09-26 14:34 chenzechao 阅读(76) 评论(0) 推荐(0) 编辑
摘要:1. 搭建测试环境安装 1.1 下载并启动docker-compose容器 # 该 Docker Compose 中包含的容器有: # DataGen:数据生成器。容器启动后会自动开始生成用户行为数据,并发送到 Kafka 集群中。默认每秒生成 1000 条数据,持续生成约 3 小时。也可以更改 d 阅读全文
posted @ 2021-04-27 16:17 chenzechao 阅读(207) 评论(0) 推荐(0) 编辑
该文被密码保护。
posted @ 2021-04-23 18:08 chenzechao 阅读(0) 评论(0) 推荐(0) 编辑
摘要:https://www.iteblog.com/archives/6625.html?from=like 阅读全文
posted @ 2020-09-14 10:33 chenzechao 阅读(267) 评论(0) 推荐(0) 编辑
摘要:docker run -d -p 9047:9047 -p 31010:31010 -p 45678:45678 dremio/dremio-oss 阅读全文
posted @ 2020-07-29 14:54 chenzechao 阅读(305) 评论(0) 推荐(0) 编辑
摘要:ref: https://blog.csdn.net/qq_41455420/article/details/79399096 阅读全文
posted @ 2019-06-10 08:39 chenzechao 阅读(279) 评论(0) 推荐(0) 编辑
摘要:1.什么是数据模型? 数据模型就是数据的组织和存储方法。主要关注的是从业务、数据存取和使用角度合理存储数据。 2.典型数据仓库建模方法论 ER模型 维度模型(建模四步曲:确定业务流程->确定粒度->确定维度->确定事实表) 1.体系架构 2.模型分层 主要分为三大层(4小层): 操作数据层(ODS) 公共维度模型层(CDM) ... 阅读全文
posted @ 2019-04-30 10:37 chenzechao 阅读(499) 评论(0) 推荐(0) 编辑
摘要:待填 阅读全文
posted @ 2019-01-01 10:18 chenzechao 阅读(181) 评论(0) 推荐(0) 编辑
摘要:Spark2.3.0依赖的netty-all-4.1.17.Final.jar 与 hbase1.2.0依赖的netty-all-4.0.23.Final.jar 冲突 Ref: https://blog.csdn.net/liumu243/article/details/81111273 阅读全文
posted @ 2018-12-11 17:03 chenzechao 阅读(568) 评论(0) 推荐(0) 编辑
摘要:定位: HIVE:长时间的批处理查询分析 impala:实时交互式SQL查询 impala优缺点优点: 1. 生成执行计划树,不用多次启动job造成多余开销,并且减少中间结果数据写入磁盘,执行速度快 2. 不占用yarn的资源 3. 缺点: 1. 不支持Date类型 2. 与HIVE数据不同步,需要 阅读全文
posted @ 2018-12-10 09:26 chenzechao 阅读(1115) 评论(0) 推荐(0) 编辑
摘要:Map意为映射,就是将数据映射为其他形式,如转换(加减乘除改格式),拓展(String的split一变多),以及过滤等。输出为KeyValue格式Reduce意为收缩 阅读全文
posted @ 2018-11-27 15:23 chenzechao 阅读(117) 评论(0) 推荐(0) 编辑
摘要:sqoop数据校验 阅读全文
posted @ 2018-11-27 14:03 chenzechao 阅读(331) 评论(0) 推荐(0) 编辑
摘要:ref: https://blog.csdn.net/maizi1045/article/details/79481686 阅读全文
posted @ 2018-10-16 12:01 chenzechao 阅读(455) 评论(0) 推荐(0) 编辑
摘要:beeline -u 'jdbc:hive2://zk01:2181,zk02:2181,zk03:2181/;serviceDiscoveryMode=zooKeeper;zooKeeperNamespace=hiveserver2' -n username -p 'password' --verbose=true 阅读全文
posted @ 2018-10-15 15:26 chenzechao 阅读(5003) 评论(0) 推荐(0) 编辑
摘要:ref:https://blog.csdn.net/trigl/article/details/68944434 阅读全文
posted @ 2018-09-12 10:22 chenzechao 阅读(241) 评论(0) 推荐(0) 编辑
摘要:Oozie使用的时候有以下不便: [a]Oozie调度的Workflow只能使用XML文件配置 [b]启动调度只能通过命令行 [c]无法通过Oozie界面调试调度脚本 [d]Oozie无法可视化调试脚本时候 [e]无法分组,权限管理等 阅读全文
posted @ 2018-09-12 10:08 chenzechao 阅读(647) 评论(0) 推荐(0) 编辑
摘要:select regexp_replace(reflect("java.util.UUID", "randomUUID"), "-", "") as uuid ,rand() -- rand_num ,rand(100) -- rand_num_seed ; SELECT * FROM DISTRIBUTE BY RAND() SORT B... 阅读全文
posted @ 2018-08-15 08:41 chenzechao 阅读(139) 评论(0) 推荐(0) 编辑
摘要:### 查看目录配额 hdfs dfs -count -q -h /user/hive/warehouse/db_name.db ### 查看整个HDFS的空间大小 hdfs dfs -df -h /user/ Filesystem Size Used Available Use% hdfs://hdfs01 10 P 8 P ... 阅读全文
posted @ 2018-05-14 10:50 chenzechao 阅读(2949) 评论(0) 推荐(0) 编辑
摘要:cat /etc/zookeeper/conf/zoo.cfg 找到dataDir=/var/lib/zookeeper 切换到路径/var/lib/zookeeper cd /var/lib/zookeeper 查看目录下的文件: ls 存在version-2 删除version-2 mv ./v 阅读全文
posted @ 2018-05-08 22:10 chenzechao 阅读(303) 评论(0) 推荐(0) 编辑

点击右上角即可分享
微信分享提示