随笔分类 - Hadoop
摘要:select id ,json_extract_scalar(json_item,'$.user_id') as user_id ,json_extract_scalar(json_item,'$.url') as user_id from ( select A.id ,concat('{',rep
阅读全文
摘要:### hadoop docker pull docker.io/sequenceiq/hadoop-docker docker run -itd --name hadoop -h hadoop -P sequenceiq/hadoop-docker docker exec -it hadoop b
阅读全文
摘要:1. 搭建测试环境安装 1.1 下载并启动docker-compose容器 # 该 Docker Compose 中包含的容器有: # DataGen:数据生成器。容器启动后会自动开始生成用户行为数据,并发送到 Kafka 集群中。默认每秒生成 1000 条数据,持续生成约 3 小时。也可以更改 d
阅读全文
摘要:https://www.iteblog.com/archives/6625.html?from=like
阅读全文
摘要:docker run -d -p 9047:9047 -p 31010:31010 -p 45678:45678 dremio/dremio-oss
阅读全文
摘要:ref: https://blog.csdn.net/qq_41455420/article/details/79399096
阅读全文
摘要:1.什么是数据模型? 数据模型就是数据的组织和存储方法。主要关注的是从业务、数据存取和使用角度合理存储数据。 2.典型数据仓库建模方法论 ER模型 维度模型(建模四步曲:确定业务流程->确定粒度->确定维度->确定事实表) 1.体系架构 2.模型分层 主要分为三大层(4小层): 操作数据层(ODS) 公共维度模型层(CDM) ...
阅读全文
摘要:Spark2.3.0依赖的netty-all-4.1.17.Final.jar 与 hbase1.2.0依赖的netty-all-4.0.23.Final.jar 冲突 Ref: https://blog.csdn.net/liumu243/article/details/81111273
阅读全文
摘要:定位: HIVE:长时间的批处理查询分析 impala:实时交互式SQL查询 impala优缺点优点: 1. 生成执行计划树,不用多次启动job造成多余开销,并且减少中间结果数据写入磁盘,执行速度快 2. 不占用yarn的资源 3. 缺点: 1. 不支持Date类型 2. 与HIVE数据不同步,需要
阅读全文
摘要:Map意为映射,就是将数据映射为其他形式,如转换(加减乘除改格式),拓展(String的split一变多),以及过滤等。输出为KeyValue格式Reduce意为收缩
阅读全文
摘要:ref: https://blog.csdn.net/maizi1045/article/details/79481686
阅读全文
摘要:beeline -u 'jdbc:hive2://zk01:2181,zk02:2181,zk03:2181/;serviceDiscoveryMode=zooKeeper;zooKeeperNamespace=hiveserver2' -n username -p 'password' --verbose=true
阅读全文
摘要:ref:https://blog.csdn.net/trigl/article/details/68944434
阅读全文
摘要:Oozie使用的时候有以下不便: [a]Oozie调度的Workflow只能使用XML文件配置 [b]启动调度只能通过命令行 [c]无法通过Oozie界面调试调度脚本 [d]Oozie无法可视化调试脚本时候 [e]无法分组,权限管理等
阅读全文
摘要:select regexp_replace(reflect("java.util.UUID", "randomUUID"), "-", "") as uuid ,rand() -- rand_num ,rand(100) -- rand_num_seed ; SELECT * FROM DISTRIBUTE BY RAND() SORT B...
阅读全文
摘要:### 查看目录配额 hdfs dfs -count -q -h /user/hive/warehouse/db_name.db ### 查看整个HDFS的空间大小 hdfs dfs -df -h /user/ Filesystem Size Used Available Use% hdfs://hdfs01 10 P 8 P ...
阅读全文
摘要:cat /etc/zookeeper/conf/zoo.cfg 找到dataDir=/var/lib/zookeeper 切换到路径/var/lib/zookeeper cd /var/lib/zookeeper 查看目录下的文件: ls 存在version-2 删除version-2 mv ./v
阅读全文