随笔分类 - BigData
摘要:hbase有一个region一直处于rit状态,对该region进行move/assign/unassign都没有反应,使用hbck2进行assigns/unassigns也没有反应 查改hbase当前的lock状态发现 hbase(main):003:0> list_locks NAMESPACE
阅读全文
摘要:HMaster页面上Regions In Transition部分有一个region一直处于transition状态,但是没有超时,而是不断重试,1s会重试4-5次,region信息 NS1:TB1,4120J5402AAD3N76TRTffUlocation1618464157000,163790
阅读全文
摘要:hbase集群重启后异常,发现是master初始化失败导致的,在master启动日志中发现问题原因为 2022-05-26 14:06:15,645 WARN org.apache.hadoop.hbase.master.HMaster: hbase:namespace,,1607716627354
阅读全文
摘要:http://hive.apache.org/ The Apache Hive ™ data warehouse software facilitates reading, writing, and managing large datasets residing in distributed st
阅读全文
摘要:https://hadoop.apache.org A framework for job scheduling and cluster resource management. 一 部署 角色 ResourceManager、NodeManager 客户端 Job、AppMaster、Contai
阅读全文
摘要:https://hadoop.apache.org A distributed file system that provides high-throughput access to application data. 特点: 大文件、一次写入多次读取,修改只支持Append 多副本 流式、非低延时
阅读全文
摘要:一 50年科技发展史 方向 公司组织 年代 代表 大型机 IBM 70年代 System z、AIX 小型机 DEC、SUN 80年代 SPARC、Solaris 廉价PC+光纤 Google 90年代 Intel、Seagate 大数据 Google 2003-2004 GFS、MapReduce
阅读全文
摘要:1 冷热分离(Hot/Warm/Cold) Index Lifecircle Management Policy 索引特点 Hot: 索引被更新,大量被查询 Warm: 索引不更新,偶尔被查询 Cold: 索引不更新,很少被查询 Delete: 索引不更新,不被查询 参考:https://www.e
阅读全文
摘要:一 测试数据 SSB (Star Schema Benchmark) SSB SSB将TPC-H的雪花模式简化为了星型模式,将基准查询由TPC-H的复杂Ad-Hoc查询改为了结构更固定的OLAP查询 table comment lineorder 订单表 customer 用户表 supplier
阅读全文
摘要:*** doris clickhouse 官网 http://doris.apache.org/ https://clickhouse.tech/ 版本 0.14.0 21.7.2.7 开源 是 是 开发语言 * java + c c 安装 源码编译 rpm包 定位 olap olap 架构 mpp
阅读全文
摘要:所有选项如下: 命令示例如下: bin/kafka-consumer-groups.sh --bootstrap-server kafka_1:9092,kafka_2:9092,kafka_3:9092,kafka_4:9092,kafka_5:9092 --group group_name --
阅读全文
摘要:kafka开启压缩后,可以极大的优化磁盘占用和网络传输开销,以及cpu占用和gc时间,开启压缩的参数为compression.type Specify the final compression type for a given topic. This configuration accepts t
阅读全文
摘要:impala从3.1版本开始支持orc格式查询,不过是experimental 开启方法,在cdh的impala配置中添加 --enable_orc_scanner=true 然后重启impala集群。 官方文档: https://docs.cloudera.com/documentation/en
阅读全文
摘要:hive-site.xml 1 接入ldap或ad域 <property> <name>hive.server2.authentication</name> <value>LDAP</value> </property> <property> <name>hive.server2.authentic
阅读全文
摘要:背景 有同学反馈kafka某个topic有消息丢失(消费比生产的要少),丢失率大概20% 排查 出现问题的topic的replication-factor为2,partition数量为5,该topic状态如下: 有一个topic处于Under Replicated状态,ISR只有1个,193节点被踢
阅读全文
摘要:背景 kafka执行reassign后部分partition一直is still in progress,日志如下: 定位 经排查发现问题原因是做reassign的时候,将分区从相同broker的一个盘移动到另一个盘,这个操作目前还不被支持,官方解释如下 How to move replica be
阅读全文
摘要:背景 2个节点分别升级spark版本,从2.4升级到3.1,升级后一个节点执行spark-sql正常,另一个节点执行报错,报错信息如下: spark-sql> select * from $table where dt = '$dt' limit 5; Error in query: org.apa
阅读全文
摘要:背景 hive读取纯文本数据,无论是:原始格式、gzip、bzip,都可以自动识别,不需要修改建表语句或修改setting。 但是使用gobblin开启gzip压缩之后保存文件使用hive读取发生乱码。 定位 首先怀疑是文件损坏 gobblin开启压缩之后写的文件为:*.txt.gzip,将该文件下
阅读全文
摘要:假如hive中table或者partition的location错误或者丢失,需要批量修复,可以参考如下步骤: 修复table的location hdfs dfs -ls /data/hive/warehouse/$db | awk '{print $8}' |sed '1d' | awk -F '
阅读全文
摘要:背景 在hive sql中执行添加临时udf的操作 add jar hdfs:///user/hive/lib/tools-1.0.jar; create temporary function decode as 'com.test.etl.Decoder'; 在定时任务重偶尔会报错,报错比较随机,
阅读全文