随笔分类 -  BigData

1 2 3 4 5 ··· 11 下一页
摘要:hbase有一个region一直处于rit状态,对该region进行move/assign/unassign都没有反应,使用hbck2进行assigns/unassigns也没有反应 查改hbase当前的lock状态发现 hbase(main):003:0> list_locks NAMESPACE 阅读全文
posted @ 2022-06-16 14:12 匠人先生 阅读(945) 评论(0) 推荐(0) 编辑
摘要:HMaster页面上Regions In Transition部分有一个region一直处于transition状态,但是没有超时,而是不断重试,1s会重试4-5次,region信息 NS1:TB1,4120J5402AAD3N76TRTffUlocation1618464157000,163790 阅读全文
posted @ 2022-06-16 14:00 匠人先生 阅读(464) 评论(0) 推荐(0) 编辑
摘要:hbase集群重启后异常,发现是master初始化失败导致的,在master启动日志中发现问题原因为 2022-05-26 14:06:15,645 WARN org.apache.hadoop.hbase.master.HMaster: hbase:namespace,,1607716627354 阅读全文
posted @ 2022-06-16 10:14 匠人先生 阅读(707) 评论(0) 推荐(0) 编辑
摘要:http://hive.apache.org/ The Apache Hive ™ data warehouse software facilitates reading, writing, and managing large datasets residing in distributed st 阅读全文
posted @ 2022-05-31 17:53 匠人先生 阅读(244) 评论(0) 推荐(0) 编辑
摘要:https://hadoop.apache.org A framework for job scheduling and cluster resource management. 一 部署 角色 ResourceManager、NodeManager 客户端 Job、AppMaster、Contai 阅读全文
posted @ 2022-05-31 16:17 匠人先生 阅读(267) 评论(0) 推荐(0) 编辑
摘要:https://hadoop.apache.org A distributed file system that provides high-throughput access to application data. 特点: 大文件、一次写入多次读取,修改只支持Append 多副本 流式、非低延时 阅读全文
posted @ 2022-05-31 16:05 匠人先生 阅读(273) 评论(0) 推荐(0) 编辑
摘要:一 50年科技发展史 方向 公司组织 年代 代表 大型机 IBM 70年代 System z、AIX 小型机 DEC、SUN 80年代 SPARC、Solaris 廉价PC+光纤 Google 90年代 Intel、Seagate 大数据 Google 2003-2004 GFS、MapReduce 阅读全文
posted @ 2022-05-31 12:10 匠人先生 阅读(154) 评论(0) 推荐(0) 编辑
摘要:1 冷热分离(Hot/Warm/Cold) Index Lifecircle Management Policy 索引特点 Hot: 索引被更新,大量被查询 Warm: 索引不更新,偶尔被查询 Cold: 索引不更新,很少被查询 Delete: 索引不更新,不被查询 参考:https://www.e 阅读全文
posted @ 2022-05-29 19:11 匠人先生 阅读(117) 评论(0) 推荐(0) 编辑
摘要:一 测试数据 SSB (Star Schema Benchmark) SSB SSB将TPC-H的雪花模式简化为了星型模式,将基准查询由TPC-H的复杂Ad-Hoc查询改为了结构更固定的OLAP查询 table comment lineorder 订单表 customer 用户表 supplier 阅读全文
posted @ 2022-05-20 18:09 匠人先生 阅读(475) 评论(0) 推荐(0) 编辑
摘要:*** doris clickhouse 官网 http://doris.apache.org/ https://clickhouse.tech/ 版本 0.14.0 21.7.2.7 开源 是 是 开发语言 * java + c c 安装 源码编译 rpm包 定位 olap olap 架构 mpp 阅读全文
posted @ 2022-05-20 18:01 匠人先生 阅读(2167) 评论(0) 推荐(0) 编辑
摘要:所有选项如下: 命令示例如下: bin/kafka-consumer-groups.sh --bootstrap-server kafka_1:9092,kafka_2:9092,kafka_3:9092,kafka_4:9092,kafka_5:9092 --group group_name -- 阅读全文
posted @ 2022-05-20 18:00 匠人先生 阅读(684) 评论(0) 推荐(0) 编辑
摘要:kafka开启压缩后,可以极大的优化磁盘占用和网络传输开销,以及cpu占用和gc时间,开启压缩的参数为compression.type Specify the final compression type for a given topic. This configuration accepts t 阅读全文
posted @ 2022-05-20 17:52 匠人先生 阅读(1201) 评论(0) 推荐(0) 编辑
摘要:impala从3.1版本开始支持orc格式查询,不过是experimental 开启方法,在cdh的impala配置中添加 --enable_orc_scanner=true 然后重启impala集群。 官方文档: https://docs.cloudera.com/documentation/en 阅读全文
posted @ 2022-05-20 17:18 匠人先生 阅读(510) 评论(0) 推荐(0) 编辑
摘要:hive-site.xml 1 接入ldap或ad域 <property> <name>hive.server2.authentication</name> <value>LDAP</value> </property> <property> <name>hive.server2.authentic 阅读全文
posted @ 2022-05-20 16:51 匠人先生 阅读(834) 评论(0) 推荐(0) 编辑
摘要:背景 有同学反馈kafka某个topic有消息丢失(消费比生产的要少),丢失率大概20% 排查 出现问题的topic的replication-factor为2,partition数量为5,该topic状态如下: 有一个topic处于Under Replicated状态,ISR只有1个,193节点被踢 阅读全文
posted @ 2022-05-20 16:17 匠人先生 阅读(2440) 评论(0) 推荐(0) 编辑
摘要:背景 kafka执行reassign后部分partition一直is still in progress,日志如下: 定位 经排查发现问题原因是做reassign的时候,将分区从相同broker的一个盘移动到另一个盘,这个操作目前还不被支持,官方解释如下 How to move replica be 阅读全文
posted @ 2022-05-19 17:32 匠人先生 阅读(487) 评论(0) 推荐(0) 编辑
摘要:背景 2个节点分别升级spark版本,从2.4升级到3.1,升级后一个节点执行spark-sql正常,另一个节点执行报错,报错信息如下: spark-sql> select * from $table where dt = '$dt' limit 5; Error in query: org.apa 阅读全文
posted @ 2022-05-19 16:51 匠人先生 阅读(889) 评论(0) 推荐(0) 编辑
摘要:背景 hive读取纯文本数据,无论是:原始格式、gzip、bzip,都可以自动识别,不需要修改建表语句或修改setting。 但是使用gobblin开启gzip压缩之后保存文件使用hive读取发生乱码。 定位 首先怀疑是文件损坏 gobblin开启压缩之后写的文件为:*.txt.gzip,将该文件下 阅读全文
posted @ 2022-05-19 16:32 匠人先生 阅读(553) 评论(0) 推荐(0) 编辑
摘要:假如hive中table或者partition的location错误或者丢失,需要批量修复,可以参考如下步骤: 修复table的location hdfs dfs -ls /data/hive/warehouse/$db | awk '{print $8}' |sed '1d' | awk -F ' 阅读全文
posted @ 2022-05-19 16:20 匠人先生 阅读(343) 评论(0) 推荐(0) 编辑
摘要:背景 在hive sql中执行添加临时udf的操作 add jar hdfs:///user/hive/lib/tools-1.0.jar; create temporary function decode as 'com.test.etl.Decoder'; 在定时任务重偶尔会报错,报错比较随机, 阅读全文
posted @ 2022-05-19 15:11 匠人先生 阅读(382) 评论(0) 推荐(0) 编辑

1 2 3 4 5 ··· 11 下一页
点击右上角即可分享
微信分享提示