硅谷工具人 - 博客园

2022年11月20日

摘要： Sequence函数用Sequence函数生成时间序列函数，真的是非常简便易用，之前因为没找到，所以走了不少弯路。 println("指定开始和结束数字，生成对应的数字序列，通过第三个参数来控制步长") SparkUtil.executeSQL(""" |select explode(sequen 阅读全文

posted @ 2022-11-20 23:42 硅谷工具人阅读(599) 评论(0) 推荐(0)

2022年11月18日

Hbase balance是个啥

摘要： 1. 均衡操作以1.4.9版本为例，默认balance策略是开启状态。如果关闭，在Ui会出现如下警告： The Load Balancer is not enabled which will eventually cause performance degradation in HBase as 阅读全文

posted @ 2022-11-18 15:40 硅谷工具人阅读(405) 评论(0) 推荐(0)

2022年11月17日

Hadoop单个节点的磁盘均衡

摘要： hadoop如果一个节点内有新增磁盘或者数据出现在磁盘上不均衡时，需要做磁盘均衡，就是将其他已经写入数据的磁盘均衡到新增加的磁盘上去，大概分为以下三个步骤，计划，执行，查询：一般默认都开启了磁盘均衡，但是我这种状况特殊，公司给的初始磁盘大小不一样。。。我也没辙。。我只是试验下，我这种情况能否做数据阅读全文

posted @ 2022-11-17 10:27 硅谷工具人阅读(156) 评论(0) 推荐(0)

2022年11月9日

Hbase单节点多RegionServer服务配置

摘要：将hbase目录拷贝后命名为hbase2,然后在hbase2中做如下修改。 1.hbase-site.xml hbase的默认端口是16020和16030，所以这里使用16120和16130。 <property> <name>hbase.regionserver.port</name> <valu 阅读全文

posted @ 2022-11-09 14:31 硅谷工具人阅读(264) 评论(0) 推荐(0)

shell脚本实现Hbase服务的监控报警和自动拉起

摘要：需求说明期初是我们的物理机上安装了Hbase，由于物理机硬件配置还可以，1T内存，64核。只有4台机器，我们装完Hbase后，发现应用请求比较多，导致RegionServer经常挂掉。但是机器本身资源使用率并不高，因此我们希望在一个节点上启用多个RegionServer服务。如果一个节点启动阅读全文

posted @ 2022-11-09 14:03 硅谷工具人阅读(135) 评论(0) 推荐(0)

2022年10月27日

Hbase Region in Transition解决方法

摘要：问题：hbase集群请求超负载，导致HRegionServer服务宕掉，出现Region in Transition状态重启后，如果Region in Transition一直存在很长时间，需要查看是否被某个producer锁住。 hbase修复工具下载地址这里是源码，需要自己下载编译成jar包阅读全文

posted @ 2022-10-27 19:31 硅谷工具人阅读(1102) 评论(0) 推荐(0)

2022年10月20日

Hbase工具类-API操作

摘要： 1. HbaseUtil工具类 Hbase虽然提供了相关的API，但是在实际使用过程中还是非常麻烦，因此根据官方的API封装对应的工具类，从而简化开发操作。 package com.king import java.math.BigDecimal import java.util import co 阅读全文

posted @ 2022-10-20 16:55 硅谷工具人阅读(193) 评论(0) 推荐(0)

Hbase参数调优

摘要： 1.RowKey设计省略 2.参数优化 2.1 zk会话超时时间 hbase-site.xml zookeeper.session.timeout: 默认值90000毫秒(90s)。当某个RegionServer挂掉后，90s之后Master才能察觉到。可适当减少此值，尽可能块的检测region 阅读全文

posted @ 2022-10-20 16:13 硅谷工具人阅读(467) 评论(0) 推荐(0)

2022年9月29日

hive中使用hive原生的json报错的问题

摘要：默认我们使用的hive自带的json包格式，创建表时格式为： CREATE EXTERNAL TABLE `ods.ods_test`( ... ) ROW FORMAT SERDE 'org.apache.hive.hcatalog.data.JsonSerDe' STORED AS text; 阅读全文

posted @ 2022-09-29 12:44 硅谷工具人阅读(277) 评论(0) 推荐(0)

2022年9月22日

MySQL在线实现主从配置

摘要：前提是主库的MySQL开启了Binlog，不然需要修改配置，然后重启MySQL 1.主库配置 [mysqld] max_allowed_packet=1024M server-id=1 log-bin=mysql-bin binlog_format=row # 必须为FULL，MySQL-5.7后才阅读全文

posted @ 2022-09-22 01:23 硅谷工具人阅读(119) 评论(0) 推荐(0)

2022年9月17日

如何在大数据集群中手工增加一个节点

摘要：当运维丢给你一台新装的操作系统，本文将记录手工添加一个节点需要做哪些具体的操作，当前的版本是apache hadoop，未使用CDH版本。 1 系统环境设置 1.1 修改hostname 根据IP设置对应节点的名称，比如增加一个192.168.1.130节点作为数据节点。临时设置：hostname 阅读全文

posted @ 2022-09-17 10:57 硅谷工具人阅读(113) 评论(0) 推荐(0)

2022年9月15日

org.apache.iceberg.exceptions.NotFoundException: Failed to open input stream for file:hdfs://ns1/user/hive/warehouse/iceberg_ods.db/xxxxxx/metadata/xxx.metadata.json

摘要：做机器迁移，导致flink程序写iceberg失败，原因是hive的元数据存储库mysql停了一段时间。然后flink出现以下异常， org.apache.iceberg.exceptions.NotFoundException: Failed to open input stream for f 阅读全文

posted @ 2022-09-15 13:10 硅谷工具人阅读(448) 评论(0) 推荐(0)

2022年9月14日

Have smaller server identifier, so dropping the connection: (2, 1)

摘要：有5个zk节点，有1个节点查看状态一直报错： ZooKeeper JMX enabled by default Using config: /home/hadoop/bigdata/zk/bin/../conf/zoo.cfg Client port found: 2181. Client addr 阅读全文

posted @ 2022-09-14 23:42 硅谷工具人阅读(399) 评论(0) 推荐(0)

2022年9月13日

MySQL数据库备份

摘要： 1、备份命令格式：mysqldump -h主机名 -P端口 -u用户名 -p密码 --database 数据库名 > 文件名.sql 例如： mysqldump -h 192.168.1.100 -p 3306 -uroot -ppassword --database cmdb > /data/b 阅读全文

posted @ 2022-09-13 17:49 硅谷工具人阅读(213) 评论(0) 推荐(0)

清理MySQL中的binlog

摘要： Mysql的binlog开启后一直没清理，占用太大空间 1.查看binlog过期时间 show variables like 'expire_logs_days'; expire_logs_days=0：这里的值如果为0，表示所有binlog日志永久都不会失效，不会自动删除；这里的值如果为30，阅读全文

posted @ 2022-09-13 16:25 硅谷工具人阅读(699) 评论(0) 推荐(0)

2022年9月8日

hive中使用iceberg表格式时锁表总结

摘要： 1. 原因写入iceberg表时，会在hive_locks表中插入一条记录，表示该表正在被写入(hive中的独占锁) 当数据插入完成后，会自动删除该条记录。 2. 出现场景（1）在同时往同一个iceberg表中写入数据时，会出现Retrying task after failure: Waiti 阅读全文

posted @ 2022-09-08 15:42 硅谷工具人阅读(1125) 评论(0) 推荐(0)

hive删除表后重新创建时提示表已存在并且卡死

摘要： SQL 错误 [1] [08S01]: Error while processing statement: FAILED: Execution Error, return code 1 from org.apache.hadoop.hive.ql.exec.DDLTask. org.apache.i 阅读全文

posted @ 2022-09-08 12:09 硅谷工具人阅读(322) 评论(0) 推荐(0)

2022年9月4日

Retrying task after failure: Waiting for lock. org.apache.iceberg.hive.HiveTableOperations$WaitingForLockException: Waiting for lock.

摘要：执行spark任务居然碰到了hive中表的被锁了，导致写数据时失败，这个还真是头一次碰到过这回事。错误信息如下： 22/09/04 21:02:28 WARN Tasks: Retrying task after failure: Waiting for lock. org.apache.iceb 阅读全文

posted @ 2022-09-04 21:18 硅谷工具人阅读(497) 评论(0) 推荐(0)

折腾一晚上的事情，明白了一个道理

摘要：感悟：有时候很简单的笨办法，比那些高大上的技术要实用的多。有一个数据同步，大约4亿条记录，没有分区。现在要按照天，小时分区写入到iceberg的分区表中。源数据中本身就是很多几十k大小的非常多的小文件。于是在读取时，总想着要shuffle，合并小文件,于是是这样的： hive_df = spa 阅读全文

posted @ 2022-09-04 12:31 硅谷工具人阅读(2054) 评论(1) 推荐(3)

2022年8月31日

Spark SQL Dataset模块官方文档

摘要： PySpark版本： https://spark.apache.org/docs/2.4.8/api/python/pyspark.sql.html Scala Spark版本： https://spark.apache.org/docs/2.4.8/api/scala/index.html#org 阅读全文

posted @ 2022-08-31 15:32 硅谷工具人阅读(83) 评论(0) 推荐(0)

时间的往事

所有命运赠送的礼物，早已在暗中标着价格。

公告