上一页 1 2 3 4 5 6 ··· 22 下一页
摘要: Sequence函数 用Sequence函数生成时间序列函数,真的是非常简便易用,之前因为没找到,所以走了不少弯路。 println("指定开始和结束数字,生成对应的数字序列,通过第三个参数来控制步长") SparkUtil.executeSQL(""" |select explode(sequen 阅读全文
posted @ 2022-11-20 23:42 硅谷工具人 阅读(368) 评论(0) 推荐(0) 编辑
摘要: 1. 均衡操作 以1.4.9版本为例,默认balance策略是开启状态。如果关闭,在Ui会出现如下警告: The Load Balancer is not enabled which will eventually cause performance degradation in HBase as 阅读全文
posted @ 2022-11-18 15:40 硅谷工具人 阅读(279) 评论(0) 推荐(0) 编辑
摘要: hadoop如果一个节点内有新增磁盘或者数据出现在磁盘上不均衡时,需要做磁盘均衡,就是将其他已经写入数据的磁盘均衡到新增加的磁盘上去,大概分为以下三个步骤,计划,执行,查询: 一般默认都开启了磁盘均衡,但是我这种状况特殊,公司给的初始磁盘大小不一样。。。我也没辙。。我只是试验下,我这种情况能否做数据 阅读全文
posted @ 2022-11-17 10:27 硅谷工具人 阅读(105) 评论(0) 推荐(0) 编辑
摘要: 将hbase目录拷贝后命名为hbase2,然后在hbase2中做如下修改。 1.hbase-site.xml hbase的默认端口是16020和16030,所以这里使用16120和16130。 <property> <name>hbase.regionserver.port</name> <valu 阅读全文
posted @ 2022-11-09 14:31 硅谷工具人 阅读(174) 评论(0) 推荐(0) 编辑
摘要: 需求说明 期初是我们的物理机上安装了Hbase,由于物理机硬件配置还可以,1T内存,64核。 只有4台机器,我们装完Hbase后,发现应用请求比较多,导致RegionServer经常挂掉。 但是机器本身资源使用率并不高,因此我们希望在一个节点上启用多个RegionServer服务。 如果一个节点启动 阅读全文
posted @ 2022-11-09 14:03 硅谷工具人 阅读(92) 评论(0) 推荐(0) 编辑
摘要: 问题:hbase集群请求超负载,导致HRegionServer服务宕掉,出现Region in Transition状态 重启后,如果Region in Transition一直存在很长时间,需要查看是否被某个producer锁住。 hbase修复工具下载地址 这里是源码,需要自己下载编译成jar包 阅读全文
posted @ 2022-10-27 19:31 硅谷工具人 阅读(776) 评论(0) 推荐(0) 编辑
摘要: 1. HbaseUtil工具类 Hbase虽然提供了相关的API,但是在实际使用过程中还是非常麻烦,因此根据官方的API封装对应的工具类,从而简化开发操作。 package com.king import java.math.BigDecimal import java.util import co 阅读全文
posted @ 2022-10-20 16:55 硅谷工具人 阅读(81) 评论(0) 推荐(0) 编辑
摘要: 1.RowKey设计 省略 2.参数优化 2.1 zk会话超时时间 hbase-site.xml zookeeper.session.timeout: 默认值90000毫秒(90s)。 当某个RegionServer挂掉后,90s之后Master才能察觉到。可适当减少此值,尽可能块的检测region 阅读全文
posted @ 2022-10-20 16:13 硅谷工具人 阅读(327) 评论(0) 推荐(0) 编辑
摘要: 默认我们使用的hive自带的json包格式,创建表时格式为: CREATE EXTERNAL TABLE `ods.ods_test`( ... ) ROW FORMAT SERDE 'org.apache.hive.hcatalog.data.JsonSerDe' STORED AS text; 阅读全文
posted @ 2022-09-29 12:44 硅谷工具人 阅读(157) 评论(0) 推荐(0) 编辑
摘要: 前提是主库的MySQL开启了Binlog,不然需要修改配置,然后重启MySQL 1.主库配置 [mysqld] max_allowed_packet=1024M server-id=1 log-bin=mysql-bin binlog_format=row # 必须为FULL,MySQL-5.7后才 阅读全文
posted @ 2022-09-22 01:23 硅谷工具人 阅读(66) 评论(0) 推荐(0) 编辑
摘要: 当运维丢给你一台新装的操作系统,本文将记录手工添加一个节点需要做哪些具体的操作,当前的版本是apache hadoop,未使用CDH版本。 1 系统环境设置 1.1 修改hostname 根据IP设置对应节点的名称,比如增加一个192.168.1.130节点作为数据节点。 临时设置:hostname 阅读全文
posted @ 2022-09-17 10:57 硅谷工具人 阅读(73) 评论(0) 推荐(0) 编辑
摘要: 做机器迁移,导致flink程序写iceberg失败,原因是hive的元数据存储库mysql停了一段时间。 然后flink出现以下异常, org.apache.iceberg.exceptions.NotFoundException: Failed to open input stream for f 阅读全文
posted @ 2022-09-15 13:10 硅谷工具人 阅读(284) 评论(0) 推荐(0) 编辑
摘要: 有5个zk节点,有1个节点查看状态一直报错: ZooKeeper JMX enabled by default Using config: /home/hadoop/bigdata/zk/bin/../conf/zoo.cfg Client port found: 2181. Client addr 阅读全文
posted @ 2022-09-14 23:42 硅谷工具人 阅读(250) 评论(0) 推荐(0) 编辑
摘要: 1、备份命令 格式:mysqldump -h主机名 -P端口 -u用户名 -p密码 --database 数据库名 > 文件名.sql 例如: mysqldump -h 192.168.1.100 -p 3306 -uroot -ppassword --database cmdb > /data/b 阅读全文
posted @ 2022-09-13 17:49 硅谷工具人 阅读(169) 评论(0) 推荐(0) 编辑
摘要: Mysql的binlog开启后一直没清理,占用太大空间 1.查看binlog过期时间 show variables like 'expire_logs_days'; expire_logs_days=0: 这里的值如果为0,表示所有binlog日志永久都不会失效,不会自动删除; 这里的值如果为30, 阅读全文
posted @ 2022-09-13 16:25 硅谷工具人 阅读(507) 评论(0) 推荐(0) 编辑
摘要: 1. 原因 写入iceberg表时,会在hive_locks表中插入一条记录,表示该表正在被写入(hive中的独占锁) 当数据插入完成后,会自动删除该条记录。 2. 出现场景 (1)在同时往同一个iceberg表中写入数据时,会出现Retrying task after failure: Waiti 阅读全文
posted @ 2022-09-08 15:42 硅谷工具人 阅读(620) 评论(0) 推荐(0) 编辑
摘要: SQL 错误 [1] [08S01]: Error while processing statement: FAILED: Execution Error, return code 1 from org.apache.hadoop.hive.ql.exec.DDLTask. org.apache.i 阅读全文
posted @ 2022-09-08 12:09 硅谷工具人 阅读(138) 评论(0) 推荐(0) 编辑
摘要: 执行spark任务居然碰到了hive中表的被锁了,导致写数据时失败,这个还真是头一次碰到过这回事。 错误信息如下: 22/09/04 21:02:28 WARN Tasks: Retrying task after failure: Waiting for lock. org.apache.iceb 阅读全文
posted @ 2022-09-04 21:18 硅谷工具人 阅读(375) 评论(0) 推荐(0) 编辑
摘要: 感悟:有时候很简单的笨办法,比那些高大上的技术要实用的多。 有一个数据同步,大约4亿条记录,没有分区。现在要按照天,小时分区写入到iceberg的分区表中。 源数据中本身就是很多几十k大小的非常多的小文件。 于是在读取时,总想着要shuffle,合并小文件,于是是这样的: hive_df = spa 阅读全文
posted @ 2022-09-04 12:31 硅谷工具人 阅读(1899) 评论(1) 推荐(3) 编辑
摘要: PySpark版本: https://spark.apache.org/docs/2.4.8/api/python/pyspark.sql.html Scala Spark版本: https://spark.apache.org/docs/2.4.8/api/scala/index.html#org 阅读全文
posted @ 2022-08-31 15:32 硅谷工具人 阅读(60) 评论(0) 推荐(0) 编辑
上一页 1 2 3 4 5 6 ··· 22 下一页
成功之道,在于每个人生阶段都要有不同的目标,并且通过努力实现自己的目标,毕竟人生不过百年! 所有奋斗的意义在于为个人目标实现和提升家庭幸福,同时能推进社会进步和国家目标! 正如古人讲的正心诚意格物致知,修身齐家治国平天下。