摘要: 大数据公司业务高速发展过程中数据业务需求越来越复杂,所需要的算力也越来越大,进一步导致集群的规模越来越大,承担的产品也越来越多,集群面临资源负载过高、资源抢占严重、RPC请求负载过高等问题,存储系统也面临空文件过多、垃圾文件过多、小文件过多、平均文件大小过小、文件数持续增长等一系列问题,存储系统稳定 阅读全文
posted @ 2021-03-20 21:52 Simon92 阅读(83) 评论(0) 推荐(0) 编辑
摘要: nsenter命令是一个可以在指定进程的命令空间下运行指定程序的命令。它位于util-linux包中。 用途 一个最典型的用途就是进入容器的网络命令空间。相当多的容器为了轻量级,是不包含较为基础的命令的,比如说ip address,ping,telnet,ss,tcpdump等等命令,这就给调试容器 阅读全文
posted @ 2021-12-03 11:23 Simon92 阅读(281) 评论(0) 推荐(0) 编辑
摘要: 当docker容器的网络模式不是--net=host(如果启动容器的时候使用host模式,那么这个容器将不会获得一个独立的Network Namespace,而是和宿主机共用一个Network Namespace。容器将不会虚拟出自己的网卡,配置自己的IP等,而是使用宿主机的IP和端口)时,容器和宿 阅读全文
posted @ 2021-12-03 11:17 Simon92 阅读(921) 评论(0) 推荐(0) 编辑
摘要: 4.21 阅读全文
posted @ 2021-04-21 16:52 Simon92 阅读(38) 评论(0) 推荐(0) 编辑
摘要: 如何使用 1.把以上程序打包成AddDoublesUDF.jar,并上传到HDFS指定目录下(如“/user/hive_examples_jars/”)且创建函数的用户与使用函数的用户有该文件的可读权限。示例语句: hdfs dfs -put ./hive_examples_jars /user/h 阅读全文
posted @ 2021-04-20 10:00 Simon92 阅读(165) 评论(0) 推荐(0) 编辑
摘要: http://ops3:8088/ws/v1/cluster/apps?states=running This XML file does not appear to have any style information associated with it. The document tree i 阅读全文
posted @ 2021-04-16 23:45 Simon92 阅读(112) 评论(0) 推荐(0) 编辑
摘要: 4月7号 阅读全文
posted @ 2021-04-07 22:09 Simon92 阅读(36) 评论(0) 推荐(0) 编辑
摘要: Ambari+HDP 部署 • HDP是Hortonworks公司推出的Hadoop发行版,目前大版本最高为3。由于Cloudera和Hortonworks已在2018年合并,且今后该公司的集群管理软件都会在CM的基础上继续迭代,因此HDP的安装方法我们只做了解即可。 • 我们安装Ambari 2. 阅读全文
posted @ 2021-04-05 20:39 Simon92 阅读(339) 评论(0) 推荐(0) 编辑
摘要: sentry缺点: 1、组件只支持hive、hdfs、impala 不支持hbase,stome等 show roles; create role admin_zr; 0: jdbc:hive2://cbp5.chinaoly.com:10000/> grant all on server serv 阅读全文
posted @ 2021-04-04 18:26 Simon92 阅读(98) 评论(0) 推荐(0) 编辑
摘要: 集群资源队列监控:Grafana common.sh #!/bin/sh . ~/.bashrc home=$(cd `dirname $0`; cd ..; pwd) bin_home=$home/bin config_home=$home/conf logs_home=$home/logs li 阅读全文
posted @ 2021-04-03 12:04 Simon92 阅读(321) 评论(0) 推荐(0) 编辑
摘要: #!/bin/sh home=$(cd `dirname $0`; cd ..; pwd) . ${home}/bin/common.sh export HADOOP_HEAPSIZE=20000 fsimage_binary_name=`ls ${fsimage_binary_path} | gr 阅读全文
posted @ 2021-04-01 23:11 Simon92 阅读(64) 评论(0) 推荐(0) 编辑
摘要: #! /bin/sh base_dir=$(cd "$(dirname $0)"; pwd) export JAVA_HOME=/usr/java/jdk1.8.0_51 export PATH=/root/anaconda3/bin:/bin:/usr/lib64/qt-3.3/bin:/usr/ 阅读全文
posted @ 2021-03-30 11:03 Simon92 阅读(85) 评论(0) 推荐(0) 编辑
摘要: #!/bin/sh home=$(cd `dirname $0`;cd ..; pwd) .${home}/bin/common.sh hdfs dfs -mkdir -p {fsimage_detail_hdfs_path} hdfs dfs -rm -r ${fsimage_detail_hdf 阅读全文
posted @ 2021-03-26 21:26 Simon92 阅读(64) 评论(0) 推荐(0) 编辑
摘要: Flink time时间: 1、eventing 2、Ingestime 3、processing time 处理乱序 watemark 1.Flink第一个入门程序 package com.djt.flink.batch; import org.apache.flink.api.common.fu 阅读全文
posted @ 2021-03-21 22:11 Simon92 阅读(81) 评论(0) 推荐(0) 编辑
摘要: 优化前: 优化后: 小文件: 1)空文件; 2)小于10M的文件比例、小于50M的文件比例、小于100M的文件比例、小于200M的文件比例、小于1G的文件比例 3)小文件和空文件的所属用户、所属数据库、所属表、所属分区、所属其他目录 4)小文件增长根因 阅读全文
posted @ 2021-03-17 23:29 Simon92 阅读(63) 评论(0) 推荐(0) 编辑
摘要: 3 阅读全文
posted @ 2021-03-13 09:23 Simon92 阅读(44) 评论(0) 推荐(0) 编辑
摘要: 2 阅读全文
posted @ 2021-03-11 22:21 Simon92 阅读(35) 评论(0) 推荐(0) 编辑
摘要: Region >memstore列族 阅读全文
posted @ 2021-03-10 21:40 Simon92 阅读(40) 评论(0) 推荐(0) 编辑
摘要: 3月9号 阅读全文
posted @ 2021-03-09 21:02 Simon92 阅读(37) 评论(0) 推荐(0) 编辑
摘要: 今天碰到一个很奇怪的问题,impala查询34亿条数据报错,不过多亏网上有神仙相助,少了一个插件,具体原因有待思考,,,问题是原创的,解决方案是大神提供的 [cdh004:21000] > select count(*) from impala_100yi;Query: select count(* 阅读全文
posted @ 2021-03-08 17:34 Simon92 阅读(324) 评论(0) 推荐(0) 编辑
摘要: yarn application 命令: application master bin/yarn-session.sh -jm 1024m -tm 4096m hadoop classes export HADOOP_CLASSPATH='hadoop classpath' yarn logs -a 阅读全文
posted @ 2021-03-06 15:28 Simon92 阅读(124) 评论(0) 推荐(0) 编辑
摘要: 3月4 阅读全文
posted @ 2021-03-04 14:53 Simon92 阅读(33) 评论(0) 推荐(0) 编辑
摘要: 3月3 1、加载FSImage; 2、回放EditLog; 3、执行CheckPoing; 4、收集所有datanode的注册和数据块汇报;默认情况下,Namenode会保存两个FSImage文件,于此对应,也会保存对应两次 Checkpoing之后的所有EditLog文件。一般来说,Namenod 阅读全文
posted @ 2021-03-03 09:52 Simon92 阅读(78) 评论(0) 推荐(0) 编辑
摘要: 3月2 [root@cbp1 ~]# sudo -u hdfs hdfs haadmin -getServiceState namenode63 active [root@cbp1 ~]# sudo -u hdfs hdfs haadmin -getServiceState namenode106 阅读全文
posted @ 2021-03-02 09:57 Simon92 阅读(61) 评论(0) 推荐(0) 编辑
摘要: dao >操作数据 service >写业务逻辑 controller >控制层 java 应用程序 >SSM(reservedMB) availableMB http get response body: numCONTRINS: 正在使用的容器数 userLimit: 设置的用户数限制 yarn 阅读全文
posted @ 2021-02-28 19:59 Simon92 阅读(55) 评论(0) 推荐(0) 编辑
摘要: [root@cbp1 ~]# su - hdfs [hdfs@cbp1 ~]$ hdfs dfsadmin -fetchImage ./ 21/02/27 09:23:31 INFO namenode.TransferFsImage: Opening connection to http://cbp 阅读全文
posted @ 2021-02-27 09:49 Simon92 阅读(84) 评论(0) 推荐(0) 编辑
摘要: 1、创建postgres用户组 yum -y install libicu libxslt-devel useradd postgres echo 'postgres'|passwd --stdin postgres //设置密码为postgres 2、rpm安装 rpm -ivh postgres 阅读全文
posted @ 2021-02-26 14:20 Simon92 阅读(219) 评论(0) 推荐(0) 编辑
摘要: 2月25 阅读全文
posted @ 2021-02-25 14:08 Simon92 阅读(56) 评论(0) 推荐(0) 编辑
摘要: 2月23号 阅读全文
posted @ 2021-02-23 17:38 Simon92 阅读(41) 评论(0) 推荐(0) 编辑
摘要: 对YARN日常维护中常用的命令总结如下: 1、YARN用户命令 运行yarn程序(yarn jar) 对yarn程序查询状态、杀死、移动队列等(yarn application) 查看yarn程序的container日志(yarn logs) 其他(如yarn applicationattempt, 阅读全文
posted @ 2021-02-22 22:19 Simon92 阅读(966) 评论(0) 推荐(0) 编辑
摘要: RabbitMQ 高可用集群搭建 1 集群简介 1.1 集群架构 ​ 当单台 RabbitMQ 服务器的处理消息的能力达到瓶颈时,此时可以通过 RabbitMQ 集群来进行扩展,从而达到提升吞吐量的目的。RabbitMQ 集群是一个或多个节点的逻辑分组,集群中的每个节点都是对等的,每个节点共享所有的 阅读全文
posted @ 2021-02-22 14:10 Simon92 阅读(510) 评论(0) 推荐(0) 编辑
摘要: 一天2小时 阅读全文
posted @ 2021-02-21 22:36 Simon92 阅读(32) 评论(0) 推荐(0) 编辑
摘要: 前提:CDH5.16.2 由于数据量过多,磁盘大小太小,导致磁盘使用率高达90%以上,于是新增磁盘,可问题来了,如何将这两块磁盘上的数据进行均衡呢?本次基于CDH来做 1.设置dfs.disk.balancer.enabled 为true 2.生成平衡计划(cbp9.chinaoly.com为主机名 阅读全文
posted @ 2021-02-20 12:54 Simon92 阅读(1164) 评论(0) 推荐(0) 编辑
摘要: 前言 昨天还是周末,公司群里就有人@,说集群有问题了,敲完Hive一直卡在那里进不去,于是我很快登上WebUi,看到了这么一幕:这台节点的磁盘满了,其他的数据分布都比较平均 为什么会这样 这里就不得不说一下HDFS复本存放策略了: namenode如何选择在哪个datanode存储复本(replic 阅读全文
posted @ 2021-02-19 17:11 Simon92 阅读(1242) 评论(0) 推荐(0) 编辑
摘要: 问题 hive执行sql提交到yarn上的任务名字是被处理过的,通常只能显示sql的前边一段和最后几个字符,这样就会带来一些问题: 1)相近时间提交了几个相近的sql,相互之间无法区分; 2)一个任务有问题,想看下这个任务具体执行的是什么?是谁的任务? 解决办法 通过以下方法可以查看: 1)如果任务 阅读全文
posted @ 2021-02-08 09:30 Simon92 阅读(1207) 评论(0) 推荐(0) 编辑
摘要: 8.Flink与Kafka集成开发 8.1.核心代码 KafkaFlinkMySQL package com.djt.flink.news; import java.util.Properties; import org.apache.flink.api.common.functions.FlatM 阅读全文
posted @ 2021-02-07 21:52 Simon92 阅读(306) 评论(0) 推荐(0) 编辑
摘要: 1、spark:DStream Flink:DataStream 2、Flink Time 处理乱序 watemark(水位线机制) 3、个别数据 4、状态容错(面试项目重点) 5、Flink+Kafka项目应用 数据源 》数据采集 》kafka 》流计算(spark/Flink) 》数据输出 获取 阅读全文
posted @ 2021-02-07 21:17 Simon92 阅读(328) 评论(0) 推荐(0) 编辑
摘要: 2月5号日更 阅读全文
posted @ 2021-02-05 09:47 Simon92 阅读(51) 评论(0) 推荐(0) 编辑
摘要: 2月3号日更 阅读全文
posted @ 2021-02-03 13:16 Simon92 阅读(42) 评论(0) 推荐(0) 编辑
摘要: 阅读全文
posted @ 2021-01-31 21:57 Simon92 阅读(808) 评论(0) 推荐(0) 编辑