大数据从业者FelixZh

摘要：阅读全文

posted @ 2025-06-18 18:11 大数据从业者FelixZh 阅读(37) 评论(0) 推荐(0)

[置顶] Linkedin官方kafka性能压测-kafkaBenchmarking Apache Kafka: 2 Million Writes Per Second (On Three Cheap Machines)

摘要： I wrote a blog post about how LinkedIn uses Apache Kafka as a central publish-subscribe log for integrating data between applications, stream processi 阅读全文

posted @ 2020-01-09 11:31 大数据从业者FelixZh 阅读(538) 评论(0) 推荐(1)

[置顶] kafka监控项目大全

摘要： https://github.com/claudemamo/kafka-web-console http://github.com/pinterest/doctorkafka http://github.com/yahoo/kafka-manager http://github.com/linked 阅读全文

posted @ 2019-02-15 16:20 大数据从业者FelixZh 阅读(861) 评论(0) 推荐(1)

[置顶] Kafka Ecosystem（Kafka生态）

摘要： http://kafka.apache.org/documentation/#ecosystem https://cwiki.apache.org/confluence/display/KAFKA/Ecosystem 转至元数据结尾由 Jay Kreps创建, 最终由 Ray Chiang修改于阅读全文

posted @ 2019-01-23 10:07 大数据从业者FelixZh 阅读(1261) 评论(0) 推荐(1)

[置顶] apache kafka & CDH kafka源码编译

摘要： Apache kafka编译前言 github网站kafka项目的README.md有关于kafka源码编译的说明 github地址：https://github.com/apache/kafka 编译环境准备 java maven gradle 编译失败原因：gradle版本太高，降低到4.8 阅读全文

posted @ 2018-11-27 14:21 大数据从业者FelixZh 阅读(1035) 评论(0) 推荐(0)

[置顶] 公司招聘大数据开发工程师（离线计算、实时计算）

摘要：国内某大数据供应商岗位要求1、本科以上学历，计算机及相关专业毕业。2、对大数据处理有强烈兴趣，掌握至少一种主流开源技术方案，如Hadoop、Spark、Flink、Hbase，ES，kafka等，熟悉开源组件开发、系统调优、高可用等技术。3、具备1-3年以上Java开发经验，掌握Python/Sc 阅读全文

posted @ 2018-10-27 09:16 大数据从业者FelixZh 阅读(1637) 评论(0) 推荐(0)

[置顶] centos7.3 kubernetes/k8s 1.10 离线安装 --已验证

摘要：本文介绍在centos7.3使用kubeadm快速离线安装kubernetes 1.10。采用单master，单node（可以多node），占用资源较少，方便在笔记本或学习环境快速部署，不适用于生产环境。所需文件百度盘连接链接：https://pan.baidu.com/s/1iQJpKZ9P 阅读全文

posted @ 2018-09-29 18:59 大数据从业者FelixZh 阅读(2732) 评论(1) 推荐(0)

[置顶] flink源码编译（windows环境）

摘要：前言最新开始捣鼓flink，fucking the code之前，编译是第一步。编译环境 win7 java maven 编译步骤 https://ci.apache.org/projects/flink/flink-docs-release-1.6/start/building.html 官方阅读全文

posted @ 2018-09-21 11:09 大数据从业者FelixZh 阅读(3765) 评论(1) 推荐(0)

[置顶] 个人经常查阅的网站（顺序无先后，持续更新）

摘要：阅读全文

posted @ 2016-11-06 18:25 大数据从业者FelixZh 阅读(3070) 评论(3) 推荐(0)

[置顶] 基于Docker快速搭建多节点Hadoop集群--已验证

摘要： Docker最核心的特性之一，就是能够将任何应用包括Hadoop打包到Docker镜像中。这篇教程介绍了利用Docker在单机上快速搭建多节点 Hadoop集群的详细步骤。作者在发现目前的Hadoop on Docker项目所存在的问题之后，开发了接近最小化的Hadoop镜像，并且支持快速搭建任意节... 阅读全文

posted @ 2015-11-27 16:01 大数据从业者FelixZh 阅读(1240) 评论(0) 推荐(0)

2025年6月10日

Elasticsearch 大数据量如何优化查询性能？

摘要：在面试中，如果你被问到：“Elasticsearch（ES）在数据量很大的情况下（数十亿级别）如何提高查询效率？” 那么面试官其实是在测试你是否有实际使用 ES 的经验。为什么这么说？因为很多人以为 ES 性能非常强大，但实际上，在数据量达到几亿甚至数十亿条时，你可能会惊讶地发现，搜索一次需要 5 阅读全文

posted @ 2025-06-10 16:38 大数据从业者FelixZh 阅读(468) 评论(0) 推荐(0)

CK、ES、RediSearch 谁才是性能之王？

摘要：在开发中遇到一个业务诉求，需要在千万量级的底池数据中筛选出不超过 10W 的数据，并根据配置的权重规则进行排序、打散（如同一个类目下的商品数据不能连续出现 3 次）。下面对该业务诉求的实现，设计思路和方案优化进行介绍。对“千万量级数据中查询 10W 量级的数据”设计了如下方案：多线程+CK 翻页阅读全文

posted @ 2025-06-10 15:59 大数据从业者FelixZh 阅读(185) 评论(0) 推荐(0)

elasticsearch 查询性能如何优化

摘要： 1. 硬件优化1.1 内存分配Elasticsearch 对内存的需求较高，建议分配足够的堆内存。默认情况下，Elasticsearch 会使用系统内存的 50% 作为堆内存，但不要超过 32GB（因为 JVM 的指针压缩机制在 32GB 以下更高效）。修改 JVM 堆内存：编辑 elastics 阅读全文

posted @ 2025-06-10 14:02 大数据从业者FelixZh 阅读(484) 评论(0) 推荐(0)

2025年6月3日

ES 内存管理分析

摘要：命令 GET _cat/nodes?help 列出所有node, 并展示node所在机器的运行状态信息，help可显示帮助信息 1 GET _cat/nodes?h=name,hp,hm,rp,rm,qcm,rcm,fm,sm&v 解析下上面参数的意义信息如下：以红框里的node为例，内存占用阅读全文

posted @ 2025-06-03 15:44 大数据从业者FelixZh 阅读(114) 评论(0) 推荐(0)

使用火焰图定位 OLAP 引擎瓶颈

摘要：在维护 OLAP 引擎时，很多时候需要对引擎做系统的性能分析和优化，此时往往需要查看 CPU 耗时，了解主要耗时点及瓶颈在哪里。俗语有曰：兵欲善其事必先利其器，程序员定位性能问题也需要一件“利器”。性能调优工具（perf）能够显示系统的调用栈及时间分布，但是呈现内容上只能单一的列出调用栈或者非层次化阅读全文

posted @ 2025-06-03 14:12 大数据从业者FelixZh 阅读(78) 评论(0) 推荐(0)

Presto Master JVM Core问题调研

摘要：背景 Presto master出现jvm coredump情况，排查问题，这里记录下排查过程。排查过程先看下JVM Coredump日志： 123456789101112131415161718192021222324252627282930313233343536373839404142 # 阅读全文

posted @ 2025-06-03 13:46 大数据从业者FelixZh 阅读(45) 评论(0) 推荐(0)

2025年5月29日

Elasticsearch GC优化实践

摘要：近期业务查询线上ES集群出现频繁超时告警，尤其是早晨某个时间点固定的报一波超时，从调用链监控上很难看出是什么业务行为导致的。初步猜测查看Grafana上Elasticsaerch的基础监控，发现业务告警与ES的Old GC（老年代GC）卡顿时间基本吻合：同时注意到，Old区的内存持续增长，不到1 阅读全文

posted @ 2025-05-29 20:57 大数据从业者FelixZh 阅读(94) 评论(0) 推荐(0)

降低85%的gc发生率：ES的GC调优实践！

摘要：问题背景客户方面反馈的问题是ES入库速度变慢，延迟升高到几百毫秒，导致数据积压过多，影响了业务。排查发现ES的服务日志出现不少的gc overhead现象，下面是一个示例的日志片段： [yyyy-MM-ddTHH:mm:ss,SSS][LEVEL][component][node_name][g 阅读全文

posted @ 2025-05-29 20:39 大数据从业者FelixZh 阅读(174) 评论(0) 推荐(0)

2025年5月27日

kafka进程僵死JVM hang

摘要：一、背景时间大概是在夏天7月份，突然收到小伙伴的情报，我们线上的一个kafka实例的某个broker突然不提供服务了，也没看到什么异常日志，反正就是生产、消费都停了。因为是线上服务，而且进程还在，就是不提供服务了，第一反应就是保留一下 stack 信息，先重启吧因为这个现象是第一次出现，不确定是阅读全文

posted @ 2025-05-27 15:56 大数据从业者FelixZh 阅读(137) 评论(0) 推荐(0)

2025年5月16日

idea maven helper插件解决版本依赖冲突

摘要：安装Maven Helper插件，就可以打开pom文件的Dependency Analyzer视图，视图三个选项分别是Conflicts(冲突)、All Dependencies as List(列表形式查看所有依赖)、All Dependencies as Tree(树结构查看所有依赖)。页面还支阅读全文

posted @ 2025-05-16 17:39 大数据从业者FelixZh 阅读(2230) 评论(0) 推荐(1)

Prometheus 自定义告警规则实战操作总结

摘要：一、概述通过创建Prometheus监控告警规则，您可以制定针对特定Prometheus实例的告警规则。当告警规则设置的条件满足后，系统会产生对应的告警事件。如果想要收到通知，需要进一步配置对应的通知策略以生成告警并且以短信、邮件、电话、钉群机器人、企业微信机器人或者Webhook等方式发送通知。阅读全文

posted @ 2025-05-16 13:55 大数据从业者FelixZh 阅读(1225) 评论(0) 推荐(0)

Prometheus AlertManager 实战操作总结

摘要：一、概述 Prometheus 包含一个报警模块，就是我们的 AlertManager，Alertmanager 主要用于接收 Prometheus 发送的告警信息，它支持丰富的告警通知渠道，而且很容易做到告警信息进行去重，降噪，分组等，是一款前卫的告警通知系统。 GitHub地址：https:// 阅读全文

posted @ 2025-05-16 11:14 大数据从业者FelixZh 阅读(537) 评论(0) 推荐(0)

Prometheus Pushgetway实战操作总结

摘要：一、概述 Pushgateway是Prometheus的一个组件，prometheus server默认是通过Exporter主动获取数据（默认采取pull拉取数据），Pushgateway则是通过exporter主动方式推送数据到Pushgateway，再由Prometheus主动去拉取 Push 阅读全文

posted @ 2025-05-16 10:45 大数据从业者FelixZh 阅读(345) 评论(0) 推荐(0)

2025年4月29日

Elasticsearch集群异常状态（RED、YELLOW）分析

摘要：集群状态为什么会异常？想知道这个，我们首先需要了解一下集群的几种状态。 Elasticsearch 集群健康状态分为三种： GREEN YELLOW RED GREEN是最健康的状态，说明所有的分片包括副本都可用。这种情况Elasticsearch集群所有的主分片和副本分片都已分配，Elastic 阅读全文

posted @ 2025-04-29 10:17 大数据从业者FelixZh 阅读(351) 评论(0) 推荐(0)

2025年4月28日

YARN——NM的资源管理

摘要：【一些概念】本地化（Localization）将资源下载到本地的过程，这样container运行时可以从本地加载而不是从访问远端的文件。资源（Resource）资源表示运行container所需要的一个文件或library，客户端在提交任务时需要指定所依赖的资源。对于每个资源，可以指定如下阅读全文

posted @ 2025-04-28 10:40 大数据从业者FelixZh 阅读(65) 评论(0) 推荐(0)

hadoop yarn application 资源本地化机制

摘要：一. 前言在YARN中，分布式缓存是一种分布式文件分发与缓存机制,主要作用是将用户应用程序执行时所需的外部文件资源自动透明地下载并缓存到各个节点上，从而省去了用户手动部署这些文件的麻烦。二. 工作流程 YARN分布式缓存工作流程具体如下：步骤1 客户端将应用程序所需的文件资源（外部字典、 JA 阅读全文

posted @ 2025-04-28 10:30 大数据从业者FelixZh 阅读(192) 评论(0) 推荐(0)

2025年4月27日

Yarn REST API 使用指南

摘要： Yarn作为一款优秀的开源集群管理工具，可以用它来运行Hadoop，Spark，Flink等大数据处理任务。所有的分布式计算框架，都是主从模式，ResourceManager作为集群的管理员，是任务提交的入口。一般企业的大数据处理平台会在Yarn的基础中做进一步的封装，以web应用的形式提供更高级的阅读全文

posted @ 2025-04-27 11:37 大数据从业者FelixZh 阅读(418) 评论(0) 推荐(0)

2025年1月20日

centos7系统通过编译安装gcc7.5.0

摘要：背景：现有的centos7 gcc的最高版本为4.8.5 项目需要升级到7.1.0以上正常方式可以通过以下命令即可完成升级： $ sudo yum install centos-release-scl $ sudo yum install devtoolset-7-gcc* $ scl enab 阅读全文

posted @ 2025-01-20 17:03 大数据从业者FelixZh 阅读(311) 评论(0) 推荐(0)

2023年8月13日

VirtualBox虚拟机设置双网卡：内网固定IP方便内部使用、外网DHCP方便上网

摘要： 1. 管理->主机网络管理器网卡设置： DHCP服务器设置： 2. 选定已创建的虚拟主机，设置->网络网卡1设置为：仅主机网卡2设置为：桥接网络 3.主机启动，修改网卡配置 4.查看效果阅读全文

posted @ 2023-08-13 18:18 大数据从业者FelixZh 阅读(722) 评论(0) 推荐(0)

2023年3月29日

Ambari 服务配置以及 Alert 详解

摘要： Ambari Alert（告警）简介 Ambari 告警的基础概念 Ambari 为了帮助用户鉴别以及定位集群的问题，实现了告警（Alert）机制。在 Ambari 中预定了很多的告警，这些告警被用于监测集群的各个模块以及机器的状态。对于告警来说，主要有两个概念，一个是 Alert Definiti 阅读全文

posted @ 2023-03-29 16:45 大数据从业者FelixZh 阅读(986) 评论(0) 推荐(0)

2023年3月28日

解决go get无法下载依赖的问题

摘要：推荐使用的go版本为1.13及以上版本，声明环境变量 go env -w GO111MODULE=on go env -w GOPROXY=https://goproxy.io,direct #设置不用proxy的私有仓库，多用逗号相隔（可选） go env -w GOPRIVATE=*.corp. 阅读全文

posted @ 2023-03-28 20:55 大数据从业者FelixZh 阅读(429) 评论(0) 推荐(0)

2023年3月4日

Centos7.3离线(tar方式)安装mysql服务

摘要： 1. 官网下载压缩包 https://downloads.mysql.com/archives/get/p/23/file/mysql-5.7.40-el7-x86_64.tar.gz 2. 卸载系统自带的Mariadb rpm -qa|grep mariadb rpm -e --nodeps ma 阅读全文

posted @ 2023-03-04 09:51 大数据从业者FelixZh 阅读(352) 评论(0) 推荐(0)

2023年2月24日

一文读懂Kafka Connect核心概念

摘要：概览 Kafka Connect 是一种用于在 Apache Kafka 和其他系统之间可扩展且可靠地流式传输数据的工具。它使快速定义将大量数据移入和移出 Kafka 的连接器变得简单。 Kafka Connect 可以摄取整个数据库或从所有应用程序服务器收集指标到 Kafka 主题中，使数据可用阅读全文

posted @ 2023-02-24 14:59 大数据从业者FelixZh 阅读(1381) 评论(0) 推荐(0)

2022年11月17日

JS登录密码基于token和CryptoJS加密处理方法

摘要： 1.登录前先请求，获取一个token，也可以在本地写死暂且叫登录token，用来给登录时密码的加密 async getToken(){ const {data:token} = await getToken() // token : eaaaaaaaaaIUzI1NiJ9.eyJ1aWQiOiJDR 阅读全文

posted @ 2022-11-17 20:37 大数据从业者FelixZh 阅读(907) 评论(0) 推荐(0)

JavaScript字符串MD5

摘要：进行HTTP网络通信的时候，调用API向服务器请求数据，有时为了防止API调用过程中被黑客恶意篡改，所请求参数需要进行MD5算法计算，得到摘要签名。服务端会根据请求参数，对签名进行验证，签名不合法的请求将会被拒绝。但是目前原生JS貌似并没有提供MD5计算相关的函数方法，只能自己实现或者使用前辈大神阅读全文

posted @ 2022-11-17 20:33 大数据从业者FelixZh 阅读(696) 评论(0) 推荐(0)

js-cookie 设置过期时间

摘要：我们用js-cookie这款插件来设置cookie，比较方便，可以自行查看文档。 js-cookie 的示例中只有以天为单位的有效期： Cookies.set('name', 'value', { expires: 7 }); // 7 天后失效官方文档只要设置天数，没有时分秒，这样我们想设置更小阅读全文

posted @ 2022-11-17 20:30 大数据从业者FelixZh 阅读(4443) 评论(0) 推荐(1)

2022年11月12日

一文带你彻底搞懂Cookie、Session和Token

摘要：在学习Cookie、Session和Token之前，我们先了解下HTTP的无状态协议。 1、HTTP的无状态协议 HTTP无状态协议是指该协议对事件的处理过程没有记忆能力，当后续的步骤需要上一步的信息时，则需要重传，即需要携带上一次的信息。因此，对于存在依赖性的访问请求，则下一次的传递需要携带上一阅读全文

posted @ 2022-11-12 16:03 大数据从业者FelixZh 阅读(2024) 评论(1) 推荐(4)

2022年11月4日

flink 项目打包成jar包使用java -jar运行异常

摘要： java -jar错误信息如下： Exception in thread "main" com.typesafe.config.ConfigException$UnresolvedSubstitution: reference.conf @ jar:file:flinkdemo-1.0-SNAPSH 阅读全文

posted @ 2022-11-04 21:45 大数据从业者FelixZh 阅读(488) 评论(0) 推荐(0)

2022年11月1日

Flink SQL UNNEST/UDTF 如何实现列转行?

摘要：在 SQL 任务里面经常会遇到一列转多行的需求,今天就来总结一下在 Flink SQL 里面如何实现列转行的,先来看下面的一个具体案例. 需求：原始数据格式如下 name data JasonLee [{"content_type":"flink","url":"111"},{"content_t 阅读全文

posted @ 2022-11-01 09:17 大数据从业者FelixZh 阅读(4517) 评论(0) 推荐(0)

大数据从业者

最新文章，见微信公众号：大数据从业者

公告