摘要:
前言 本文kafka命令适用于kafka版本在0.10以上; 演示环境:kafka 版本 0.11.0.2 ,scala版本2.11 查看所有topic 选项说明: zookeeper :设置zk的链接信息 list :打印topic列表 创建topic 选项说明: create :创建topic命 阅读全文
摘要:
前言 利用kafka命令删除topic不成功。 原因&解决方式 1. 配置文件未将delete.topic.enable=true,导致删除命令未及时生效; 解决方式: 第一种: 找到conf目录下server.properties配置文件,修改delete.topic.enable=true,代表 阅读全文
摘要:
date_format 释义:格式化日期 用法:date_format(date,格式) 例如: 将日期格式化为:2020 05 01和2020 05 date_add 释义:日期加法函数,数字为正,则加多少天,若数字为负数,则为减多少天; 用法:date_add(date,number); 例如: 阅读全文
摘要:
前言 将Hive的默认引擎Map Reduce改为Tez后,经常出现TezSession has already shutdown错误; 错误内容 问题原因 该错误是YARN的虚拟内存计算方式导致,上例中用户程序申请的内存为1Gb,YARN根据此值乘以一个比例(默认为2.1)得出申请的虚拟内存的 阅读全文
【Hive】hive改tez引擎后经常报错:Execution Error, return code 1 from org.apache.hadoop.hive.ql.exec.tez.TezTask
摘要:
错误内容 解决方式 修改tez的配置文件 修改 tez default template.xml 中的 tez.client.asynchronous stop 为 false ; 修改完毕后,同时记得在hdfs集群的/tez下重新上传该配置文件。 之后重启集群,再进行测试; 阅读全文
摘要:
简介 canal 1.1.1版本之后, 默认支持将canal server接收到的binlog数据直接投递到MQ, 目前默认支持的MQ系统有: kafka: https://github.com/apache/kafka RocketMQ : https://github.com/apache/ro 阅读全文
摘要:
概述 canal [kə'næl] ,译意为水道/管道/沟渠,主要用途是基于 MySQL 数据库增量日志解析,提供增量数据订阅和消费 早期阿里巴巴因为杭州和美国双机房部署,存在跨机房同步的业务需求,实现方式主要是基于业务 trigger 获取增量变更。从 2010 年开始,业务逐步尝试数据库日志解析 阅读全文
摘要:
在分布式集群中,经常会有多台Zookeeper机器,如果每台机器启动,不但麻烦且浪费时间,有时还会有疏漏,所以编写一个shell脚本,统一对所有zk机器进行管理,显得尤为重要了。 本文假设有三台机器需要管理,分别是hadoop111,hadoop112,hadoop113,管理start statu 阅读全文
摘要:
简述 WordCount(单词计数)一直是大数据入门的经典案例,下面用java和scala实现Flink的WordCount代码; 采用IDEA + Maven + Flink 环境;文末附 pom 文件和相关技术点总结; Java实现Flink批处理版本 运行输出结果如下: Java实现Flink 阅读全文
摘要:
报错内容 flink执行jar时,报如下错误: 问题原因 1. 输入路径确实不存在该文件; 2. 输入路径的文件并不在flink集群的TaskManager上,而放在了JobManager节点上了。 解决方式 1. 对于不存在的文件,修改为有该文件的路径; 2. 如果flink输入文件的是本地文件, 阅读全文
摘要:
1、Flume简介 (1) Flume提供一个分布式的,可靠的,对大数据量的日志进行高效收集、聚集、移动的服务,Flume只能在Unix环境下运行。 (2) Flume基于流式架构,容错性强,也很灵活简单。 (3) Flume、Kafka用来实时进行数据收集,Spark、Flink用来实 阅读全文
摘要:
概述 倒排索引 (英语:Inverted index),也常被称为反向索引、置入档案或反向档案,是一种索引方法,被用来存储在全文搜索下某个单词在一个文档或者一组文档中的存储位置的映射。它是文档检索系统中最常用的数据结构。通过倒排索引,可以根据单词快速获取包含这个单词的文档列表。倒排索引主要由两个部分 阅读全文
摘要:
需求 背景:学校的学生的是一个非常大的生成数据的集体,比如每次考试的成绩 现有一个班级的学生一个月的考试成绩数据。 科目 姓名 分数 需求:求出每门成绩中属于甲级的学生人数和总人数 乙级的学生人数和总人数 丙级的学生人数和总人数 甲级(90及以上)乙级(80到89)丙级( 阅读全文
摘要:
HA概述 1. 所谓HA(high available),即高可用(7 24小时不中断服务)。 2. 实现高可用最关键的策略是消除单点故障。HA严格来说应该分成各个组件的HA机制:HDFS的HA和YARN的HA。 3. Hadoop2.0之前,在HDFS集群中NameNode存在单点故障(SPOF) 阅读全文
摘要:
1. 查看机器的Linux版本 查看集群内所有服务器的linux版本,确保相同,不要跨大版本。 2.设置时区 集群内所有机器,设置一下时区; 3.查看是否安装NTP服务 集群内所有机器,查看是否安装ntp服务; 4.安装NTP服务 集群内所有机器,如果没有安装ntp服务,则执行以下命令安装; 5.查 阅读全文