Flink基本概念
摘要:1. Flink 简介 在当前的互联网用户,设备,服务等激增的时代下,其产生的数据量已不可同日而语了。各种业务场景都会有着大量的数据产生,如何对这些数据进行有效地处理是很多企业需要考虑的问题。以往我们所熟知的Map Reduce,Storm,Spark等框架可能在某些场景下已经没法完全地满足用户的需
阅读全文
es的介绍和关键index图示
摘要:ES-primary shard 和 replica shard ES作为一个分布式系统,需要保证数据的安全性和容灾性.如果数据全部存在一个节点上(即一台服务器)上,如果服务器宕机或者硬盘坏了,那服务就不可用,数据就有可能丢失.为了保证系统的高可用和数据安全,ES通过shard机制来解决上述问题.
阅读全文
Sqoop快速入门
摘要:1 Sqoop概述 传统的应用程序管理系统,即应用程序与使用RDBMS的关系数据库的交互,是产生大数据的来源之一。由RDBMS生成的这种大数据存储在关系数据库结构中的关系数据库服务器中。 当大数据存储和Hadoop生态系统的MapReduce,Hive,HBase,Cassandra,Pig等分析器
阅读全文
DataX 3.0简介 安装及使用
摘要:DataX3.0离线同步工具介绍 一. DataX3.0概览 DataX 是一个异构数据源离线同步工具,致力于实现包括关系型数据库(MySQL、Oracle等)、HDFS、Hive、ODPS、HBase、FTP等各种异构数据源之间稳定高效的数据同步功能。 (这是一个单机多任务的ETL工具) 下载地
阅读全文
Consul 快速入门 - Kong最佳实践
摘要:Consul是什么 Consul是一个服务网格(微服务间的 TCP/IP,负责服务之间的网络调用、限流、熔断和监控)解决方案,它是一个一个分布式的,高度可用的系统,而且开发使用都很简便。它提供了一个功能齐全的控制平面,主要特点是:服务发现、健康检查、键值存储、安全服务通信、多数据中心。 安装Cons
阅读全文
Etcd 使用入门
摘要:etcd简介 etcd是CoreOS团队于2013年6月发起的开源项目,它的目标是构建一个高可用的分布式键值(key-value)数据库。etcd内部采用raft协议作为一致性算法,etcd基于Go语言实现。 etcd作为服务发现系统,有以下的特点: 简单:安装配置简单,而且提供了HTTP API进
阅读全文
Container is running beyond memory limits
摘要:类似错误信息: 2020-08-21 15:30:28,713 INFO mapreduce.Job: Task Id : attempt_1596166140899_0045_m_000004_2, Status : FAILED[2020-08-21 15:30:29.974]Container
阅读全文
HADOOP_MAPRED_HOME=${full path of your hadoop distribution directory}
摘要:HADOOP_MAPRED_HOME=${full path of your hadoop distribution directory}
阅读全文
快速搞定Windows10环境下hadoop安装和配置
摘要:一. Windows10环境下安装 1. 下载安装JDK1.8,并配置环境变量,注意:JAVA_HOME环境变量配置的路径不要包含空格,C盘中的Program Files目录名称可用PROGRA~1代替即 2. 下载Hadoop镜像安装文件,下载地址:镜像文件 3. 解压Hadoop镜像文件到磁盘目
阅读全文
HBase 和 Hive 的差别是什么,各自适用在什么场景中?Spark SQL能做什么?
摘要:HBase 和 Hive 的差别是什么,各自适用在什么场景中? 结论:Hbase和Hive在大数据架构中处在不同位置,Hbase主要解决实时数据查询问题,Hive主要解决数据处理和计算问题,一般是配合使用。 一、区别: Hbase: Hadoop database 的简称,也就是基于Hadoop数据
阅读全文
spark安装配置
摘要:准备:1. 规划3个集群节点: hosts主机都已经配置好映射,映射主机名分别为master,slave1,slave2, 且已经进行ssh免密配置,确保端口互通,防火墙关闭 2. 先安装好scala(参考:https://www.cnblogs.com/sea520/p/13518158.html
阅读全文
spark安装配置
摘要:准备:1. 规划3个集群节点: hosts主机都已经配置好映射,映射主机名分别为master,slave1,slave2, 且已经进行ssh免密配置,确保端口互通,防火墙关闭 2. 先安装好scala(参考:https://www.cnblogs.com/sea520/p/13518158.html
阅读全文
scala安装配置
摘要:准备:1. 规划3个集群节点: hosts主机都已经配置好映射,映射主机名分别为master,slave1,slave2, 且已经进行ssh免密配置,确保端口互通,防火墙关闭 1. 下载 https://www.scala-lang.org/download/选择scala-2.13.3.tgz,如
阅读全文
Apache Spark 3.0.0重磅发布 —— 重要特性全面解析
摘要:2020年6月18日,开发了近两年(自2018年10月份至今)的Apache Spark 3.0.0 正式发布! Apache Spark 3.0.0版本包含3400多个补丁,是开源社区做出巨大贡献的结晶,在Python和SQL功能方面带来了重大进展并且将重点聚焦在了开发和生产的易用性上。同时,今年
阅读全文
hbase的安装与配置(三台集群分布式)
摘要:一 安装前准备 下载hbase-2.2.5的JAR包后发现,lib中自带的是hadoop2.8.5和zookeeper-3.4.10版本,下载hbase-2.3.0的JAR包后发现,lib中自带的是hadoop2.10和zookeeper-3.5.7版本,因此这几个版本肯定是比较好的,不过本人不打算
阅读全文
zookeeper的JAVA API操作
摘要:1. idea新建一个Java的maven工程: pom.xml加入以下依赖(我zk服务装的3.5.8,但是pom引入总是失败,亲测3.4.11可以成功,也就是客户端版本不一定要和服务端版本一致) <dependencies> <dependency> <groupId>org.apache.zoo
阅读全文
zookeeper的安装与配置&常见问题解决
摘要:安装: 参考:https://www.cnblogs.com/ysocean/p/9860529.html下载地址:http://mirror.bit.edu.cn/apache/zookeeper/ 本次选择zookeeper-3.5.8版本注意下载那个带bin的,文件大小大些的apache-zo
阅读全文