03 2019 档案
摘要:一、以3个几点为例,分别为master、slave01、slave02 1、分别生成自己节点密钥对 master: 2、分别将slave01、slave02上的公钥发送到master上 [root@slave01 .ssh]# scp -r /root/.ssh/id_dsa.pub master:
阅读全文
摘要:文件数目过多,会给HDFS带来压力,并且会影响处理效率,可以通过合并Map和Reduce的结果文件来消除这样的影响: set hive.merge.mapfiles = true ##在 map only 的任务结束时合并小文件 set hive.merge.mapredfiles = false
阅读全文
摘要:转自:https://blog.csdn.net/yueyedeai/article/details/14648111 1、修改Linux配置 Linux系统最大可打开文件数一般默认的参数值是1024,如果不进行修改,并发量上来的时候会出现“Too Many Open Files”的错误,导致整个H
阅读全文
摘要:一、服务端调优 1、参数配置 1)、hbase.regionserver.handler.count:该设置决定了处理RPC的线程数量,默认值是10,通常可以调大,比如:150,当请求内容很大(上MB,比如大的put、使用缓存的scans)的时候,如果该值设置过大则会占用过多的内存,导致频繁的GC,
阅读全文
摘要:Hbase是三维有序存储的,通过rowkey(行键),column key(column family和qualifier)和TimeStamp(时间戳)这三个维度可以对HBase中的数据进行快速定位。 Hbase中Rowkey可以唯一标识一行记录,在Hbase查询的时候,有以下几种方式: 1、通过
阅读全文
摘要:一、启动kafka broker时异常 异常: 二、解决方法 进入/mnt/sata1/kafka_2.11-0.10.0.1/bin目录下,修改kafka-server-start.sh文件:
阅读全文
摘要:一、HBASE本地模式:1、首先安装hadoop、jdk2、导入hbase-1.2.5-bin.tar.gz包3、解压:tar -zxvf hbase-1.2.5-bin.tar.gz4、配置环境变量 5、source /etc/profile生效6、配置java——home 7、进入hbase-1
阅读全文
摘要:一、安装方式(内嵌模式,本地模式远程模式) 安装环境以及前提说明: Hive是依赖于hadoop系统的,因此在运行Hive之前需要保证已经搭建好hadoop集群环境。 本例中使用的hadoop版本为2.6.1,Hive版本为2.1.1版。 1.Hive的3种安装方式: 1)内嵌模式(元数据保存在内嵌
阅读全文
摘要:一、下载mysql免编译包: wget http://cdn.mysql.com/archives/mysql-5.6/mysql-5.6.33-linux-glibc2.5-x86_64.tar.gz 二、安装 #1、解压tar -zxvf /mnt/mysql-5.6.33-linux-glib
阅读全文
摘要:本文hadoop的安装版本为hadoop-2.6.5 一、安装JDK 1、下载java jdk1.8版本,放在/mnt/sata1目录下, 2、解压:tar -zxvf dk-8u111-linux-x64.tar.gz 3、vim /etc/profile 4、刷新配置 5、检测是否成功安装:ja
阅读全文
摘要:转自:https://www.cnblogs.com/ljy2013/p/4620691.html 任务的原因:由于,刚购买来的服务器需要将磁盘挂载到操作系统上,为了挂载磁盘首先要对磁盘进行分区,然后进行文件系统的创建,最后将磁盘挂载到操作系统上的某个目录。 MBR(Master Boot Reco
阅读全文
摘要:我们在安装系统的时候已经建立了 swap 分区。swap 分区是 Linux 系统的交换分区,当内存不够用的时候,我们使用 swap 分区存放内存中暂时不用的数据。也就是说,当内存不够用时,我们使用 swap 分区来临时顶替。 建议 swap 分区的大小是内存的两倍,但不超过 2GB。但是有时服务器
阅读全文
摘要:一·查看字符集 字符集在系统中体现形式是一个环境变量,以CentOS6.5为例,其查看当前终端使用字符集的方式可以有以下几种方式: 第一种: 第二种: 第三种: 第四种: 二、修改字符集的方式 需注意的是:如果默认语言是en_US.UTF-8,在Linux的字符和图形界面下都是无法显示和输入中文的。
阅读全文
摘要:推荐系统的在线部分往往使用spark-streaming实现,这是一个很重要的环节。 在线流程的实时数据一般是从kafka获取消息到spark streaming spark连接kafka两种方式在面试中会经常被问到,说明这是重点,下面为大家介绍一下这两种方法: 第一种方式:Receiver模式 又
阅读全文
摘要:选择【语言】,点击【继续】等待出现以下界面 一、下载 centos: 二、VMware Workstation相关配置 启动: 显示以下内容: 点击创建新的虚拟机 以上图中依次选择【自定义(高级)】,点击【下一步】按钮,进入以下界面: 点击【下一步】出现以下界面: 1、 选中【安装程序光盘映射文件】
阅读全文
摘要:一、过程说明 通过Dockerfile创建mysql镜像,使用的mysql软件包为mariadb二进制分发版,最终在宿主机启动mysql容器从而能在mysql容器外部访问mysql服务。 宿主机IP:172.20.236.106 宿主机操作系统:CentOS7.5(x86_64) 宿主机内核版本:3
阅读全文
摘要:一、相关分析 通常当聚合率和数据量没有大于一定程度时,对于不涉及Rollup、Cube、Grouping_Sets这三种操作的聚合很少出现GC问题。对于Rollup、Cube、Grouping_Sets操作可采用如下优化方法避免GC。 1、Rollup / Cube / Grouping_Sets时
阅读全文
摘要:一、Yarn架构 Yarn架构设计也是主从架构,分为Resource Manager(RM)和Node Manager(NM),其中RM主要负责应用管理和资源调度,NM主要负责容器和作业。 1、Yarn架构介绍 ResourceManager(RM): 负责对各个Node Manager(NM)上的
阅读全文
摘要:一、 简单了解NameNode的ZKFC机制 NameNode的HA可以个人认为简单分为共享editLog机制和ZKFC对NameNode状态的控制 一般导致NameNode切换的原因 ZKFC的作用是什么?如何判断一个NN是否健康 一般导致NameNode切换的原因 ZKFC的作用是什么?如何判断
阅读全文
摘要:Elasticsearch是基于Json的分布式搜索和分析引擎,是利用倒排索引实现的全文索引。 优势: 横向可扩展性:增加服务器可直接配置在集群中 分片机制提供更好的分布性:分而治之的方式来提升处理效率 高可用:提供复制(replia)机制 实时性:通过将磁盘上的文件放入文件缓存系统来提高查询速度
阅读全文
摘要:转载:http://www.cnblogs.com/nexiyi/p/hbase_config_94.html 版本:0.94-cdh4.2.1 hbase-site.xml配置 hbase.tmp.dir 本地文件系统tmp目录,一般配置成local模式的设置一下,但是最好还是需要设置一下,因为很
阅读全文
摘要:public class Test { private static Configuration conf; private static FileSystem fs; //开启kerberos认证 static { System.setProperty("java.security.krb5.co
阅读全文
摘要:1、线程安全 两者最主要的区别在于Hashtable是线程安全,而HashMap则非线程安全 HashTable的实现方法里面都添加了synchronized关键字来确保线程同步,因此相对而言HashMap性能会高一些,我们平时使用时若无特殊需求建议使用HashMap,在多线程环境下若使用HashM
阅读全文
摘要:hadoop的核心思想是MapReduce,但shuffle又是MapReduce的核心。shuffle的主要工作是从Map结束到Reduce开始之间的过程。首先看下这张图,就能了解shuffle所处的位置。图中的partitions、copy phase、sort phase所代表的就是shuff
阅读全文
摘要:一、节点退役当集群中个别节点出现故障预警等情况,需要进行退役工作,即让所有位于该退役节点上的分片的数据分配到其他节点上后,再将此节点关闭并从集群中移除。 1、ES提供了让某个节点上所有数据都移走的功能如下: ElasticSearch集群就会自动把这个节点上的所有分片,都自动转移到其他节点上,等到转
阅读全文
摘要:一、Hbase概念 Hbase是一个高可用、高性能、面向列、可伸缩的分布式存储系统,利用Hbase技术可以在廉价的PC Server上搭建大规模结构化存储集群。 Hbase是Google BigTable的开源实现,与Google BigTable利用GFS作为其文件存储系统类似,Hbase利用Ha
阅读全文
摘要:1、 更新现有的yum 包:sudo yum update 2、添加Docker源: 2.1首先创建docker.repo: 3、使用yum命令安装docker 4、 启动docker服务 5、 确认docker是否安装成功
阅读全文
摘要:一、UDF相关概念 UDF,用户自定义函数,可以直接在SQL语句中计算的函数:三个优点: UDF 存放在内存中, 设计不当将导致系统的崩溃, 所以必须在必要的时候实施优化。 对 UDF 的优化是通过手动改写原来的 UDF 代码实现的, 主要有以下两种场景: 1) 如果 UDF 嵌套过于复杂, 可以重
阅读全文
摘要:一、MapReduce概念 Hadoop MapReduce是一个软件框架,基于该框架能够容易地编写应用程序,这些应用程序能够运行在由上千个商用机器组成的大集群上,并以一种可靠的,具有容错能力的方式并行地处理上TB级别的海量数据集。这个定义里面有着这些关键词, 一是软件框架,二是并行处理,三是可靠且
阅读全文
摘要:一、精确定位到有问题的shards 1、查看哪些分片未被分配 2、如果您运行的是Elasticsearch的5+版本,您还可以使用群集分配说明API来尝试获取有关分片分配问题的更多信息: 生成的输出将提供有关群集中某些分片未分配的原因的有用详细信息: 二、Elasticsearch中解析未分配的各个
阅读全文
摘要:简单理解为:Receiver方式是通过zookeeper来连接kafka队列,Direct方式是直接连接到kafka的节点上获取数据 一、Receiver方式: 使用kafka的高层次Consumer api来实现的,Receiver从kafka中获取的数据都是存储在spark executor的内
阅读全文
摘要:一、hbase读优化 客户端优化 1、scan缓存是否设置合理? 优化原理:一次scan请求,实际并不会一次就将所有数据加载到本地,而是多次RPC请求进行加载。默认100条数据大小。 优化建议:大scan场景下将scan缓存从100增大到500或者1000,以减少RPC次数 2、get请求是否可以使
阅读全文