Fork me on GitHub

随笔分类 -  大数据技术栈 / CDH各组件

摘要:升级之Spark升级 在CDH5.12.1集群中,默认安装的Spark是1.6版本,这里需要将其升级为Spark2.1版本。经查阅官方文档,发现Spark1.6和2.x是可以并行安装的,也就是说可以不用删除默认的1.6版本,可以直接安装2.x版本,它们各自用的端口也是不一样的。 Cloudera发布 阅读全文
posted @ 2020-04-22 11:55 kris12 阅读(1458) 评论(0) 推荐(0) 编辑
摘要:1 Kerberos概述 1 什么是Kerberos Kerberos是一种计算机网络授权协议,用来在非安全网络中,对个人通信以安全的手段进行身份认证。这个词又指麻省理工学院为这个协议开发的一套计算机软件。软件设计上采用客户端/服务器结构,并且能够进行相互认证,即客户端和服务器端均可对对方进行身份认 阅读全文
posted @ 2020-04-22 11:54 kris12 阅读(4486) 评论(0) 推荐(0) 编辑
摘要:测试之集群性能测试 1 DFSIO测试 在Hadoop中包含很多的基准测试,用来验证集群的HDFS是不是设置合理,性能是不是达到预期,DFSIO是Hadoop的一个基准测试工具,被用来分析集群HDFS的I/O性能。 DFSIO后台执行MapReduce框架,其中Map任务以并行方式读写文件,Redu 阅读全文
posted @ 2020-04-22 00:16 kris12 阅读(1443) 评论(0) 推荐(0) 编辑
摘要:Sentry概述 cdh版本的hadoop在对数据安全上的处理通常采用Kerberos+Sentry的结构。 kerberos主要负责平台用户的权限管理,sentry则负责数据的权限管理。 Sentry是什么 Apache Sentry是Cloudera公司发布的一个Hadoop开源组件,它提供了细 阅读全文
posted @ 2020-04-20 23:54 kris12 阅读(3617) 评论(0) 推荐(0) 编辑
摘要:日志采集Flume配置 1)Flume配置分析 Flume直接读log日志的数据,log日志的格式是app-yyyy-mm-dd.log。 2)Flume的具体配置如下: 在CM管理页面上点击Flume, 在实例页面选择hadoop101上的Agent 3)在CM管理页面hadoop101上Flum 阅读全文
posted @ 2020-04-20 23:46 kris12 阅读(1512) 评论(0) 推荐(1) 编辑
摘要:一. 添加Hive服务 将 Hive 服务添加到 Cluster 1 配置hive元数据 测试通过后继续 自动启动Hive进程 修改Hive配置 /opt/cloudera/parcels/HADOOP_LZO-0.4.15-1.gplextras.p0.123/lib/hadoop/lib 更新H 阅读全文
posted @ 2020-04-20 23:43 kris12 阅读(995) 评论(0) 推荐(0) 编辑
摘要:一. HDFS的参数配着 1. 修改HDFS的权限检查配置 关闭HDFS中的权限检查:dfs.permissions。 2. 配置Hadoop支持LZO 点击主机,在下拉菜单中点击Parcel 点击配置 找到远程Parcel存储库URL,点击最后一栏的加号,增加一栏,输入 http://archiv 阅读全文
posted @ 2020-04-20 23:19 kris12 阅读(1219) 评论(0) 推荐(0) 编辑
摘要:Yarn用户资源隔离配置,主要使用 Yarn动态资源池(dynamic resource pool) _ 对YARN应用程序进行资源和策略分配的池。(Impala资源也可以动态管理)_动态资源池允许安排和分配用户访问特定池,用来执行YARN应用程序。如果一个池的资源未被使用,它可以被占用(preem 阅读全文
posted @ 2020-03-21 09:27 kris12 阅读(5300) 评论(0) 推荐(1) 编辑
摘要:HUE=Hadoop User Experience(Hadoop用户体验),直白来说就一个开源的Apache Hadoop UI系统,由Cloudera Desktop演化而来,最后Cloudera公司将其贡献给Apache基金会的Hadoop社区,它是基于Python Web框架Django实现 阅读全文
posted @ 2019-02-27 13:29 kris12 阅读(936) 评论(0) 推荐(0) 编辑
摘要:1. 概述 Cloudera公司推出,提供对HDFS、Hbase数据的高性能、低延迟的交互式SQL查询功能。基于Hive,使用内存计算,兼顾数据仓库、具有实时、批处理、多并发等优点。 是CDH平台首选的PB级大数据实时查询分析引擎。 1.1 优点 1) 基于内存运算,不需要把中间结果写入磁盘,省掉了 阅读全文
posted @ 2019-02-27 13:29 kris12 阅读(1513) 评论(0) 推荐(0) 编辑
摘要:1. cloudera manager的概念 简单来说,Cloudera Manager是一个拥有集群自动化安装、中心化管理、集群监控、报警功能的一个工具(软件),使得安装集群从几天的时间缩短在几个小时内,运维人员从数十人降低到几人以内,极大的提 高集群管理的效率。 功能 1) 管理:对集群进行管理 阅读全文
posted @ 2019-02-27 13:29 kris12 阅读(3649) 评论(0) 推荐(1) 编辑

levels of contents
点击右上角即可分享
微信分享提示