摘要: 运用CDH5.15离线搭建简易版集群 关于CDH和Cloudera CDH(Cloudera的发行版,包括Apache Hadoop),是Hadoop众多分支中的一种,由Cloudera维护,基于稳定版本的Apache Hadoop构建,并集成了很多补丁,可直接用于生产环境.Cloudera Man 阅读全文
posted @ 2020-02-26 17:29 HarSenZhao 阅读(367) 评论(0) 推荐(0) 编辑
摘要: Mysql 安装 1.rpm文件安装(5.7.28) 1.清理环境 centos7会自带一个mariadb查看是否已安装 ~~~ shell rpm qa |grep i mysql rpm qa |grep i mariadb(centos7默认系统自带的 ~~~ 如果存在则使用以下命令删除 ~~ 阅读全文
posted @ 2020-02-25 11:28 HarSenZhao 阅读(86) 评论(0) 推荐(0) 编辑
摘要: streaming 接入kafka数据 maven依赖 ~~~ xml org.apache.spark spark streaming kafka 0 10_2.11 2.4.0 cdh6.3.0 org.apache.spark spark streaming_2.11 2.4.0 cdh6.3 阅读全文
posted @ 2020-02-25 11:20 HarSenZhao 阅读(337) 评论(0) 推荐(0) 编辑
摘要: checkpoint使用 检查点 Checkpoint功能 1.保存 每批中 state信息,累加加销售营业额 2.保存 没从Kafka topic 中读取数据的offset 3.保存DStream的来源和DStream处理函数和输出函数 什么时候需要使用Checkpoint 有状态转换的用法 如果 阅读全文
posted @ 2020-02-25 11:17 HarSenZhao 阅读(545) 评论(0) 推荐(0) 编辑
摘要: 代码入下: ~~~ java //计算生成Dstream val result = stream.map(x = (x.key(), x.value())).reduceByKey((x, y) = (x + y)) //将计算结果保存到mysql中 采用druib 连接池的方式 var selec 阅读全文
posted @ 2020-02-25 11:10 HarSenZhao 阅读(216) 评论(0) 推荐(0) 编辑
只有注册用户登录后才能阅读该文。 阅读全文
posted @ 2020-02-25 09:52 HarSenZhao 阅读(9) 评论(0) 推荐(0) 编辑
摘要: hdfs 跨集群数据迁移 参考官网地址: https://docs.cloudera.com/documentation/enterprise/latest/topics/cdh_admin_distcp_secure_insecure.html 一.将数据在不安全的集群和安全的集群之间迁移 1.采 阅读全文
posted @ 2019-10-22 09:37 HarSenZhao 阅读(1469) 评论(0) 推荐(0) 编辑
摘要: Hive JDBC连接hive(2.1.1)(java) 1.Maven 依赖 2.kerberos 或者LDAP认证 LDAP认证 代码如下: kerberos 认证 阅读全文
posted @ 2019-09-12 11:21 HarSenZhao 阅读(2226) 评论(0) 推荐(0) 编辑
摘要: [TOC] 集成kerberos的kudu 访问 kudu Api (java) 1. 首先需要进行kerberos的验证(需要将相应用户的keytab文件引入本地) 代码如下: 2.Maven 依赖 3.引入hadoop 配置文件 文件放到resources 文件夹里面要放到根目录下面 1.cor 阅读全文
posted @ 2019-09-12 11:10 HarSenZhao 阅读(1788) 评论(0) 推荐(0) 编辑
摘要: Spark2.4.0(scala) 1.kerberso 认证(需要将相应用户的keytab文件引入本地) 代码如下: 2.maven 依赖 3.代码访问 main 阅读全文
posted @ 2019-09-12 09:21 HarSenZhao 阅读(2091) 评论(0) 推荐(0) 编辑