随笔分类 -  Big data

摘要:1. 依赖 <!-- kafka client --> <dependency> <groupId>org.springframework.kafka</groupId> <artifactId>spring-kafka</artifactId> </dependency> 2. 配置文件配置kaf 阅读全文
posted @ 2022-07-28 13:25 jason47 阅读(1078) 评论(0) 推荐(0) 编辑
摘要:问题描述: 通过50070发现无法访问hdfs,因为服务器被重启过, hdfs没有启动。 启动hdfs,但是jps发现没有namenode,查看hadoop/logs/xxxx.log发现: Storage directory /tmp/hadoop-abc/dfs/name does not ex 阅读全文
posted @ 2022-01-25 14:53 jason47 阅读(413) 评论(0) 推荐(0) 编辑
摘要:注意:需要将hadoop的相关jar包复制到flume下面 1. flume-conf.properties的配置 a1.sources = r1 a1.sinks = k1 sink-hdfs a1.channels = c1 chn-hdfs #tail -F 注意exec只适合测试,可以使用T 阅读全文
posted @ 2021-11-23 17:22 jason47 阅读(167) 评论(0) 推荐(0) 编辑
摘要:1. NoClassDefFoundError报错 Failed to start agent because dependencies were not found in classpath. Error follows. java.lang.NoClassDefFoundError: org/a 阅读全文
posted @ 2021-11-23 16:41 jason47 阅读(560) 评论(0) 推荐(1) 编辑
摘要:1.下载解压:hadoop-2.7.7.tar 2.修改配置文件etc/hadoop/hadoop-env.sh export JAVA_HOME=/usr/java/latest 3.尝试命令 $ bin/hadoop 4.伪分布式配置 etc/hadoop/core-site.xml: <con 阅读全文
posted @ 2021-11-23 16:33 jason47 阅读(24) 评论(0) 推荐(0) 编辑
摘要:问题:安装完flume并sink到kafka,运行后提示 java.io.IOException: Can't resolve address: vm-10-15-7-72.abc.com:9092 解决: vim /etc/hosts 增加 10.15.7.72 vm-10-15-7-72.abc 阅读全文
posted @ 2021-11-11 16:46 jason47 阅读(142) 评论(0) 推荐(0) 编辑
摘要:from https://www.cnblogs.com/aidata/p/11563785.html 正文 Flume是一个分布式的、可靠的、高可用的海量日志采集、聚合和传输的系统。Java实现,插件丰富,模块分明。 数据流模型:Source-Channel-Sink 事务机制保证了消息传递的可靠 阅读全文
posted @ 2021-10-14 19:50 jason47 阅读(281) 评论(0) 推荐(0) 编辑
摘要:from https://blog.csdn.net/HoldBelief/article/details/79711488 Logger Sink File Roll Sink Avro Sink HDFS Sink Kafka Sink 1.Logger Sink 记录INFO级别的日志,一般用 阅读全文
posted @ 2021-10-14 19:12 jason47 阅读(99) 评论(0) 推荐(0) 编辑
摘要:from:https://www.cnblogs.com/itdyb/p/6266789.html Source详解 现在介绍几种比较重要的Source Avro Source Spooling Directory Source NetCat Source HTTP Source Exec Sour 阅读全文
posted @ 2021-10-14 11:27 jason47 阅读(186) 评论(0) 推荐(0) 编辑
摘要:安装 1.下载kafka_2.13-3.0.0.tar 不同版本,命令稍有不同(2.13是scala版本,3.0.0是kafka版本) 2.放到/usr/local/share/kafka 3.解压tar -xvf kafka_2.13-3.0.0.tar 4.修改名字mv kafka_2.13-3 阅读全文
posted @ 2021-09-27 16:58 jason47 阅读(435) 评论(0) 推荐(0) 编辑
摘要:1. 下载apache-flume-1.9.0-bin.tar 2. 在/usr/local/share/下创建flume,并chmod 777,将flume解压至此文件夹 tar -xf apache-flume-1.9.0-bin.tar --strip-components 1 -C /usr 阅读全文
posted @ 2021-09-03 10:27 jason47 阅读(173) 评论(0) 推荐(0) 编辑
摘要:阅读时间2021.2.23 3.3 阅读全文
posted @ 2021-03-03 15:15 jason47 阅读(44) 评论(0) 推荐(0) 编辑
摘要:Local模式 Standalone模式(使用Spark自带的内置集群管理器) YARN模式(使用YARN作为集群管理器) Mesos模式(使用Mesos作为集群管理器) spark-shell --master <master-url> 单机 local 使用一个Worker线程本地化运行SPAR 阅读全文
posted @ 2020-11-27 16:18 jason47 阅读(154) 评论(0) 推荐(0) 编辑
摘要:两种方式 一、与程序集成 1.1与spring boot集成 可以根据需要添加依赖,都会自动添加spark-core <!-- spark-streaming scala version:2.12--> <dependency> <groupId>org.apache.spark</groupId> 阅读全文
posted @ 2020-11-25 17:12 jason47 阅读(356) 评论(0) 推荐(0) 编辑
摘要:spark的版本如下 1. 版本历史中的下载文件 SparkR是R语言的版本 spark-bin-hadoop 包含hadoop;包含默认的scala版本(spark基于scala,scala基于jvm) spark-bin-without-hadoop 不包含hadoop,需要用户自己单独安装ha 阅读全文
posted @ 2020-11-18 16:35 jason47 阅读(1243) 评论(0) 推荐(0) 编辑

点击右上角即可分享
微信分享提示