随笔分类 - Big data
摘要:1. 依赖 <!-- kafka client --> <dependency> <groupId>org.springframework.kafka</groupId> <artifactId>spring-kafka</artifactId> </dependency> 2. 配置文件配置kaf
阅读全文
摘要:问题描述: 通过50070发现无法访问hdfs,因为服务器被重启过, hdfs没有启动。 启动hdfs,但是jps发现没有namenode,查看hadoop/logs/xxxx.log发现: Storage directory /tmp/hadoop-abc/dfs/name does not ex
阅读全文
摘要:注意:需要将hadoop的相关jar包复制到flume下面 1. flume-conf.properties的配置 a1.sources = r1 a1.sinks = k1 sink-hdfs a1.channels = c1 chn-hdfs #tail -F 注意exec只适合测试,可以使用T
阅读全文
摘要:1. NoClassDefFoundError报错 Failed to start agent because dependencies were not found in classpath. Error follows. java.lang.NoClassDefFoundError: org/a
阅读全文
摘要:1.下载解压:hadoop-2.7.7.tar 2.修改配置文件etc/hadoop/hadoop-env.sh export JAVA_HOME=/usr/java/latest 3.尝试命令 $ bin/hadoop 4.伪分布式配置 etc/hadoop/core-site.xml: <con
阅读全文
摘要:问题:安装完flume并sink到kafka,运行后提示 java.io.IOException: Can't resolve address: vm-10-15-7-72.abc.com:9092 解决: vim /etc/hosts 增加 10.15.7.72 vm-10-15-7-72.abc
阅读全文
摘要:from https://www.cnblogs.com/aidata/p/11563785.html 正文 Flume是一个分布式的、可靠的、高可用的海量日志采集、聚合和传输的系统。Java实现,插件丰富,模块分明。 数据流模型:Source-Channel-Sink 事务机制保证了消息传递的可靠
阅读全文
摘要:from https://blog.csdn.net/HoldBelief/article/details/79711488 Logger Sink File Roll Sink Avro Sink HDFS Sink Kafka Sink 1.Logger Sink 记录INFO级别的日志,一般用
阅读全文
摘要:from:https://www.cnblogs.com/itdyb/p/6266789.html Source详解 现在介绍几种比较重要的Source Avro Source Spooling Directory Source NetCat Source HTTP Source Exec Sour
阅读全文
摘要:安装 1.下载kafka_2.13-3.0.0.tar 不同版本,命令稍有不同(2.13是scala版本,3.0.0是kafka版本) 2.放到/usr/local/share/kafka 3.解压tar -xvf kafka_2.13-3.0.0.tar 4.修改名字mv kafka_2.13-3
阅读全文
摘要:1. 下载apache-flume-1.9.0-bin.tar 2. 在/usr/local/share/下创建flume,并chmod 777,将flume解压至此文件夹 tar -xf apache-flume-1.9.0-bin.tar --strip-components 1 -C /usr
阅读全文
摘要:Local模式 Standalone模式(使用Spark自带的内置集群管理器) YARN模式(使用YARN作为集群管理器) Mesos模式(使用Mesos作为集群管理器) spark-shell --master <master-url> 单机 local 使用一个Worker线程本地化运行SPAR
阅读全文
摘要:两种方式 一、与程序集成 1.1与spring boot集成 可以根据需要添加依赖,都会自动添加spark-core <!-- spark-streaming scala version:2.12--> <dependency> <groupId>org.apache.spark</groupId>
阅读全文
摘要:spark的版本如下 1. 版本历史中的下载文件 SparkR是R语言的版本 spark-bin-hadoop 包含hadoop;包含默认的scala版本(spark基于scala,scala基于jvm) spark-bin-without-hadoop 不包含hadoop,需要用户自己单独安装ha
阅读全文