摘要: 弹性分布式数据集(简称RDD)是Spark对数据的核心抽象。RDD其实就是分布式的元素集合。在Spark中,对数据的操作不外乎创建RDD、转化已有RDD以及调用RDD操作进行求值。而在这一切背后,Spark会自动将RDD中的数据分发到集群上,并将操作并行化执行。 3.1 RDD基础 Spark中的R 阅读全文
posted @ 2017-10-18 17:33 右介 阅读(271) 评论(0) 推荐(0) 编辑
摘要: 本地Consumer和Producer无法使用远程Kafka服务器的解决方法: 分别修改各台服务器Kafka配置文件server.properties, 在#listeners=PLAINTEXT://:9092下添加如下一行: advertised.listeners=PLAINTEXT://x. 阅读全文
posted @ 2017-10-18 16:00 右介 阅读(7620) 评论(0) 推荐(0) 编辑
摘要: kafka 异常退出后重启时遇到的问题解决: 执行 netstat -lnp|grep 9092 在执行结果中找到进程号执行 kill -9 进程号再尝试启动Kafka 阅读全文
posted @ 2017-10-18 15:11 右介 阅读(4510) 评论(0) 推荐(0) 编辑
摘要: 生产者代码: 消费者代码: 阅读全文
posted @ 2017-10-18 14:59 右介 阅读(9571) 评论(1) 推荐(0) 编辑
摘要: Zookeeper集群搭建 1、软件环境 (3台服务器-测试环境) 192.168.56.9 192.168.56.6 192.168.56.7 1、Linux服务器一台、三台、五台、(2*n+1),Zookeeper集群的工作是超过半数才能对外提供服务,3台中超过两台超过半数,允许1台挂掉 ,是否 阅读全文
posted @ 2017-10-18 14:21 右介 阅读(469) 评论(0) 推荐(0) 编辑