Spark的Streaming + Flume进行数据采集(flume主动推送或者Spark Stream主动拉取)
摘要:1、针对国外的开源技术,还是学会看国外的英文说明来的直接,迅速,这里简单贴一下如何看: 2、进入到flume的conf目录,创建一个flume-spark-push.sh的文件: [hadoop@slaver1 conf]$ vim flume-spark-push.sh 配置一下这个文件,flum
阅读全文
posted @
2018-04-24 10:53
别先生
阅读(2611)
推荐(0) 编辑
Spark的Streaming和Spark的SQL简单入门学习
摘要:1、Spark Streaming是什么? 2、Spark与Storm的对比 a、Spark开发语言:Scala、Storm的开发语言:Clojure。 b、Spark编程模型:DStream、Storm编程模型:Spout/Bolt。 c、Spark和Storm的对比介绍: Spark: Stor
阅读全文
posted @
2018-04-23 17:24
别先生
阅读(744)
推荐(0) 编辑
exception: java.net.ConnectException: Connection refused; For more details see: http://wiki.apache.org/hadoop/ConnectionRefused
摘要:1、虽然,不是大错,还说要贴一下,由于我运行run-example streaming.NetworkWordCount localhost 9999的测试案例,出现的错误,第一感觉就是Spark没有启动导致的: 2、启动Spark的脚本命令: [hadoop@slaver1 spark-1.5.1
阅读全文
posted @
2018-04-23 15:35
别先生
阅读(8100)
推荐(0) 编辑
执行Spark运行在yarn上的命令报错 spark-shell --master yarn-client
摘要:1、执行Spark运行在yarn上的命令报错 spark-shell --master yarn-client,错误如下所示: 解决方法如下所示: 参考文章:https://blog.csdn.net/chengyuqiang/article/details/69934382 HADOOP_CONF
阅读全文
posted @
2018-04-22 21:43
别先生
阅读(4327)
推荐(0) 编辑
Spark核心RDD、什么是RDD、RDD的属性、创建RDD、RDD的依赖以及缓存、
摘要:1:什么是Spark的RDD??? 2:RDD的属性: 3:创建RDD: 4:RDD编程API: 4.1:Transformation: RDD中的所有转换都是延迟加载的,也就是说,它们并不会直接计算结果。相反的,它们只是记住这些应用到基础数据集(例如一个文件)上的转换动作。只有当发生一个要求返回结
阅读全文
posted @
2018-02-23 18:25
别先生
阅读(1606)
推荐(0) 编辑
在IDEA中编写Spark的WordCount程序
摘要:1:spark shell仅在测试和验证我们的程序时使用的较多,在生产环境中,通常会在IDE中编制程序,然后打成jar包,然后提交到集群,最常用的是创建一个Maven项目,利用Maven来管理jar包的依赖。 2:配置Maven的pom.xml: <?xml version="1.0" encodi
阅读全文
posted @
2018-02-23 18:03
别先生
阅读(16187)
推荐(1) 编辑
Caused by: java.net.ConnectException: Connection refused: master/192.168.3.129:7077
摘要:1:启动Spark Shell,spark-shell是Spark自带的交互式Shell程序,方便用户进行交互式编程,用户可以在该命令行下用scala编写spark程序。 启动Spark Shell,出现的错误如下所示: 2:解决方法,是你必须先启动你的Spark集群,这样再启动Spark Shel
阅读全文
posted @
2018-02-22 17:58
别先生
阅读(13976)
推荐(0) 编辑
Spark入门,概述,部署,以及学习(Spark是一种快速、通用、可扩展的大数据分析引擎)
摘要:1:Spark的官方网址:http://spark.apache.org/ 2:Spark特点: Spark的算子分为两类,一类叫做Transformation转换,一类叫做Action动作。Transformation延迟执行,当计算任务触发Action时候才会真正开始计算。 3:Spark的部署
阅读全文
posted @
2018-01-03 21:05
别先生
阅读(1654)
推荐(0) 编辑
一脸懵逼学习Storm的搭建--(一个开源的分布式实时计算系统)
摘要:Storm的官方网址:http://storm.apache.org/index.html 1:集群部署的基本流程(基本套路): 集群部署的流程:下载安装包、解压安装包、修改配置文件、分发安装包、启动集群; 1:安装一个zookeeper集群,之前已经部署过,这里省略,贴一下步骤; 安装配置zooe
阅读全文
posted @
2017-11-01 09:31
别先生
阅读(655)
推荐(1) 编辑
一脸懵逼学习Storm---(一个开源的分布式实时计算系统)
摘要:Storm的官方网址:http://storm.apache.org/index.html 1:什么是Storm? Storm是一个开源的分布式实时计算系统,可以简单、可靠的处理大量的数据流。被称作“实时的hadoop”。Storm有很多使用场景:如实时分析,在线机器学习,持续计算, 分布式RPC,
阅读全文
posted @
2017-10-31 16:53
别先生
阅读(1563)
推荐(1) 编辑