摘要:Spark SQL是什么? 何为结构化数据 sparkSQL与spark Core的关系 Spark SQL的前世今生:由Shark发展而来 Spark SQL的前世今生:可以追溯到Hive Spark SQL的前世今生:Hive 到Shark(在Hive上做改进) Spark SQL的前世今生:S
阅读全文
摘要:参考官方地址:https://spark.apache.org/docs/1.6.2/programming-guide.html 误解: spark多语言的支持,并不是说spark可以操作各个语言写的程序。而是各种语言可以使用spark提供的编程模型来开发spark程序,并连接spark集群来运行
阅读全文
摘要:YARN产生的背景 回顾mapreduce1.0(以下是对应的框架) JobTracker同事负责资源的管理和调度和作业的管理和调度 mapreduce1.0的缺点 1.扩展性差 2.另外一个缺点就是单点故障 3.资源利用率低 4.通用性差 什么是yarn YARN在hadoop生态圈系统中的位置
阅读全文
摘要:累加器 -- Accumulators 广播变量--Broadcast Variables 思考 回顾 存储管理模块架构--从架构上来看 存储管理模块架构--通信层 存储管理模块架构--存储层 存储管理模块架构--数据块与分区的关系 回顾-RDD控制操作 持久化级别 如何选择持久化级别 缓存淘汰机制
阅读全文
摘要:在这说明一下,本人也是第一次安装这东东很多我自己也不懂,只能把自己的安装步骤通过贴图呈现出来了!!!! 我用root用户登录的,顺便查看ip 在浏览器打开网址https://192.168.86.156 下面的信息就像大家平常注册QQ一样填写就可以了
阅读全文
摘要:打包 Spark application 使用spark-submit启动Spark application spark-submit usage spark-submit option 运行模式相关 spark-submit options-常规 spark-submit options-clas
阅读全文
摘要:REPL Spark REPL Spark shell 下面我们启动一下(我这里搭建的是3节点集群) sc.后面按TAB键可以把提示调出来 查看hdfs上文件内容 这个数据从这里下载的 https://www.sogou.com/labs/resource/q.php 试下读下里面的数据 这个可以求
阅读全文
摘要:HDFS 设计的前提与目标 HDFS体系结构1 HDFS体系结构2 HDFS特性与优点 高容错性保障机制 HDFS不适合的场景 HDFS2.0的新特征 HA-QJM Federation 快照 异构层级存储结构 HDFS数据压缩与IO 瓶颈一般在磁盘上 影响磁盘速度的主要因素 速度压缩的目的 压缩解
阅读全文
摘要:Phoenix 安装完之后的一些简单使用: 本屌丝的运行环境是3节点集群,先启动hadoop,每个节点分别启动zookeeper,启动hbase(具体怎么启动这里就不多说了) 进入 phoenix的bin目录(我这里做了个软链接) 现在启动phoenix 在客户端执行!tables 命令,罗列所有表
阅读全文
摘要:问题描述: 怎么解决呢: 网上看了好多方法,但是本屌丝表示看不懂啊,没理解人家的博客的博大精深,好吧我们回到正题!! 先切换到root用户下安装这个东西 yum install python-argparse 可以看到安装成功了!!! 再次执行命令 bin/sqlline.py master(bin
阅读全文
摘要:YARN是什么 YARN在hadoop生态系统中的位置 YARN产生的背景 YARN的基本架构 ResourceManager NodeManager ApplicationMaster container Spark On Yarn 配置和部署 编译时包含yarn 基本配置 在没有配置的前提下试下
阅读全文
摘要:hadoop hdfs常用命令 hadoop常用命令: hadoop fs 查看Hadoop HDFS支持的所有命令 hadoop fs –ls 列出目录及文件信息 hadoop fs –lsr 循环列出目录、子目录及文件信息 hadoop fs –put test.txt /user/sunlig
阅读全文
摘要:Spark Standalone 部署配置 Standalone架构 手工启动一个Spark集群 https://spark.apache.org/docs/latest/spark-standalone.html 通过脚本启动集群 编辑slaves,其实把worker所在节点添加进去 配置spar
阅读全文
摘要:当在集群里输入jps命令时报如下错误: 我就开始检查jdk,感觉应该是centos自动的jdk没卸载干净跟后面安装的jdk冲突 先通过命令 rpm -qa|grep java 查看jdk信息 把这几个都卸载掉 再次查看jdk信息,jps命令还是不能用 报了这个错误 bash: /usr/bin/jp
阅读全文
摘要:Spark编程模型的回顾 spark编程模型几大要素 RDD的五大特征 Application program的组成 运行流程概述 具体流程(以standalone模式为例) 任务调度 DAGScheduler TaskScheduler DAGScheduler ScheduleBacked 详细
阅读全文
摘要:创建Pair RDD 什么是Pair RDD 创建Pair RDD Pair RDD的转化操作 Pair RDD的转化操作1 在xshell启动 reduceByKey的意思是把相同的key的value的值相加起来 Pair RDD转换操作2 Pair RDD的action操作 Pair RDD转换
阅读全文
摘要:先在IDEA新建一个maven项目 我这里用的是jdk1.8,选择相应的骨架 这里选择本地在window下安装的maven 新的项目创建成功 我的开始pom.xml文件配置 先在终端下试下打包 可以看到失败了!!! 把这几个生成默认的东西删除掉 再次测试 成功了 把他clean一下 进入自己在虚拟机
阅读全文
摘要:Spark的编程模型 核心概念(注意对比MR里的概念来学习) Spark Application的组成 Spark Application基本概念 Spark Application编程模型 回顾scala版本的 wordcount程序 初识RDD 什么是RDD RDD接口 RDD的本质特征 RDD
阅读全文