摘要:
窄依赖: Narrow Dependency : 一个RDD对它的父RDD,只有简单的一对一的依赖关系。RDD的每个partition仅仅依赖于父RDD中的一个partition,父RDD和子RDD的partition之间的对应关系是一对一的。 宽依赖 shuffle Dependency : 本质 阅读全文
摘要:
首先会将jar包上传到机器(服务器上) 1.在这台机器上会产生一个Application(也就是自己的spark程序) 2.然后通过spark-submit(shell) 提交程序的时候 2.1会启动一个driver(进程):spark-submit使用我们之前一直使用的那种提交模式去提交的时候,我 阅读全文
摘要:
还是以经典案例Wordcount为例: 逻辑思路: 1.先把文本按空格切分成每个单词 flatMap() 2.将每个单词都转换成Tuple2类型(hello ,1) map() 3.将key相同的次数相加(hello , 5) reduceByKey() 4.将(hello , 5) 反转成(5 , 阅读全文
摘要:
首先需要启动mysql源数据库 server所在服务器的路径:/opt/cm-5.14.0/etc/cloudera-scm-server 下 查看配置文件: db.properties 查看mysql源数据库配置在哪台服务器,然后去对应服务器启动mysql元数据 service mysqld st 阅读全文
摘要:
spark优化:在一定范围之内,增加资源与性能的提升是成正比的。 因此, 一个cpu core 执行一个task线程、 task数: 若有 cpu core 2个、num-executor 2个 那么task有4个 公式:task = num-executor * cpu core . cpu co 阅读全文
摘要:
spark的主要组件和进程 driver (进程): 我们编写的spark程序就在driver上,由driver进程执行 master(进程): 主要负责资源的调度和分配,还有集群的监控 worker(进程): 主要负责 1.用自己的内存 存储RDD的某个或某些partition; 2.启动其它进程 阅读全文
摘要:
Lombok安装插件 软件:idea 2018.3.6版本 1、打开settings 2.选择Plugins Marketplace 输入Lombok(注意L是大写) 点击Install 然后重启idea即可 3.然后再进入settings 设置一下这个 (不知道 是什么意思, 但是不设置的话ide 阅读全文
摘要:
一、进入idea官网选择想要下载的版本 官网版本选择页面: https://www.jetbrains.com/idea/download/other.html IntelliJ IDEA 分为两个版本,分别为:旗舰版(Ultimate)和社区版(Community)。 这里我选择了 2018.3. 阅读全文