上一页 1 ··· 5 6 7 8 9 10 11 12 下一页
摘要: 窄依赖: Narrow Dependency : 一个RDD对它的父RDD,只有简单的一对一的依赖关系。RDD的每个partition仅仅依赖于父RDD中的一个partition,父RDD和子RDD的partition之间的对应关系是一对一的。 宽依赖 shuffle Dependency : 本质 阅读全文
posted @ 2019-11-21 23:45 二黑诶 阅读(219) 评论(0) 推荐(0) 编辑
摘要: 首先会将jar包上传到机器(服务器上) 1.在这台机器上会产生一个Application(也就是自己的spark程序) 2.然后通过spark-submit(shell) 提交程序的时候 2.1会启动一个driver(进程):spark-submit使用我们之前一直使用的那种提交模式去提交的时候,我 阅读全文
posted @ 2019-11-20 23:38 二黑诶 阅读(146) 评论(0) 推荐(0) 编辑
摘要: 还是以经典案例Wordcount为例: 逻辑思路: 1.先把文本按空格切分成每个单词 flatMap() 2.将每个单词都转换成Tuple2类型(hello ,1) map() 3.将key相同的次数相加(hello , 5) reduceByKey() 4.将(hello , 5) 反转成(5 , 阅读全文
posted @ 2019-11-11 23:15 二黑诶 阅读(770) 评论(0) 推荐(0) 编辑
摘要: 首先需要启动mysql源数据库 server所在服务器的路径:/opt/cm-5.14.0/etc/cloudera-scm-server 下 查看配置文件: db.properties 查看mysql源数据库配置在哪台服务器,然后去对应服务器启动mysql元数据 service mysqld st 阅读全文
posted @ 2019-11-04 18:56 二黑诶 阅读(1856) 评论(0) 推荐(1) 编辑
摘要: spark优化:在一定范围之内,增加资源与性能的提升是成正比的。 因此, 一个cpu core 执行一个task线程、 task数: 若有 cpu core 2个、num-executor 2个 那么task有4个 公式:task = num-executor * cpu core . cpu co 阅读全文
posted @ 2019-10-22 21:59 二黑诶 阅读(288) 评论(0) 推荐(0) 编辑
摘要: spark的主要组件和进程 driver (进程): 我们编写的spark程序就在driver上,由driver进程执行 master(进程): 主要负责资源的调度和分配,还有集群的监控 worker(进程): 主要负责 1.用自己的内存 存储RDD的某个或某些partition; 2.启动其它进程 阅读全文
posted @ 2019-10-17 13:51 二黑诶 阅读(446) 评论(0) 推荐(0) 编辑
摘要: Lombok安装插件 软件:idea 2018.3.6版本 1、打开settings 2.选择Plugins Marketplace 输入Lombok(注意L是大写) 点击Install 然后重启idea即可 3.然后再进入settings 设置一下这个 (不知道 是什么意思, 但是不设置的话ide 阅读全文
posted @ 2019-10-16 14:37 二黑诶 阅读(205) 评论(0) 推荐(0) 编辑
摘要: 一、进入idea官网选择想要下载的版本 官网版本选择页面: https://www.jetbrains.com/idea/download/other.html IntelliJ IDEA 分为两个版本,分别为:旗舰版(Ultimate)和社区版(Community)。 这里我选择了 2018.3. 阅读全文
posted @ 2019-10-14 11:28 二黑诶 阅读(2081) 评论(0) 推荐(0) 编辑
摘要: 启动 /opt/cm-5.14.0/etc/init.d/clouder-scm-server start /opt/cm-5.14.0/etc/init.d/clouder-scm-agent start 阅读全文
posted @ 2019-10-12 19:01 二黑诶 阅读(567) 评论(0) 推荐(0) 编辑
摘要: RDD :弹性分布式数据集;是一个容错的、并行的数据结构,可以让用户显式地将数据存储到磁盘或内存中,并控制数据的分区 RDD是Spark的核心数据结构,通过RDD的依赖关系形成Spark的调度顺序。所谓Spark应用程序,本质是一组对RDD的操作 RDD的两种创建方式 从文件系统输入(如HDFS)创 阅读全文
posted @ 2019-10-12 11:03 二黑诶 阅读(317) 评论(0) 推荐(0) 编辑
上一页 1 ··· 5 6 7 8 9 10 11 12 下一页