上一页 1 ··· 5 6 7 8 9 10 11 12 13 ··· 15 下一页
摘要: Standalone-client模式: Standalone-client模式: client模式适用于测试调试程序。Driver进程是在客户端启动的,这里的客户端就是指提交应用程序的当前节点。在Driver端可以看到task执行的情况。生产环境下不能使用client模式,是因为:假设要提交100 阅读全文
posted @ 2019-07-21 17:35 北漂屌丝 阅读(1231) 评论(0) 推荐(0) 编辑
摘要: stage概念 Spark任务会根据RDD之间的依赖关系,形成一个DAG有向无环图,DAG会提交给DAGScheduler,DAGScheduler会把DAG划分相互依赖的多个stage,划分stage的依据就是RDD之间的宽窄依赖。遇到宽依赖就划分stage,每个stage包含一个或多个task任 阅读全文
posted @ 2019-07-21 17:14 北漂屌丝 阅读(245) 评论(0) 推荐(0) 编辑
摘要: RDD之间有一系列的依赖关系,依赖关系又分为窄依赖和宽依赖 窄依赖,不会有shuffle的产生 父RDD和子RDD partition关系是一对一的 父RDD和子RDD partition关系是多对一的 窄依赖,不会有shuffle的产生 父RDD和子RDD partition关系是一对一的 父RD 阅读全文
posted @ 2019-07-21 16:43 北漂屌丝 阅读(120) 评论(0) 推荐(0) 编辑
摘要: 1)A list of partitions 一组分区:RDD由很多partition构成,有多少partition就对应有多少task 2)A function for computing each split 一个函数:对RDD做计算,相当于对RDD的每个split或partition做计算 3 阅读全文
posted @ 2019-07-21 16:01 北漂屌丝 阅读(1639) 评论(0) 推荐(0) 编辑
摘要: org.apache.maven.plugins maven-assembly-plugin 2.4.1 ... 阅读全文
posted @ 2019-07-17 21:01 北漂屌丝 阅读(230) 评论(0) 推荐(0) 编辑
摘要: RDD(Resilient Distributed Dataset)叫做弹性分布式数据集,是Spark中最基本的数据(计算逻辑)抽象。代码中是一个抽象类,它代表一个不可变、可分区、里面的元素可并行计算的集合 分区 RDD逻辑上是分区的,每个分区的数据是抽象存在的,计算的时候会通过一个compute函 阅读全文
posted @ 2019-07-17 19:26 北漂屌丝 阅读(141) 评论(0) 推荐(0) 编辑
摘要: Local(本地模式) Standalone(分布式) Standalone是Spark自带的一个资源调度框架 Yarn(分布式) Spark实现了AppalicationMaster接口,所以也可以基于Yarn来计算的 Mesos(分布式) 资源调度框架 阅读全文
posted @ 2019-07-17 19:15 北漂屌丝 阅读(175) 评论(0) 推荐(0) 编辑
摘要: hbase shell命令 描述 alter 修改列族(column family)模式 count 统计表中行的数量 create 创建表 describe 显示表相关的详细信息 delete 删除指定对象的值(可以为表,行,列对应的值,另外也可以指定时间戳的值) deleteall 删除指定行的 阅读全文
posted @ 2019-07-17 11:48 北漂屌丝 阅读(908) 评论(0) 推荐(0) 编辑
摘要: 开启Hive的本地模式:set hive.exec.mode.local.auto=true;(默认为false) 阅读全文
posted @ 2019-07-12 07:33 北漂屌丝 阅读(1549) 评论(0) 推荐(0) 编辑
摘要: PageRank是什么 PageRank,网页排名。PageRank 计算每一个网页的PageRank值,并根据PageRank值的大小对网页的重要性进行排序。PageRank的基本思想是:对于一个网页A来说,链接到A的页面越多,且链接到A的页面的PageRank值越大,网页A的PageRank值越 阅读全文
posted @ 2019-07-10 19:45 北漂屌丝 阅读(260) 评论(0) 推荐(0) 编辑
上一页 1 ··· 5 6 7 8 9 10 11 12 13 ··· 15 下一页