北漂屌丝 - 博客园

2019年7月21日

摘要： Standalone-client模式： Standalone-client模式： client模式适用于测试调试程序。Driver进程是在客户端启动的，这里的客户端就是指提交应用程序的当前节点。在Driver端可以看到task执行的情况。生产环境下不能使用client模式，是因为：假设要提交100 阅读全文

posted @ 2019-07-21 17:35 北漂屌丝阅读(1231) 评论(0) 推荐(0) 编辑

spark stage

摘要： stage概念 Spark任务会根据RDD之间的依赖关系，形成一个DAG有向无环图，DAG会提交给DAGScheduler，DAGScheduler会把DAG划分相互依赖的多个stage，划分stage的依据就是RDD之间的宽窄依赖。遇到宽依赖就划分stage,每个stage包含一个或多个task任阅读全文

posted @ 2019-07-21 17:14 北漂屌丝阅读(245) 评论(0) 推荐(0) 编辑

RDD 宽窄依赖

摘要： RDD之间有一系列的依赖关系，依赖关系又分为窄依赖和宽依赖窄依赖，不会有shuffle的产生父RDD和子RDD partition关系是一对一的父RDD和子RDD partition关系是多对一的窄依赖，不会有shuffle的产生父RDD和子RDD partition关系是一对一的父RD 阅读全文

posted @ 2019-07-21 16:43 北漂屌丝阅读(120) 评论(0) 推荐(0) 编辑

RDD 五大特性

摘要： 1）A list of partitions 一组分区：RDD由很多partition构成，有多少partition就对应有多少task 2）A function for computing each split 一个函数：对RDD做计算，相当于对RDD的每个split或partition做计算 3 阅读全文

posted @ 2019-07-21 16:01 北漂屌丝阅读(1639) 评论(0) 推荐(0) 编辑

2019年7月17日

maven 代码和依赖打包

摘要： org.apache.maven.plugins maven-assembly-plugin 2.4.1 ... 阅读全文

posted @ 2019-07-17 21:01 北漂屌丝阅读(230) 评论(0) 推荐(0) 编辑

SPARK之RDD

摘要： RDD（Resilient Distributed Dataset）叫做弹性分布式数据集，是Spark中最基本的数据（计算逻辑）抽象。代码中是一个抽象类，它代表一个不可变、可分区、里面的元素可并行计算的集合分区 RDD逻辑上是分区的，每个分区的数据是抽象存在的，计算的时候会通过一个compute函阅读全文

posted @ 2019-07-17 19:26 北漂屌丝阅读(141) 评论(0) 推荐(0) 编辑

spark部署方式

摘要： Local（本地模式） Standalone（分布式） Standalone是Spark自带的一个资源调度框架 Yarn（分布式） Spark实现了AppalicationMaster接口，所以也可以基于Yarn来计算的 Mesos（分布式）资源调度框架阅读全文

posted @ 2019-07-17 19:15 北漂屌丝阅读(175) 评论(0) 推荐(0) 编辑

hbase shell 常用命令

摘要： hbase shell命令描述 alter 修改列族（column family）模式 count 统计表中行的数量 create 创建表 describe 显示表相关的详细信息 delete 删除指定对象的值（可以为表，行，列对应的值，另外也可以指定时间戳的值） deleteall 删除指定行的阅读全文

posted @ 2019-07-17 11:48 北漂屌丝阅读(908) 评论(0) 推荐(0) 编辑

2019年7月12日

开启Hive的本地模式

摘要：开启Hive的本地模式：set hive.exec.mode.local.auto=true;(默认为false) 阅读全文

posted @ 2019-07-12 07:33 北漂屌丝阅读(1549) 评论(0) 推荐(0) 编辑

2019年7月10日

mapreduce版pagernak

摘要： PageRank是什么 PageRank，网页排名。PageRank 计算每一个网页的PageRank值，并根据PageRank值的大小对网页的重要性进行排序。PageRank的基本思想是：对于一个网页A来说，链接到A的页面越多，且链接到A的页面的PageRank值越大，网页A的PageRank值越阅读全文

posted @ 2019-07-10 19:45 北漂屌丝阅读(260) 评论(0) 推荐(0) 编辑

beipiaodiaosi