摘要: org.apache.maven.plugins maven-assembly-plugin 2.4.1 ... 阅读全文
posted @ 2019-07-17 21:01 北漂屌丝 阅读(230) 评论(0) 推荐(0) 编辑
摘要: RDD(Resilient Distributed Dataset)叫做弹性分布式数据集,是Spark中最基本的数据(计算逻辑)抽象。代码中是一个抽象类,它代表一个不可变、可分区、里面的元素可并行计算的集合 分区 RDD逻辑上是分区的,每个分区的数据是抽象存在的,计算的时候会通过一个compute函 阅读全文
posted @ 2019-07-17 19:26 北漂屌丝 阅读(141) 评论(0) 推荐(0) 编辑
摘要: Local(本地模式) Standalone(分布式) Standalone是Spark自带的一个资源调度框架 Yarn(分布式) Spark实现了AppalicationMaster接口,所以也可以基于Yarn来计算的 Mesos(分布式) 资源调度框架 阅读全文
posted @ 2019-07-17 19:15 北漂屌丝 阅读(175) 评论(0) 推荐(0) 编辑
摘要: hbase shell命令 描述 alter 修改列族(column family)模式 count 统计表中行的数量 create 创建表 describe 显示表相关的详细信息 delete 删除指定对象的值(可以为表,行,列对应的值,另外也可以指定时间戳的值) deleteall 删除指定行的 阅读全文
posted @ 2019-07-17 11:48 北漂屌丝 阅读(908) 评论(0) 推荐(0) 编辑