摘要: source->channel,数据由source写入channel,主动模式,主要步骤如下: 一个SourceRunner包含一个Source对象,一个Source对象包含一个ChannelProcessor对象,一个ChannelProcessor对象包含多个Interceptor对象和一个Ch 阅读全文
posted @ 2019-10-15 21:24 北漂屌丝 阅读(1434) 评论(0) 推荐(1) 编辑
摘要: 输入可能以多个文件的形式存储在HDFS上,每个File都包含了很多块,称为Block。当Spark读取这些文件作为输入时,会根据具体数据格式对应的InputFormat进行解析,一般是将若干个Block合并成一个输入分片,称为InputSplit,注意InputSplit不能跨越文件。随后将为这些输 阅读全文
posted @ 2019-09-07 20:30 北漂屌丝 阅读(277) 评论(0) 推荐(0) 编辑
摘要: Spark目前支持Hash分区和Range分区,用户也可以自定义分区,Hash分区为当前的默认分区,Spark中分区器直接决定了RDD中分区的个数、RDD中每条数据经过Shuffle过程属于哪个分区和Reduce的个数 只有Key-Value类型的RDD才有分区器的,非Key-Value类型的RDD 阅读全文
posted @ 2019-09-04 08:31 北漂屌丝 阅读(631) 评论(0) 推荐(0) 编辑
摘要: reduceByKey:按照key进行聚合,在shuffle之前有combine(预聚合)操作,返回结果是RDD[k,v] groupByKey:按照key进行分组,直接进行shuffle 建议使用reduceByKey。但是需要注意是否会影响业务逻辑 reduceByKey:按照key进行聚合,在 阅读全文
posted @ 2019-09-04 07:55 北漂屌丝 阅读(789) 评论(0) 推荐(0) 编辑
摘要: coalesce重新分区,可以选择是否进行shuffle过程。由参数shuffle: Boolean = false/true决定 repartition实际上是调用的coalesce,默认是进行shuffle的 阅读全文
posted @ 2019-09-04 07:45 北漂屌丝 阅读(1089) 评论(0) 推荐(0) 编辑
摘要: map():每次处理一条数据 mapPartition():每次处理一个分区的数据,这个分区的数据处理完后,原RDD中分区的数据才能释放,可能导致OOM 当内存空间较大的时候建议使用mapPartition(),以提高处理效率 map():每次处理一条数据 mapPartition():每次处理一个 阅读全文
posted @ 2019-09-03 21:39 北漂屌丝 阅读(1769) 评论(0) 推荐(0) 编辑
摘要: Driver(驱动器) Spark的驱动器是执行开发程序中的main方法的进程。它负责开发人员编写的用来创建SparkContext、创建RDD,以及进行RDD的转化操作和行动操作代码的执行 把用户程序转为作业(JOB) 跟踪Executor的运行状况 为执行器节点调度任务 UI展示应用运行状况 D 阅读全文
posted @ 2019-08-29 14:57 北漂屌丝 阅读(567) 评论(0) 推荐(0) 编辑
摘要: Spark Core 实现了Spark的基本功能,包含任务调度、内存管理、错误恢复、与存储系统交互等模块。Spark Core中还包含了对弹性分布式数据集(Resilient Distributed DataSet,简称RDD)的API定义 Spark SQL 是Spark用来操作结构化数据的程序包 阅读全文
posted @ 2019-08-29 14:47 北漂屌丝 阅读(1279) 评论(0) 推荐(0) 编辑
摘要: Hadoop的默认配置通常是使用派生JVM来执行map和Reduce任务的。这时JVM的启动过程可能会造成相当大的开销,尤其是执行的job包含有成百上千task任务的情况。JVM重用可以使得JVM实例在同一个job中重新使用N次 这个功能的缺点是,开启JVM重用将一直占用使用到的task插槽,以便进 阅读全文
posted @ 2019-08-27 09:32 北漂屌丝 阅读(2558) 评论(0) 推荐(0) 编辑
摘要: 设置为严格模式后,可以禁止3种类型的查询 带有分区的表的查询 如果在一个分区表执行hive,除非where语句中包含分区字段过滤条件来显示数据范围,否则不允许执行。换句话说就是在严格模式下不允许用户扫描所有的分区,进行这个限制的原因是,通常分区表都拥有非常大的数据集,而且数据增加迅速。如果不进行分区 阅读全文
posted @ 2019-08-27 09:25 北漂屌丝 阅读(227) 评论(0) 推荐(0) 编辑