spark - 随笔分类 - mengrennwpu

Spark源码资料汇总

摘要：近几月，想要了解Spark的内部实现原理，因此想要查阅Spark的源码信息，现将所了解的资料汇总如下： 1. 博客文字类 (1) 官网 1) github 2) Spark官网 (2) gitbook 1) The Internals of Spark Structured Streaming：对s 阅读全文

posted @ 2019-09-02 15:33 mengrennwpu 阅读(350) 评论(0) 推荐(0) 编辑

Spark源码(1): SparkConf

摘要：1. 简介 SparkConf类负责管理Spark的所有配置项。在我们使用Spark的过程中，经常需要灵活配置各种参数，来使程序更好、更快地运行，因此也必然要与SparkConf类频繁打交道。了解它的细节不无裨益。 2. SparkConf类的构造方法下面先来看一看SparkConf类的构造方法。阅读全文

posted @ 2019-09-02 14:59 mengrennwpu 阅读(544) 评论(0) 推荐(0) 编辑

Spark在Windows上调试

摘要：1. 背景 (1) spark的一般开发与运行流程是在本地Idea或Eclipse中写好对应的spark代码，然后打包部署至驱动节点，然后运行spark-submit。然而，当运行时异常，如空指针或数据库连接等出现问题时，又需要再次修改优化代码，然后再打包....有木有可能只需一次部署？ (2) 当阅读全文

posted @ 2019-06-18 15:56 mengrennwpu 阅读(1567) 评论(0) 推荐(0) 编辑

Spark读取HDFS中的Zip文件

摘要：1. 任务背景近日有个项目任务，要求读取压缩在Zip中的百科HTML文件，经分析发现，提供的Zip文件有如下特点(=>指代对应解决方案)： (1) 压缩为分卷文件 => 只需将解压缩在同一目录中的一个分卷zip即可解压缩出整个文件 (2) 压缩文件中又包含不同的两个文件夹，且各包含n个小zip文件阅读全文

posted @ 2019-05-13 23:05 mengrennwpu 阅读(4128) 评论(0) 推荐(0) 编辑

Spark GraphX初探

摘要：1. Graphx概念针对某些领域，如社交网络、语言建模等，graph-parallel系统可以高效地执行复杂的图形算法，比一般的data-parallel系统更快。 Graphx是将graph-parallel的data-parallel统一到一个系统中。允许用户将数据当成一个图或一个集合RDD 阅读全文

posted @ 2019-05-07 08:50 mengrennwpu 阅读(3944) 评论(0) 推荐(0) 编辑

Spark Streaming初探

摘要：1. 介绍 Spark Streaming是Spark生态系统中一个重要的框架，建立在Spark Core之上，与Spark SQL、GraphX、MLib相并列。 Spark Streaming是Spark Core的扩展应用，具有可扩展性、高吞吐量、可容错性等特点。可以监控来自Kafka、Fl 阅读全文

posted @ 2019-03-09 16:15 mengrennwpu 阅读(369) 评论(0) 推荐(0) 编辑

Spark中自定义累加器Accumulator

摘要：1. 自定义累加器自定义累加器需要继承AccumulatorParam，实现addInPlace和zero方法。例1：实现Long类型的累加器例2：定义Set[String]，可用于记录错误日志 2. AccumulableCollection使用阅读全文

posted @ 2019-03-02 12:39 mengrennwpu 阅读(1998) 评论(0) 推荐(0) 编辑

工作采坑札记：3. Spark中es-hadoop插件异常解决

摘要：1. Es-Hadoop异常： org.elasticsearch.hadoop.EsHadoopException: Could not write all entries [615/300864] (maybe ES was overloaded?). Bailing out... at org 阅读全文

posted @ 2018-08-28 22:35 mengrennwpu 阅读(521) 评论(0) 推荐(0) 编辑

mengrennwpu

好学求知，稳健中流

随笔分类 - spark

公告