herman很慢

Spark性能优化指南——高级篇

摘要： Spark性能优化指南——基础篇本文转自：http://lxw1234.com/archives/2016/05/661.htm 转自 http://tech.meituan.com/spark-tuning-pro.html 感谢原作者 1.数据倾斜调优 1.1调优概述有的时候，我们可能会遇到阅读全文

posted @ 2019-04-22 09:45 herman很慢阅读(1226) 评论(0) 推荐(0) 编辑

Spark性能优化指南——基础篇

摘要：本文转自：http://lxw1234.com/archives/2016/05/661.htm 转自 http://tech.meituan.com/spark-tuning-pro.html 感谢原作者 Spark性能优化指南——高级篇 1. 前言在大数据计算领域，Spark已经成为了越来越流阅读全文

posted @ 2019-03-19 10:12 herman很慢阅读(546) 评论(0) 推荐(1) 编辑

spark中的cache和persist的区别

摘要：在使用中一直知其然不知其所以然的地使用RDD.cache()，系统的学习之后发现还有一个与cache功能类似看起来冗余的persist 点进去一探究竟之后发现cache()是persist()的特例，persist可以指定一个StorageLevel。StorageLevel的列表可以在Storag 阅读全文

posted @ 2019-03-18 09:27 herman很慢阅读(2787) 评论(0) 推荐(0) 编辑

Spark算子与RDD基本转换

摘要： map 将一个RDD中的每个数据项，通过map中的函数映射变为一个新的元素。输入分区与输出分区一对一，即：有多少个输入分区，就有多少个输出分区。 flatMap 属于Transformation算子，第一步和map一样，最后将所有的输出分区合并成一个。使用flatMap时候需要注意:flatMa 阅读全文

posted @ 2019-03-01 17:24 herman很慢阅读(723) 评论(0) 推荐(0) 编辑

spark的RDD如何转换为DataFrame

摘要： 1、Dataset与RDD之间的交互 Spark仅支持两种方式来将RDD转成Dataset。第一种方式是使用反射来推断一个RDD所包含的对象的特定类型。这种基于反射的方式会让代码更加地简洁，当你在编写一个Spark应用程序的时候，如果你已经了解该schema，这种方式就很适用。第二种方式是通过一个阅读全文

posted @ 2019-03-01 17:06 herman很慢阅读(502) 评论(0) 推荐(0) 编辑

用mongodump以及mongorestore来完成mongo的迁移任务

摘要：首先粘贴官网说明：详细请见：https://docs.mongodb.com/manual/ 在实际操作中，一般只需用到阅读全文

posted @ 2019-01-14 20:03 herman很慢阅读(483) 评论(0) 推荐(0) 编辑

Apache 流框架Flink简介

摘要： 1.Flink架构及特性分析 Flink是个相当早的项目，开始于2008年，但只在最近才得到注意。Flink是原生的流处理系统，提供high level的API。Flink也提供 API来像Spark一样进行批处理，但两者处理的基础是完全不同的。Flink把批处理当作流处理中的一种特殊情况。在Fli 阅读全文

posted @ 2018-12-18 13:50 herman很慢阅读(670) 评论(0) 推荐(0) 编辑

CI、CD相关概念

posted @ 2018-12-13 15:42 herman很慢阅读(178) 评论(0) 推荐(0) 编辑

RDD的cache 与 checkpoint 的区别

摘要：问题：cache 与 checkpoint 的区别？关于这个问题，Tathagata Das 有一段回答: There is a significant difference between cache and checkpoint. Cache materializes the RDD and 阅读全文

posted @ 2018-12-07 11:05 herman很慢阅读(939) 评论(1) 推荐(1) 编辑

【查看修复HDFS中丢失的块】org.apache.hadoop.hdfs.BlockMissingException: Could not obtain block: BP

摘要：首先得好看有多少损坏的文件，其中需要使用Hadoop的fsck命令：以下是官方解释用法： hadoop fsck //路径以上将会展示该路径下所有受损的文件最后用-delete 可以清除掉所有受损的文件阅读全文

posted @ 2018-11-30 17:16 herman很慢阅读(9398) 评论(0) 推荐(0) 编辑

导航

公告