herman很慢

导航

2019年4月22日 #

Spark性能优化指南——高级篇

摘要: Spark性能优化指南——基础篇 本文转自:http://lxw1234.com/archives/2016/05/661.htm 转自 http://tech.meituan.com/spark-tuning-pro.html 感谢原作者 1.数据倾斜调优 1.1调优概述 有的时候,我们可能会遇到 阅读全文

posted @ 2019-04-22 09:45 herman很慢 阅读(1226) 评论(0) 推荐(0) 编辑

2019年3月19日 #

Spark性能优化指南——基础篇

摘要: 本文转自:http://lxw1234.com/archives/2016/05/661.htm 转自 http://tech.meituan.com/spark-tuning-pro.html 感谢原作者 Spark性能优化指南——高级篇 1. 前言 在大数据计算领域,Spark已经成为了越来越流 阅读全文

posted @ 2019-03-19 10:12 herman很慢 阅读(546) 评论(0) 推荐(1) 编辑

2019年3月18日 #

spark中的cache和persist的区别

摘要: 在使用中一直知其然不知其所以然的地使用RDD.cache(),系统的学习之后发现还有一个与cache功能类似看起来冗余的persist 点进去一探究竟之后发现cache()是persist()的特例,persist可以指定一个StorageLevel。StorageLevel的列表可以在Storag 阅读全文

posted @ 2019-03-18 09:27 herman很慢 阅读(2787) 评论(0) 推荐(0) 编辑

2019年3月1日 #

Spark算子与RDD基本转换

摘要: map 将一个RDD中的每个数据项,通过map中的函数映射变为一个新的元素。 输入分区与输出分区一对一,即:有多少个输入分区,就有多少个输出分区。 flatMap 属于Transformation算子,第一步和map一样,最后将所有的输出分区合并成一个。 使用flatMap时候需要注意:flatMa 阅读全文

posted @ 2019-03-01 17:24 herman很慢 阅读(723) 评论(0) 推荐(0) 编辑

spark的RDD如何转换为DataFrame

摘要: 1、Dataset与RDD之间的交互 Spark仅支持两种方式来将RDD转成Dataset。第一种方式是使用反射来推断一个RDD所包含的对象的特定类型。这种基于反射的方式会让代码更加地简洁,当你在编写一个Spark应用程序的时候,如果你已经了解该schema,这种方式就很适用。 第二种方式是通过一个 阅读全文

posted @ 2019-03-01 17:06 herman很慢 阅读(502) 评论(0) 推荐(0) 编辑

2019年1月14日 #

用mongodump以及mongorestore来完成mongo的迁移任务

摘要: 首先粘贴官网说明: 详细请见:https://docs.mongodb.com/manual/ 在实际操作中,一般只需用到 阅读全文

posted @ 2019-01-14 20:03 herman很慢 阅读(483) 评论(0) 推荐(0) 编辑

2018年12月18日 #

Apache 流框架Flink简介

摘要: 1.Flink架构及特性分析 Flink是个相当早的项目,开始于2008年,但只在最近才得到注意。Flink是原生的流处理系统,提供high level的API。Flink也提供 API来像Spark一样进行批处理,但两者处理的基础是完全不同的。Flink把批处理当作流处理中的一种特殊情况。在Fli 阅读全文

posted @ 2018-12-18 13:50 herman很慢 阅读(670) 评论(0) 推荐(0) 编辑

2018年12月13日 #

CI、CD相关概念

摘要: 版权声明:文章内容来自于https://blog.csdn.net/sinat_35930259/article/details/79429743 转载请注明出处,欢迎留言大家一起讨论学习~~ 在软件的编译发布的过程中,经常能够看到CI、CD这样的词语。其实他们是专业的缩写短语,这里介绍下他们的概念 阅读全文

posted @ 2018-12-13 15:42 herman很慢 阅读(178) 评论(0) 推荐(0) 编辑

2018年12月7日 #

RDD的cache 与 checkpoint 的区别

摘要: 问题:cache 与 checkpoint 的区别? 关于这个问题,Tathagata Das 有一段回答: There is a significant difference between cache and checkpoint. Cache materializes the RDD and 阅读全文

posted @ 2018-12-07 11:05 herman很慢 阅读(939) 评论(1) 推荐(1) 编辑

2018年11月30日 #

【查看修复HDFS中丢失的块】org.apache.hadoop.hdfs.BlockMissingException: Could not obtain block: BP

摘要: 首先得好看有多少损坏的文件,其中需要使用Hadoop的fsck命令: 以下是官方解释 用法: hadoop fsck //路径 以上将会展示该路径下所有受损的文件 最后用-delete 可以清除掉所有受损的文件 阅读全文

posted @ 2018-11-30 17:16 herman很慢 阅读(9398) 评论(0) 推荐(0) 编辑