herman很慢

导航

2019年10月22日 #

JVM之内存结构详解

摘要: [转自]https://www.choupangxia.com/2019/10/18/jvm%E4%B9%8B%E5%86%85%E5%AD%98%E7%BB%93%E6%9E%84%E8%AF%A6%E8%A7%A3/ 对于开发人员来说,如果不了解Java的JVM,那真的是很难写得一手好代码,很难 阅读全文

posted @ 2019-10-22 17:11 herman很慢 阅读(154) 评论(0) 推荐(0) 编辑

2019年10月21日 #

ContextCleaner ——Spark 应用程序的垃圾回收器

摘要: ContextCleaner是一个Spark服务,负责在应用程序范围内清除 shuffles, RDDs, broadcasts, accumulators和checkpointed RDDs,目的是减少长时间运行的数据密集型Spark应用程序的内存需求。 ContextCleaner在驱动程序上运 阅读全文

posted @ 2019-10-21 11:21 herman很慢 阅读(587) 评论(0) 推荐(0) 编辑

2019年10月16日 #

重新认识Java 8的HashMap

摘要: 【转自】美团技术博客 HashMap是Java程序员使用频率最高的用于映射(键值对)处理的数据类型。随着JDK(Java Developmet Kit)版本的更新,JDK1.8对HashMap底层的实现进行了优化,例如引入红黑树的数据结构和扩容的优化等。本文结合JDK1.7和JDK1.8的区别,深入 阅读全文

posted @ 2019-10-16 10:16 herman很慢 阅读(484) 评论(0) 推荐(0) 编辑

2019年10月15日 #

HDFS NameNode内存全景

摘要: 原文:HDFS NameNode内存全景 一、概述 从整个HDFS系统架构上看,NameNode是其中最重要、最复杂也是最容易出现问题的地方,而且一旦NameNode出现故障,整个Hadoop集群就将处于不可服务的状态,同时随着数据规模和集群规模地持续增长,很多小量级时被隐藏的问题逐渐暴露出来。所以 阅读全文

posted @ 2019-10-15 14:51 herman很慢 阅读(208) 评论(0) 推荐(0) 编辑

HDFS的NameNode与SecondaryNameNode的工作原理

摘要: 原文:https://blog.51cto.com/xpleaf/2147375 看完之后确实对nameNode的工作更加清晰一些 在Hadoop中,有一些命名不好的模块,Secondary NameNode是其中之一。 ​ 从它的名字上看,它给人的感觉就像是NameNode的备份。但它实际上却不是 阅读全文

posted @ 2019-10-15 10:41 herman很慢 阅读(833) 评论(0) 推荐(0) 编辑

2019年9月30日 #

大数据——基础知识

摘要: 1、什么是大数据? 数据的“5V”特性来进行阐述: 一、Volume:数据量大,包括采集、存储和计算的量都非常大。大数据的起始计量单位至少是P(1000个T)、E(100万个T)或Z(10亿个T)。 二、Variety:种类和来源多样化。包括结构化、半结构化和非结构化数据,具体表现为网络日志、音频、 阅读全文

posted @ 2019-09-30 10:04 herman很慢 阅读(1077) 评论(0) 推荐(0) 编辑

HDFS数据定期清理

摘要: HDFS数据清理一些办法: datanode数据做reblance清理临时目录、日志目录文件全量分区表历史分区清理使用lzo,orc格式进行数据压缩清理或者归档历史冷数据增加datanode横向扩容附上自动清理目录下过期的文件 #!/bin/bashsource ~/.bash_profile # 阅读全文

posted @ 2019-09-30 08:52 herman很慢 阅读(3094) 评论(0) 推荐(0) 编辑

2019年9月2日 #

机器学习——几种距离度量方法比较

摘要: 本文转自https://my.oschina.net/hunglish/blog/787596,原著地址:http://yuguangchuan.github.io/2015/11/17/Distance-measurements/ 1. 欧氏距离(Euclidean Distance) 欧氏距离是 阅读全文

posted @ 2019-09-02 09:44 herman很慢 阅读(575) 评论(0) 推荐(0) 编辑

2019年7月29日 #

解决Git 克隆代码 The remote end hung up unexpectedly错误

摘要: 增加最低速度时间 git config --global http.lowSpeedLimit 0git config --global http.lowSpeedTime 999999 阅读全文

posted @ 2019-07-29 17:21 herman很慢 阅读(786) 评论(0) 推荐(0) 编辑

2019年4月29日 #

Spark中的CombineKey()详解

摘要: CombineKey()是最常用的基于键进行聚合的函数,大多数基于键聚合的函数都是用它实现的。和aggregate()一样,CombineKey()可以让用户返回与输入数据的类型不同的返回值。要理解CombineKey()需要先理解它在数据处理时是如何处理每个元素的。由于CombineKey()会遍 阅读全文

posted @ 2019-04-29 09:44 herman很慢 阅读(965) 评论(0) 推荐(0) 编辑