herman很慢

导航

2019年9月30日 #

大数据——基础知识

摘要: 1、什么是大数据? 数据的“5V”特性来进行阐述: 一、Volume:数据量大,包括采集、存储和计算的量都非常大。大数据的起始计量单位至少是P(1000个T)、E(100万个T)或Z(10亿个T)。 二、Variety:种类和来源多样化。包括结构化、半结构化和非结构化数据,具体表现为网络日志、音频、 阅读全文

posted @ 2019-09-30 10:04 herman很慢 阅读(1023) 评论(0) 推荐(0) 编辑

HDFS数据定期清理

摘要: HDFS数据清理一些办法: datanode数据做reblance清理临时目录、日志目录文件全量分区表历史分区清理使用lzo,orc格式进行数据压缩清理或者归档历史冷数据增加datanode横向扩容附上自动清理目录下过期的文件 #!/bin/bashsource ~/.bash_profile # 阅读全文

posted @ 2019-09-30 08:52 herman很慢 阅读(3067) 评论(0) 推荐(0) 编辑