随笔分类 - 【大数据技术】Hadoop
摘要:一、大容量数据实时存储方案 点击流:App、小程序和 Web 页面上的埋点数据,这些埋点数据记录用户的行为,比如你打开了哪个页面,点击了哪个按钮,在哪个商品上停留了多久 数据量:每天超过 TB(1 TB = 1024 GB)级别,数据累积达到 PB(1 PB = 1024 TB)级别 方案一:几个月
阅读全文
摘要:一、分区 1.1先分析一下具体的业务逻辑,确定大概有多少个分区 1.2首先书写一个类,它要继承org.apache.hadoop.mapreduce.Partitioner这个类 1.3重写public int getPartition这个方法,根据具体逻辑,读数据库或者配置返回相同的数字 1.4在
阅读全文
摘要:一、MapReduce过程 二、原理 三、wordCount public class WordCount { public static void main(String[] args) throws Exception { Configuration conf = new Configurati
阅读全文
摘要:一、导入依赖包 在File->Project Structure->Modules->Dependencies下导入Hadoop->share文件下的相应jar包,包括: common下的:hadoop-common-3.2.1.jar、 hadoop-nfs-3.2.1.jar以及所有lib下的j
阅读全文
摘要:一、大纲 1、HDFS集群环境搭建 2、常见问题 3、HDFS Shell命令使用 二、集群环境搭建 下载地址: https://hadoop.apache.org/releases.html 1、初始化目录 在/bigdata/hadoop-3.2.2/下创建目录 mkdir logs secre
阅读全文
摘要:一、hadoop开源生态介绍 1、云计算与大数据 Iaas:基础设施即服务,通过互联网获得服务,例如亚马逊AWS,openStack Paas:平台即服务,把服务器平台作为一种服务,例如虚拟开发平台,默认安装开发环境,hadoop Saas:软件即服务,例如office365,大量app 2、大数据
阅读全文