随笔分类 - 大数据与云计算
摘要:hive简单来说,就是一个用来查询hadoop当中(hdfs)数据的一个工具。它的结构如下: hive当中有一部分用来储存元数据,也就是metadata,这些metadata包含了hadoop当中的数据表的schema,比如说一个表的所有列名称,字段,类型。以及有哪些表table已经被hdfs所保存
阅读全文
摘要:一.序列化简介 什么是序列化呢? 序列化:对象———》字节序列 反序列化:字节序列——》对象 备注:对象在内存(RAM)当中 字节序列:可以在磁盘(ROM)当中,也可以在网络当中进行传输 序列化的根本缘故:将对象从RAM里的数据 转化成ROM里的数据 二.序列化案例 我们这里将要编写的序列化的程序的
阅读全文
摘要:一.实现案例 实现WorldCount的流程如下: 备注:其中输入的数据是一个txt文件,里面有各种单词,每一行中用空格进行空行 一.Mapper的编写 我们在IDEA是使用“ctrl+alt+鼠标左键点击”的方式来查看源码,我们首先查看mapper 类的源码,同时源码我已经使用了,如下所示: //
阅读全文
摘要:一.MapReduce流程介绍 假设我们有一个任务:用于统计一个文件当中一个单词出现的总次数,查询结果保存到两个文件里,一个装载a-p单词出现的次数,一个文件装载q-z单词出现的个数。下面是这个任务使用mapreduce实现的具体流程: MapReduce当中需要注意的是: 1.一个MapReduc
阅读全文
摘要:一.HDFS的写(上传)操作 所谓的写操作,那么就是将client的文件(可能是本地)写入到HDFS当中。 写操作的流程如图所示: 过程概述: 1.我们有一个大小为200mb的文件,在逻辑上将其分为两个block,并不是在实际当中进行分割(这里不知道为什么分为了128mb和72mb两个block,因
阅读全文
摘要:一.程序的架构 一般来讲我们可以使用命令行在linux下对HDFS进行操作,那么我们也可以使用Java对HDFS进行操作,因为一旦使用了Java,我们可以编写Java程序定时对HDFS进行操作,这样就会更加的自动,也就不需要人为在linux下输入这些命令了。这里我使用了Junit的Java单元测试对
阅读全文
摘要:笔者鼓弄了两个星期,终于把所有有关hadoop的环境配置好了,一是虚拟机上的完全分布式集群,但是为了平时写代码的方便,则在windows上也配置了hadoop的伪分布式集群,同时在IDEA上就可以编写代码,同时在windows环境下进行运行。(如果不配置windows下的伪分布式集群,则在IDEA上
阅读全文
摘要:一.定义 HDFS(Hadoop Distributed File System):它是一个文件系统,用于储存文件,通过目录树来定位文件。同时,它是分布式的,由很多服务器联系起来实现其功能,集群的服务器有各自的角色。 HDFS的使用场景:适合一次写入,多次读入的场景,且不支持文件的修改。适合用来做数
阅读全文
摘要:1.启动NameNode: hadoop-daemon.sh start namenode 2.启动DataNode: hadoop-daemon.sh start datanode 3.启动Secondary DataNode: hadoop-daemon.sh start secondaryda
阅读全文
摘要:出现的错误如下: hadoop@mike-VirtualBox:/usr/local/hadoop/hadoop$ ./sbin/start-dfs.sh 20/12/14 20:15:06 WARN util.NativeCodeLoader: Unable to load native-hado
阅读全文