大数据与云计算 - 随笔分类 - Geeksongs

【Hive】:简介与基本使用

摘要：hive简单来说，就是一个用来查询hadoop当中（hdfs）数据的一个工具。它的结构如下： hive当中有一部分用来储存元数据，也就是metadata，这些metadata包含了hadoop当中的数据表的schema，比如说一个表的所有列名称，字段，类型。以及有哪些表table已经被hdfs所保存阅读全文

posted @ 2021-10-23 22:25 Geeksongs 阅读(348) 评论(0) 推荐(0)

【Hadoop】：MapReduce实现序列化

摘要：一.序列化简介什么是序列化呢？序列化：对象———》字节序列反序列化：字节序列——》对象备注：对象在内存(RAM)当中字节序列：可以在磁盘（ROM）当中，也可以在网络当中进行传输序列化的根本缘故：将对象从RAM里的数据转化成ROM里的数据二.序列化案例我们这里将要编写的序列化的程序的阅读全文

posted @ 2021-01-19 11:15 Geeksongs 阅读(321) 评论(0) 推荐(0)

【Hadoop】：手动实现WordCount案例

摘要：一.实现案例实现WorldCount的流程如下：备注：其中输入的数据是一个txt文件，里面有各种单词，每一行中用空格进行空行一.Mapper的编写我们在IDEA是使用“ctrl+alt+鼠标左键点击”的方式来查看源码，我们首先查看mapper 类的源码，同时源码我已经使用了，如下所示： // 阅读全文

posted @ 2021-01-15 13:27 Geeksongs 阅读(473) 评论(0) 推荐(0)

【Hadoop】：MapReduce核心思想

摘要：一.MapReduce流程介绍假设我们有一个任务：用于统计一个文件当中一个单词出现的总次数,查询结果保存到两个文件里，一个装载a-p单词出现的次数，一个文件装载q-z单词出现的个数。下面是这个任务使用mapreduce实现的具体流程： MapReduce当中需要注意的是： 1.一个MapReduc 阅读全文

posted @ 2021-01-11 11:32 Geeksongs 阅读(574) 评论(0) 推荐(0)

【Hadoop】：HDFS的读写操作

摘要：一.HDFS的写（上传）操作所谓的写操作，那么就是将client的文件（可能是本地）写入到HDFS当中。写操作的流程如图所示：过程概述： 1.我们有一个大小为200mb的文件，在逻辑上将其分为两个block，并不是在实际当中进行分割（这里不知道为什么分为了128mb和72mb两个block，因阅读全文

posted @ 2021-01-05 13:36 Geeksongs 阅读(626) 评论(0) 推荐(0)

【Hadoop】：HDFS调用Java API进行操作

摘要：一.程序的架构一般来讲我们可以使用命令行在linux下对HDFS进行操作，那么我们也可以使用Java对HDFS进行操作，因为一旦使用了Java，我们可以编写Java程序定时对HDFS进行操作，这样就会更加的自动，也就不需要人为在linux下输入这些命令了。这里我使用了Junit的Java单元测试对阅读全文

posted @ 2021-01-05 11:20 Geeksongs 阅读(544) 评论(0) 推荐(0)

【Hadoop】：Windows下使用IDEA搭建Hadoop开发环境

摘要：笔者鼓弄了两个星期，终于把所有有关hadoop的环境配置好了，一是虚拟机上的完全分布式集群，但是为了平时写代码的方便，则在windows上也配置了hadoop的伪分布式集群，同时在IDEA上就可以编写代码，同时在windows环境下进行运行。（如果不配置windows下的伪分布式集群，则在IDEA上阅读全文

posted @ 2020-12-29 09:20 Geeksongs 阅读(8689) 评论(0) 推荐(3)

【Hadoop】：HDFS简介

摘要：一.定义 HDFS(Hadoop Distributed File System):它是一个文件系统，用于储存文件，通过目录树来定位文件。同时，它是分布式的，由很多服务器联系起来实现其功能，集群的服务器有各自的角色。 HDFS的使用场景：适合一次写入，多次读入的场景，且不支持文件的修改。适合用来做数阅读全文

posted @ 2020-12-15 08:06 Geeksongs 阅读(290) 评论(0) 推荐(0)

【Hadoop】：Hadoop的启动与停止

摘要：1.启动NameNode: hadoop-daemon.sh start namenode 2.启动DataNode： hadoop-daemon.sh start datanode 3.启动Secondary DataNode： hadoop-daemon.sh start secondaryda 阅读全文

posted @ 2020-12-14 20:31 Geeksongs 阅读(416) 评论(0) 推荐(0)

【Hadoop】：配置出错error出现：Stop it first

摘要：出现的错误如下： hadoop@mike-VirtualBox:/usr/local/hadoop/hadoop$ ./sbin/start-dfs.sh 20/12/14 20:15:06 WARN util.NativeCodeLoader: Unable to load native-hado 阅读全文

posted @ 2020-12-14 19:11 Geeksongs 阅读(2062) 评论(0) 推荐(0)

Geek Song

保持对科技的热情，不断积累自己的技术套装，力求能够快速从0到1构建整个项目，生命因技术而更加精彩！

随笔分类 - 大数据与云计算

公告

Coded by Geeksongs on Linux

All rights reserved, no one is allowed to pirate or use the document for other purposes.