Hadoop - 随笔分类 - S++

HBase —— Shell操作

摘要：HBase —— Shell操作表的基本操作创建表 create '表名', '列簇名', ... 查看表 list 删除表 ## 禁用表 disable "表名" ## 删除表 drop "表名" 添加数据 put '表名','ROWKEY','列簇名:列','值' 查看数据 get '表名' 阅读全文

posted @ 2022-07-21 08:18 S++ 阅读(104) 评论(0) 推荐(0) 编辑

HBase —— 入门

摘要：HBase —— 入门 HBase介绍 HBase是一个**分布式的、面向列的**开源数据库，该技术来源于 Fay Chang 所撰写的Google论文“Bigtable：一个结构化数据的分布式存储系统”。就像Bigtable利用了Google文件系统（File System）所提供的分布式数据存储阅读全文

posted @ 2022-07-15 10:23 S++ 阅读(71) 评论(0) 推荐(0) 编辑

Hive —— HQL

摘要：Hive —— HQL Hive的操作语言HQL和SQL大同小异数据库操作 -- 创建 CREATE DATABASE mydb; -- 使用 USE mydb; -- 删除 DROP DATABASE mydb; -- 强制删除 DROP DATABASE mydb CASCADE; 创建表 - 阅读全文

posted @ 2022-07-12 17:26 S++ 阅读(42) 评论(0) 推荐(0) 编辑

Hive —— 入门

摘要：Hive —— 入门 Hive介绍 Apache Hive是一款建立在Hadoop之上的开源**数据仓库系统，可以将存储在Hadoop文件中的结构化、半结构化数据文件映射为一张数据库表**，基于表提供了一种类似SQL的查询模型，称为**Hive查询语言（ HQL），用于访问和分析存储在Hadoop文阅读全文

posted @ 2022-07-11 16:27 S++ 阅读(73) 评论(0) 推荐(0) 编辑

hadoop入门(15)：YARN

摘要：YARN YARN官方文档 YARN的介绍 YARN是一个==通用==的**资源管理系统和调度平台** 资源管理系统：集群的硬件资源，和程序运行相关，比如内存、CPU等调度平台：多个程序同时申请计算，资源如何分配，调度的规则/算法。 YARN的架构上图中我们可以清晰的看到YRAN的三大组件：集阅读全文

posted @ 2022-07-09 15:54 S++ 阅读(70) 评论(0) 推荐(0) 编辑

hadoop入门(14)：MapReduce

摘要：Map阶段执行过程第一阶段：把输入目录下的文件按照一定标准逐个进行逻辑切片，形成切片规划。默认切片大小和块的大小相同128M，每一个切片由一个MapTask处理。第二阶段：对切片数据按照一定规则读取解析返回<key,value>对。默认按行读取数据。key是每一行起始位置的偏移量，val 阅读全文

posted @ 2022-04-18 19:50 S++ 阅读(32) 评论(0) 推荐(0) 编辑

hadoop入门(13)：NameNode、SecondaryNameNode剖析

摘要：NameNode、SecondaryNameNode解析 NameNode主要负责集群当中元数据信息管理，而且元数据需要经常随机访问，因为元数据信息必须高效的检索。为了保证元数据信息的快速检索，元数据信息必须放在内存中，因为内存中的元数据能够最快速的检索，随着元数据信息的增多（每个block块大约阅读全文

posted @ 2022-03-14 16:26 S++ 阅读(172) 评论(0) 推荐(0) 编辑

hadoop入门(12)：hdfs的读写流程

摘要：hdfs的写入流程文件具体上传流程如下：创建文件： HDFS client向HDFS写数据先调用DistributedFileSystem.create() RPC调用namenode的create()方法，会在HDFS目录树中指定路径，添加新文件；并将操作记录在edits.log中。namen 阅读全文

posted @ 2022-03-08 18:16 S++ 阅读(170) 评论(0) 推荐(0) 编辑

hadoop入门(11)：hdfs的java编程-小文件合并

摘要：上一篇章涉及到了I/O方式上传下载文件这一篇我们来实现一下小文件合并代码 /** * 小文件合并：读取本地小文件合并到hdfs的大文件中 */ @Test public void mergeFile() throws URISyntaxException, IOException, Interr 阅读全文

posted @ 2022-02-26 10:53 S++ 阅读(486) 评论(0) 推荐(0) 编辑

hadoop入门(10)：hdfs的java编程-文件的上传与下载

摘要：上传文件方式一：常规流程 @Test public void uploadFile2Hdfs() throws IOException { // configuration Configuration configuration = new Configuration(); // 设置nameno 阅读全文

posted @ 2022-02-26 10:53 S++ 阅读(404) 评论(0) 推荐(0) 编辑

hadoop入门(7)：开发环境配置

摘要：前言安装路径中不要包含中文、空格修改host文件 windows C:\windows\System32\drivers\etc\hosts Mac os /etc/hosts 添加以下内容 # 三台虚拟机的ip以及映射 192.168.77.110 node001.sjj.com node00 阅读全文

posted @ 2022-02-26 10:52 S++ 阅读(79) 评论(0) 推荐(0) 编辑

hadoop入门(9)：hdfs的java编程-创建目录

摘要：前言 api文档为了方便，我先在test下新建文件编写创建文件编写文件 import org.apache.hadoop.conf.Configuration; import org.apache.hadoop.fs.FileSystem; import org.apache.hadoop. 阅读全文

posted @ 2022-02-26 10:52 S++ 阅读(697) 评论(0) 推荐(0) 编辑

hadoop入门(8)：hdfs的java编程-配置

摘要：准备环境：hadoop、jdk、maven 软件：IDEA 创建maven工程新建项目选择maven项目，下一步取名：HadoopProject 设置IDEA中的maven 点击Preferences 选择Build、Execution、Deployment->Build tools->ma 阅读全文

posted @ 2022-02-26 10:52 S++ 阅读(68) 评论(0) 推荐(0) 编辑

hadoop入门(4)：部署zookeeper

摘要：1. 获取zookeeper zookeeper3.6.3版本 2. 解压 tar -xvf apache-zookeeper-3.6.3-bin.tar -C /sjj/install/ 3. 修改配置文件新建文件夹 mkdir -p /sjj/install/apache-zookeeper- 阅读全文

posted @ 2022-02-26 10:51 S++ 阅读(81) 评论(0) 推荐(0) 编辑

hadoop入门(5)：了解hadoop

摘要：hadoop的起源阶段一 Hadoop最早起源于Nutch。Nutch的设计目标是构建一个大型的全网搜索引擎，包括网页抓取、索引、查询等功能，但随着抓取网页数量的增加，遇到了严重的可扩展性问题——如何解决数十亿网页的存储和索引问题。阶段二 2003年、2004年谷歌发表的两篇论文为该问题提供了可阅读全文

posted @ 2022-02-26 10:51 S++ 阅读(62) 评论(0) 推荐(0) 编辑

hadoop入门(6)：HDFS命令

摘要：常用命令 HDFS文件操作命令风格有两种两种命令效果一样 hdfs dfs 开头 hadoop fs 开头查看帮助信息 hdfs dfs -help [cmd] hadoop fs -help [cmd] # 两个命令等价查看指定目录文件列表 -ls [-C] [-d] [-h] [-q] [ 阅读全文

posted @ 2022-02-26 10:51 S++ 阅读(666) 评论(0) 推荐(0) 编辑

hadoop入门(2)：为三台CentOS安装Hadoop集群

摘要：操作前说明环境 | 机器名 | IP | 用户 | | | | | | node001 | 192.168.77.110 | hadoop | | node002 | 192.168.77.120 | hadoop | | node003 | 192.168.77.130 | hadoop | 要阅读全文

posted @ 2022-02-26 10:50 S++ 阅读(133) 评论(0) 推荐(0) 编辑

hadoop入门(3)：hadoop集群的便利脚本

摘要：通过rsync分发脚本 rsync是很好用的增量拷贝命令安装rsync sudo yum -y install rsync 我们创建 /home/用户/bin 目录来存放脚本文件以后我们可以用rsync来分发脚本创建一键启动停止hadoop脚本在 /home/用户/bin 下 vim had 阅读全文

posted @ 2022-02-26 10:50 S++ 阅读(45) 评论(0) 推荐(0) 编辑

hadoop入门(1)：为三台CentOS7配置Java

摘要：##操作前说明 ####机器准备版本：CentOS 7 三台机器ip：192.168.77.110； 192.168.77.110 ； 192.168.77.110；三台机器名：node001； node002； node003；要求：三台机器能相互ping通，三台机器能正常使用ssh ### 阅读全文

posted @ 2022-02-26 10:49 S++ 阅读(75) 评论(0) 推荐(0) 编辑

hadoop入门(0)：Mac OS准备工作

摘要：准备操作系统： macOS 镜像文件： CentOS7 虚拟机软件：VMware Fusion 网络配置创建自己的网络打开VMware Fusion偏好设置->网络->自定解锁添加网络vmnet2 勾选使用NAT、将Mac主机连接到该网络；去勾选DHCP 应用，加锁修改配置打开终端进入阅读全文

posted @ 2022-02-26 10:47 S++ 阅读(51) 评论(0) 推荐(0) 编辑

S++

导航

统计

公告

搜索

常用链接

我的标签

随笔分类

随笔档案

阅读排行榜

随笔分类 - Hadoop