S++

千线一眼

导航

< 2025年3月 >
23 24 25 26 27 28 1
2 3 4 5 6 7 8
9 10 11 12 13 14 15
16 17 18 19 20 21 22
23 24 25 26 27 28 29
30 31 1 2 3 4 5

统计

随笔分类 -  Hadoop

1

HBase —— Shell操作
摘要:HBase —— Shell操作 表的基本操作 创建表 create '表名', '列簇名', ... 查看表 list 删除表 ## 禁用表 disable "表名" ## 删除表 drop "表名" 添加数据 put '表名','ROWKEY','列簇名:列','值' 查看数据 get '表名' 阅读全文

posted @ 2022-07-21 08:18 S++ 阅读(104) 评论(0) 推荐(0) 编辑

HBase —— 入门
摘要:HBase —— 入门 HBase介绍 HBase是一个**分布式的、面向列的**开源数据库,该技术来源于 Fay Chang 所撰写的Google论文“Bigtable:一个结构化数据的分布式存储系统”。就像Bigtable利用了Google文件系统(File System)所提供的分布式数据存储 阅读全文

posted @ 2022-07-15 10:23 S++ 阅读(71) 评论(0) 推荐(0) 编辑

Hive —— HQL
摘要:Hive —— HQL Hive的操作语言HQL和SQL大同小异 数据库操作 -- 创建 CREATE DATABASE mydb; -- 使用 USE mydb; -- 删除 DROP DATABASE mydb; -- 强制删除 DROP DATABASE mydb CASCADE; 创建表 - 阅读全文

posted @ 2022-07-12 17:26 S++ 阅读(42) 评论(0) 推荐(0) 编辑

Hive —— 入门
摘要:Hive —— 入门 Hive介绍 Apache Hive是一款建立在Hadoop之上的开源**数据仓库系统,可以将存储在Hadoop文件中的结构化、半结构化数据文件映射为一张数据库表**,基于表提供了一种类似SQL的查询模型,称为**Hive查询语言( HQL),用于访问和分析存储在Hadoop文 阅读全文

posted @ 2022-07-11 16:27 S++ 阅读(73) 评论(0) 推荐(0) 编辑

hadoop入门(15):YARN
摘要:YARN YARN官方文档 YARN的介绍 YARN是一个==通用==的**资源管理系统和调度平台** 资源管理系统:集群的硬件资源,和程序运行相关,比如内存、CPU等 调度平台:多个程序同时申请计算,资源如何分配,调度的规则/算法。 YARN的架构 上图中我们可以清晰的看到YRAN的三大组件: 集 阅读全文

posted @ 2022-07-09 15:54 S++ 阅读(70) 评论(0) 推荐(0) 编辑

hadoop入门(14):MapReduce
摘要:Map阶段执行过程 第一阶段: 把输入目录下的文件按照一定标准逐个进行逻辑切片,形成切片规划。 默认切片大小和块的大小相同128M,每一个切片由一个MapTask处理。 第二阶段: 对切片数据按照一定规则读取解析返回<key,value>对。 默认按行读取数据。key是每一行起始位置的偏移量,val 阅读全文

posted @ 2022-04-18 19:50 S++ 阅读(32) 评论(0) 推荐(0) 编辑

hadoop入门(13):NameNode、SecondaryNameNode剖析
摘要:NameNode、SecondaryNameNode解析 NameNode主要负责集群当中元数据信息管理,而且元数据需要经常随机访问,因为元数据信息必须高效的检索。 为了保证元数据信息的快速检索,元数据信息必须放在内存中,因为内存中的元数据能够最快速的检索,随着元数据信息的增多(每个block块大约 阅读全文

posted @ 2022-03-14 16:26 S++ 阅读(172) 评论(0) 推荐(0) 编辑

hadoop入门(12):hdfs的读写流程
摘要:hdfs的写入流程 文件具体上传流程如下: 创建文件: HDFS client向HDFS写数据先调用DistributedFileSystem.create() RPC调用namenode的create()方法,会在HDFS目录树中指定路径,添加新文件;并将操作记录在edits.log中。namen 阅读全文

posted @ 2022-03-08 18:16 S++ 阅读(170) 评论(0) 推荐(0) 编辑

hadoop入门(11):hdfs的java编程-小文件合并
摘要:上一篇章涉及到了I/O方式上传下载文件 这一篇我们来实现一下小文件合并 代码 /** * 小文件合并:读取本地小文件合并到hdfs的大文件中 */ @Test public void mergeFile() throws URISyntaxException, IOException, Interr 阅读全文

posted @ 2022-02-26 10:53 S++ 阅读(486) 评论(0) 推荐(0) 编辑

hadoop入门(10):hdfs的java编程-文件的上传与下载
摘要:上传文件 方式一:常规流程 @Test public void uploadFile2Hdfs() throws IOException { // configuration Configuration configuration = new Configuration(); // 设置nameno 阅读全文

posted @ 2022-02-26 10:53 S++ 阅读(404) 评论(0) 推荐(0) 编辑

hadoop入门(7):开发环境配置
摘要:前言 安装路径中不要包含中文、空格 修改host文件 windows C:\windows\System32\drivers\etc\hosts Mac os /etc/hosts 添加以下内容 # 三台虚拟机的ip以及映射 192.168.77.110 node001.sjj.com node00 阅读全文

posted @ 2022-02-26 10:52 S++ 阅读(79) 评论(0) 推荐(0) 编辑

hadoop入门(9):hdfs的java编程-创建目录
摘要:前言 api文档 为了方便,我先在test下新建 文件编写 创建文件 编写文件 import org.apache.hadoop.conf.Configuration; import org.apache.hadoop.fs.FileSystem; import org.apache.hadoop. 阅读全文

posted @ 2022-02-26 10:52 S++ 阅读(697) 评论(0) 推荐(0) 编辑

hadoop入门(8):hdfs的java编程-配置
摘要:准备 环境:hadoop、jdk、maven 软件:IDEA 创建maven工程 新建项目 选择maven项目,下一步 取名:HadoopProject 设置IDEA中的maven 点击Preferences 选择Build、Execution、Deployment->Build tools->ma 阅读全文

posted @ 2022-02-26 10:52 S++ 阅读(68) 评论(0) 推荐(0) 编辑

hadoop入门(4):部署zookeeper
摘要:1. 获取zookeeper zookeeper3.6.3版本 2. 解压 tar -xvf apache-zookeeper-3.6.3-bin.tar -C /sjj/install/ 3. 修改配置文件 新建文件夹 mkdir -p /sjj/install/apache-zookeeper- 阅读全文

posted @ 2022-02-26 10:51 S++ 阅读(81) 评论(0) 推荐(0) 编辑

hadoop入门(5):了解hadoop
摘要:hadoop的起源 阶段一 Hadoop最早起源于Nutch。Nutch的设计目标是构建一个大型的全网搜索引擎,包括网页抓取、索引、查询等功能,但随着抓取网页数量的增加,遇到了严重的可扩展性问题——如何解决数十亿网页的存储和索引问题。 阶段二 2003年、2004年谷歌发表的两篇论文为该问题提供了可 阅读全文

posted @ 2022-02-26 10:51 S++ 阅读(62) 评论(0) 推荐(0) 编辑

hadoop入门(6):HDFS命令
摘要:常用命令 HDFS文件操作命令风格有两种 两种命令效果一样 hdfs dfs 开头 hadoop fs 开头 查看帮助信息 hdfs dfs -help [cmd] hadoop fs -help [cmd] # 两个命令等价 查看指定目录文件列表 -ls [-C] [-d] [-h] [-q] [ 阅读全文

posted @ 2022-02-26 10:51 S++ 阅读(666) 评论(0) 推荐(0) 编辑

hadoop入门(2):为三台CentOS安装Hadoop集群
摘要:操作前说明 环境 | 机器名 | IP | 用户 | | | | | | node001 | 192.168.77.110 | hadoop | | node002 | 192.168.77.120 | hadoop | | node003 | 192.168.77.130 | hadoop | 要 阅读全文

posted @ 2022-02-26 10:50 S++ 阅读(133) 评论(0) 推荐(0) 编辑

hadoop入门(3):hadoop集群的便利脚本
摘要:通过rsync分发脚本 rsync是很好用的增量拷贝命令 安装rsync sudo yum -y install rsync 我们创建 /home/用户/bin 目录来存放脚本文件 以后我们可以用rsync来分发脚本 创建一键启动停止hadoop脚本 在 /home/用户/bin 下 vim had 阅读全文

posted @ 2022-02-26 10:50 S++ 阅读(45) 评论(0) 推荐(0) 编辑

hadoop入门(1):为三台CentOS7配置Java
摘要:##操作前说明 ####机器准备 版本:CentOS 7 三台机器ip:192.168.77.110; 192.168.77.110 ; 192.168.77.110; 三台机器名:node001; node002; node003; 要求:三台机器能相互ping通,三台机器能正常使用ssh ### 阅读全文

posted @ 2022-02-26 10:49 S++ 阅读(75) 评论(0) 推荐(0) 编辑

hadoop入门(0):Mac OS准备工作
摘要:准备 操作系统: macOS 镜像文件: CentOS7 虚拟机软件:VMware Fusion 网络配置 创建自己的网络 打开VMware Fusion偏好设置->网络->自定 解锁 添加网络vmnet2 勾选使用NAT、将Mac主机连接到该网络;去勾选DHCP 应用,加锁 修改配置 打开终端进入 阅读全文

posted @ 2022-02-26 10:47 S++ 阅读(51) 评论(0) 推荐(0) 编辑

1
点击右上角即可分享
微信分享提示