05 2023 档案
摘要:在MySQL中没有表类型这个概念,因为它就只有一种表。但是Hive中是有多种表类型的,我们可以分为四种,内部表、外部表、分区表、桶表 下面来一个一个学习一下这些类型的表 ### 内部表 内部表也可以称为受控表,它是Hive中的默认表类型,表数据默认存储在 warehouse 目录中。 在加载数据的过
阅读全文
摘要:### Hive中数据库的操作 ```sql show databases; # 查看数据库列表 use default; # 选择数据库 create database mydb1; # 创建数据库 create database mydb2 location '/user/hive/mydb2'
阅读全文
摘要:### Hive的使用方式 可以在Shell命令行下操作Hive,或者使用JDBC代码的方式操作 ### 命令行方式 针对命令行这种方式,其实还有两种使用 - 第一个是使用bin目录下的hive命令,这个是从hive一开始就支持的使用方式 - 后来又出现一个beeline命令,它是通过HiveSer
阅读全文
摘要:### 原生命令 正常情况我们是通过以下命令来停止和开启集群的 ```sh sbin/stop-all.sh sbin/start-all.sh ``` 但有时候不生效,通过ps还能查看到,但jps命令查看不到 ### 自定义停止命令 ```sh #!/bin/bash # 停止hadoop进程 h
阅读全文
摘要:### 什么是Hive Hive是建立在Hadoop上的数据仓库基础架构。它提供了一系列的工具,可以用来进行数据提取转化加载,可以简称为ETL。 Hive 定义了简单的类SQL查询语言,称为HQL,它允许熟悉SQL的用户直接查询Hadoop中的数据,同时,这个语言也允许熟悉MapReduce的开发者
阅读全文
摘要:### YARN的由来 从Hadoop2开始,官方把资源管理单独剥离出来,主要是为了考虑后期作为一个公共的资源管理平台,任何满足规则的计算引擎都可以在它上面执行。所以YARN可以实现HADOOP集群的资源共享,不仅仅可以跑MapReduce,还可以跑Spark、Flink。 ### YARN架构分析
阅读全文
摘要:现在我们已经掌握了MapReduce程序的开发步骤,注意了,针对MapReduce的案例我们并不需要学习太多,主要是因为在实际工作中真正需要我们去写MapReduce代码的场景已经是凤毛麟角了,因为后面我们会学习一个大数据框架Hive,Hive支持SQL,这个Hive底层会把SQL转化为MapRed
阅读全文
摘要:### 前言 前面我们学习了Hadoop中的HDFS,HDFS主要是负责存储海量数据的,如果只是把数据存储起来,除了浪费磁盘空间,是没有任何意义的,我们把数据存储起来之后是希望能从这些海量数据中分析出来一些有价值的内容,这个时候就需要有一个比较厉害的计算框架,来快速计算这一批海量数据,所以MapRe
阅读全文
摘要:### 介绍 smart-doc + Torna 组成行业领先的文档生成和管理解决方案,使用smart-doc无侵入完成Java源代码和注释提取生成API文档,自动将文档推送到Torna企业级接口文档管理平台。 ### 使用 #### 配置数据库 [mysql.sql](https://gitee.
阅读全文
摘要:### 注册Sonatype的账户 [注册地址](https://issues.sonatype.org/secure/Signup!default.jspa),Sonatype通过JIRA来管理OSSRH仓库。JIRA是一个项目管理服务,类似于国内的Teambition。 密码校验比较严格,最少1
阅读全文
摘要:grep grep 命令是一种强大的文本搜索工具,它能使用正则表达式搜索文本,并把匹配的行打印出来。grep全称是 Global Regular Expression Print,表示全局正则表达式版本,它的使用权限是所有用户。 grep [option] pattern file cat a.tx
阅读全文
摘要:### HDFS介绍 我们前面已经知道了HDFS是一个分布式的文件系统,具体这个分布式文件系统是如何实现的呢? ![image](https://img2023.cnblogs.com/blog/1681090/202304/1681090-20230416081010465-627983333.p
阅读全文
摘要:### 什么是Hadoop 我们生活在一个数据大爆炸的时代,数据飞快的增长,急需解决海量数据的存储和计算问题。 这个时候,Hadoop就应运而生了。 Hadoop是一个适合海量数据的分布式存储和分布式计算的框架。 分布式存储,可以简单理解为存储数据的时候,数据不只存在一台机器上面,它会存在多台机器上
阅读全文