Hadoop - 文章分类 - 酒剑仙*

计算Job执行优化

摘要：一、Explain 1.1.功能 HiveQL是一种类SQL的语言，从编程语言规范来说是一种声明式语言，用户会根据查询需求提交声明式的HQL查询，而Hive会根据底层计算引擎将其转化成Mapreduce/Tez/Spark的 job。大多数情况下，用户不需要了解Hive内部是如何工作的，不过，当用户阅读全文

posted @ 2024-09-29 17:57 酒剑仙* 阅读(53) 评论(0) 推荐(0)

Hive表数据优化

摘要：一、Hive文件格式 Hive数据存储的本质还是HDFS，所有的数据读写都基于HDFS的文件来实现，为了提高对HDFS文件读写的性能，Hive中提供了多种文件存储格式：TextFile、SequenceFile、RCFile、ORC、Parquet等。不同的文件存储格式具有不同的存储特点，有的可以降阅读全文

posted @ 2024-09-29 17:55 酒剑仙* 阅读(135) 评论(0) 推荐(0)

Hive架构设计和Hive Driver执行流程

摘要：一、Hive架构设计 1.1.Hive架构设计由上图可知，Hive全局架构图中可以看到Hive架构包括如下组件：CLI（command line interface）、JDBC/ODBC、MetaStore和Driver（Compiler、Optimizer）。 CLI：command line 阅读全文

posted @ 2024-09-29 17:51 酒剑仙* 阅读(356) 评论(0) 推荐(0)

Zookeeper实现Hadoop高可用集群

摘要：一、zookeeper概述 ZooKeeper概念: Zookeeper是一个分布式协调服务的开源框架。本质上是一个分布式的小文件存储系统ZooKeeper作用: 主要用来解决分布式集群中应用系统的一致性问题。ZooKeeper结构: 采用树形层次结构，ZooKeeper树中的每个节点被称为—Zno 阅读全文

posted @ 2024-09-24 18:04 酒剑仙* 阅读(545) 评论(0) 推荐(0)

Hive项目实战

摘要：一、需求分析 1.1. 背景介绍在线社交平台每天都会有大量的用户在线，会出现大量的聊天数据，通过对聊天数据的统计分析，可以更好的对用户构建精准的用户画像，为用户提供更好的服务以及实现高 ROI 的平台运营推广，给公司的发展决策提供精确的数据支撑。后续将基于一个社交平台 App 的用户数据，完成相关阅读全文

posted @ 2019-10-29 12:30 酒剑仙* 阅读(1320) 评论(0) 推荐(0)

Hive函数

摘要：一、Hive函数 1.1.函数分类 Hive的函数分为两大类：内置函数、用户定义函数UDF Hive 的函数共计有上百种，下面会挑选一些常用的进行讲解。详细的函数使用可以参阅官方文档 (https://cwiki.apache.org/confluence/display/Hive/Languag 阅读全文

posted @ 2019-10-29 12:09 酒剑仙* 阅读(1112) 评论(0) 推荐(0)

Hive 数据查询

摘要：一、基本查询 1.1.基本语法查询语句的基本语法： SELECT [ALL | DISTINCT]select_expr, select_expr, ... FROM table_reference [WHERE where_condition] [GROUP BYcol_list] [HAVIN 阅读全文

posted @ 2019-10-29 11:48 酒剑仙* 阅读(4936) 评论(0) 推荐(0)

Apache Hive 使用语法与概念原理

摘要：一、数据库操作 1.1.数据库操作语法基于语法描述说明 CREATE DATABASE [IF NOT EXISTS] db_name [LOCATION] 'path'; SELECT expr, ... FROM tbl ORDER BY col_name [ASC | DESC] (A | 阅读全文

posted @ 2019-10-29 11:40 酒剑仙* 阅读(1386) 评论(0) 推荐(0)

Apache Hive 分布式SQL计算平台

摘要：一、数据仓库概述 1.1.什么是数据仓库（数仓）数据仓库，英文名称为Data Warehouse，可简写为DW或DWH。数据仓库的目的是构建面向分析的集成化数据环境，为企业提供决策支持（Decision Support）。它出于分析性报告和决策支持目的而创建。 MySQL数据库 => 面向事务的集阅读全文

posted @ 2019-10-29 11:16 酒剑仙* 阅读(1446) 评论(0) 推荐(0)

MapReduce和YARN入门

摘要：一、分布式计算概述 1.1.什么是计算计算是对数据进行处理，使用统计分析等手段得到需要的结果，大数据体系内的计算，举例：销售额统计、区域销售占比、季度销售占比利润率走势、客单价走势、成本走势品类分析、消费者分析、店铺分析等等一系列，基于数据得出的结论。这些就是我们所说的计算。 1.2. 阅读全文

posted @ 2019-10-29 09:43 酒剑仙* 阅读(656) 评论(0) 推荐(0)

Hadoop HDFS分布式文件系统

摘要：一、为什么需要分布式存储之所以需要分布式存储？数据量太大，单机存储能力有上限，需要靠数量来解决问题说明：分布式不仅仅是解决了能存的问题，多台服务器协同工作带来的也是性能的横向扩展。三倍的网络传输效率，三倍的磁盘写入效率数量的提升带来的是网络传输、磁盘读写、 CPU 、内存等各方面的综合提阅读全文

posted @ 2019-10-28 11:58 酒剑仙* 阅读(525) 评论(0) 推荐(0)

大数据分布式

摘要：一、数据导论 1.1.数据是什么？数据：一种可以被鉴别的对客观事件进行记录的符号。简单来说就是：对人类的行为及产生的事件的一种记录。生活中无时无刻不在产生数据： 1.2.数据对于现实生活有什么影响？对于京东而言，数据可以更好的了解客户 1.3.数据有什么价值？对数据的内容进行深入分析，可以更好阅读全文

posted @ 2019-10-28 11:50 酒剑仙* 阅读(569) 评论(0) 推荐(0)

环境准备

摘要：一、环境介绍基于 VMware 构建 Linux 虚拟机是大数据从业者或 IT 从业者的必备技能之一也是成本低廉的方案所以， VMware 虚拟机方案是必须要学习的。二、Linux 虚拟机设置 2.1.基于 VMware 创建 Linux 虚拟机 2.1.1.设置 VMware 网段在阅读全文

posted @ 2019-10-28 10:45 酒剑仙* 阅读(1250) 评论(0) 推荐(0)

Augus

文章分类 - Hadoop

公告