文章分类 -  Hadoop

摘要:一、Explain 1.1.功能 HiveQL是一种类SQL的语言,从编程语言规范来说是一种声明式语言,用户会根据查询需求提交声明式的HQL查询,而Hive会根据底层计算引擎将其转化成Mapreduce/Tez/Spark的 job。大多数情况下,用户不需要了解Hive内部是如何工作的,不过,当用户 阅读全文
posted @ 2024-09-29 17:57 酒剑仙* 阅读(17) 评论(0) 推荐(0) 编辑
摘要:一、Hive文件格式 Hive数据存储的本质还是HDFS,所有的数据读写都基于HDFS的文件来实现,为了提高对HDFS文件读写的性能,Hive中提供了多种文件存储格式:TextFile、SequenceFile、RCFile、ORC、Parquet等。不同的文件存储格式具有不同的存储特点,有的可以降 阅读全文
posted @ 2024-09-29 17:55 酒剑仙* 阅读(38) 评论(0) 推荐(0) 编辑
摘要:一、Hive架构设计 1.1.Hive架构设计 由上图可知,Hive全局架构图中可以看到Hive架构包括如下组件:CLI(command line interface)、JDBC/ODBC、MetaStore和Driver(Compiler、Optimizer)。 CLI:command line 阅读全文
posted @ 2024-09-29 17:51 酒剑仙* 阅读(88) 评论(0) 推荐(0) 编辑
摘要:一、zookeeper概述 ZooKeeper概念: Zookeeper是一个分布式协调服务的开源框架。本质上是一个分布式的小文件存储系统ZooKeeper作用: 主要用来解决分布式集群中应用系统的一致性问题。ZooKeeper结构: 采用树形层次结构,ZooKeeper树中的每个节点被称为—Zno 阅读全文
posted @ 2024-09-24 18:04 酒剑仙* 阅读(140) 评论(0) 推荐(0) 编辑
摘要:一、需求分析 1.1. 背景介绍 在线社交平台每天都会有大量的用户在线,会出现大量的聊天数据,通过对聊天数据的统计分析,可以更好的对用户构建精准的用户画像,为用户提供更好的服务以及实现高 ROI 的平台运营推广,给公司的发展决策提供精确的数据支撑。后续将基于一个社交平台 App 的用户数据,完成相关 阅读全文
posted @ 2019-10-29 12:30 酒剑仙* 阅读(1305) 评论(0) 推荐(0) 编辑
摘要:一、Hive函数 1.1.函数分类 Hive的函数分为两大类:内置函数、用户定义函数UDF Hive 的函数共计有上百种,下面会挑选一些常用的进行讲解。 详细的函数使用可以参阅官方文档 (https://cwiki.apache.org/confluence/display/Hive/Languag 阅读全文
posted @ 2019-10-29 12:09 酒剑仙* 阅读(967) 评论(0) 推荐(0) 编辑
摘要:一、基本查询 1.1.基本语法 查询语句的基本语法: SELECT [ALL | DISTINCT]select_expr, select_expr, ... FROM table_reference [WHERE where_condition] [GROUP BYcol_list] [HAVIN 阅读全文
posted @ 2019-10-29 11:48 酒剑仙* 阅读(4864) 评论(0) 推荐(0) 编辑
摘要:一、数据库操作 1.1.数据库操作语法 基于语法描述说明 CREATE DATABASE [IF NOT EXISTS] db_name [LOCATION] 'path'; SELECT expr, ... FROM tbl ORDER BY col_name [ASC | DESC] (A | 阅读全文
posted @ 2019-10-29 11:40 酒剑仙* 阅读(1334) 评论(0) 推荐(0) 编辑
摘要:一、数据仓库概述 1.1.什么是数据仓库(数仓) 数据仓库,英文名称为Data Warehouse,可简写为DW或DWH。数据仓库的目的是构建面向分析的集成化数据环境,为企业提供决策支持(Decision Support)。它出于分析性报告和决策支持目的而创建。 MySQL数据库 => 面向事务的集 阅读全文
posted @ 2019-10-29 11:16 酒剑仙* 阅读(1383) 评论(0) 推荐(0) 编辑
摘要:一、分布式计算概述 1.1.什么是计算 计算是对数据进行处理,使用统计分析等手段得到需要的结果,大数据体系内的计算, 举例: 销售额统计、区域销售占比、季度销售占比 利润率走势、客单价走势、成本走势 品类分析、消费者分析、店铺分析 等等一系列,基于数据得出的结论。 这些就是我们所说的计算。 1.2. 阅读全文
posted @ 2019-10-29 09:43 酒剑仙* 阅读(606) 评论(0) 推荐(0) 编辑
摘要:一、为什么需要分布式存储 之所以需要分布式存储? 数据量太大,单机存储能力有上限,需要靠数量来解决问题 说明:分布式不仅仅是解决了能存的问题, 多台服务器协同工作带来的也是性能的横向扩展。三倍的网络传输效率,三倍的磁盘写入效率 数量的提升带来的是网络传输、磁盘读写、 CPU 、内存等各方面的 综合提 阅读全文
posted @ 2019-10-28 11:58 酒剑仙* 阅读(447) 评论(0) 推荐(0) 编辑
摘要:一、数据导论 1.1.数据是什么? 数据:一种可以被鉴别的对客观事件进行记录的符号。简单来说就是:对人类的行为及产生的事件的一种记录。生活中无时无刻不在产生数据: 1.2.数据对于现实生活有什么影响? 对于京东而言,数据可以更好的了解客户 1.3.数据有什么价值? 对数据的内容进行深入分析,可以更好 阅读全文
posted @ 2019-10-28 11:50 酒剑仙* 阅读(555) 评论(0) 推荐(0) 编辑
摘要:一、环境介绍 基于 VMware 构建 Linux 虚拟机 是大数据从业者或 IT 从业者的必备技能之一 也是成本低廉的方案 所以, VMware 虚拟机方案是必须要学习的。 二、Linux 虚拟机设置 2.1.基于 VMware 创建 Linux 虚拟机 2.1.1.设置 VMware 网段 在 阅读全文
posted @ 2019-10-28 10:45 酒剑仙* 阅读(1240) 评论(0) 推荐(0) 编辑

点击右上角即可分享
微信分享提示