摘要:
一、SQL的多表查询: 1、左连接和右连接(不重要一方加(+)) SELECT e.empno,e.ename,d.deptno,d.dname,d.loc FROM emp e,dept d WHERE e.deptno(+)=d.deptno ; (+)在等号左边是右连接,反之左连接。 2、交叉 阅读全文
摘要:
CMD是大家熟知的Windows命令提示符(cmd.exe),它是 Windows NT 下的一个用于运行 Windows 控制面板程序或某些 DOS 程序的shell程序。 CMD命令快捷键是:windows键+R 最常用的可以清除启动项:msconfig 然后找启动项,把对号点没。 1.开发命令 阅读全文
摘要:
一、开发环境准备 1.JDK配置 JDK是什么?怎么使用? JDK是什么:JDK全称Java Development ToolKit,是Java语言开发工具包。JDK是整个JAVA的核心,包括了Java运行环境(Java Runtime Envirnment),一堆Java工具(javac/java 阅读全文
摘要:
1.SQL简介 对于不同的数据库来说,SQL语句是相通的,关系型数据库都以SQL语句为操作的标准,只是相应的数据库对应的函数不相同。 SQL(Structured Query Language,结构化查询语言)是功能强大的数据库语言,用于·数据库通讯。 1.2SQL的功能 SQL 的功能可分为以下三 阅读全文
摘要:
1. hbase简介 1.1. 什么是hbase HBASE是一个高可靠性、高性能、面向列、可伸缩的分布式存储系统,利用HBASE技术可在廉价PC Server上搭建起大规模结构化存储集群。 HBASE的目标是存储并处理大型的数据,更具体来说是仅需使用普通的硬件配置,就能够处理由成千上万的行和列所组 阅读全文
摘要:
在一个完整的大数据处理系统中,除了hdfs+mapreduce+hive组成分析系统的核心之外,还需要数据采集、结果数据导出、任务调度等不可或缺的辅助系统,而这些辅助工具在hadoop生态体系中都有便捷的开源框架。 1 日志采集框架Flume Flume是一个分布式、可靠、和高可用的海量日志采集、聚 阅读全文
摘要:
Hive Hive是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张数据库表,并提供类SQL查询功能。 1.1为什么使用Hive 为什么要使用Hive 操作接口采用类SQL语法,提供快速开发的能力。 避免了去写MapReduce,减少开发人员的学习成本。扩展功能很方便。 1.2 阅读全文
摘要:
1.Mapreduce是什么? Mapreduce是一个分布式运算程序的编程框架,是用户开发“基于hadoop的数据分析应用”的核心框架; Mapreduce核心功能是将用户编写的业务逻辑代码和自带默认组件整合成一个完整的分布式运算程序,并发运行在一个hadoop集群上; 2.作用 (1)海量数据在 阅读全文
摘要:
HDFS 1 HDFS是什么? 首先,它是一个文件系统,用于存储文件,通过统一的命名空间——目录树来定位文件 其次,它是分布式的,由很多服务器联合起来实现其功能,集群中的服务器有各自的角色; HDFS是分布式文件系统(多个datanode更亲切点吧) 2 设计思想以及特性 设计思想:分而治之:将大文 阅读全文
摘要:
HADOOP背景介绍 1.1 Hadoop产生背景 HADOOP最早起源于Nutch。Nutch的设计目标是构建一个大型的全网搜索引擎,包括网页抓取、索引、查询等功能,但随着抓取网页数量的增加,遇到了严重的可扩展性问题——如何解决数十亿网页的存储和索引问题。 2003年、2004年谷歌发表的两篇论文 阅读全文