摘要:
Spark Core 1. 概述 Spark 是一种基于内存的快速、通用、可扩展的大数据分析计算引擎 1.1 Hadoop vs Spark 上面流程对应Hadoop的处理流程,下面对应着Spark的处理流程 Hadoop Hadoop 是由 java 语言编写的,在分布式服务器集群上存储海量数据并 阅读全文
摘要:
Hive 1. 数据仓库概述 1.1 基本概念 数据仓库(英语:Data Warehouse,简称数仓、DW),是一个用于存储、分析、报告的数据系统。 数据仓库的目的是构建面向分析的集成化数据环境,分析结果为企业提供决策支持(Decision Support) 数仓专注分析 数据仓库本身并不“生产” 阅读全文
摘要:
Flume 1. 概述 Flume是一个高可用,高可靠,分布式的海量日志采集、聚合和传输的系统。Flume基于流式架构,灵活简单。 Flume的作用 Flume最主要的作用就是,实时读取服务器本地磁盘的数据,将数据写入到HDFS Flume的特性 有一个简单、灵活的基于流的数据流结构 具有负载均衡机 阅读全文
摘要:
Hadoop Hadoop适合海量数据分布式存储和分布式计算 运行用户使用简单的编程模型实现跨机器集群对海量数据进行分布式计算处理 1. 概述 1.1 简介 Hadoop核心组件 HDFS (分布式文件存储系统):解决海量数据存储 YARN(集群资源管理和任务调度框架):解决资源任务调度 MapRe 阅读全文
摘要:
SQL 1. 概述 Structured Query Language 结构化查询语言 结构化查询语言(Structured Query Language)简称SQL,是一种数据库查询和程序设计语言,用于存取数据以及查询、更新和管理数据。 SQL语言使我们有能力访问数据库,并且SQL是一种ANSI( 阅读全文
摘要:
JVM 1. 引言 1.1 什么是JVM? 定义 Java Vritual Machine - java 程序的运行环境(Java二进制字节码的运行环境) 好处 一次编译 ,到处运行 自动内存管理,垃圾回收功能 数据下标越界越界检查 多态 比较 Jvm vs Jre vs JDK 1.2 学习路线 阅读全文
摘要:
# 数据仓库概览 ## 1.基本概念 ### 1.数据仓库架构 数据仓库环境包括**操作型系统**和**数据仓库系统**两个部分。操作型系统的数据由各种形式的业务数据组成,这些数据经过**抽取**、**转换**和**装载(ETL)**过程进入数据仓库系统。 ![img](https://img202 阅读全文
摘要:
值传递 or 引用传递? 结论:Java采用的是值传递 先建立一些基础的概念 什么是值传递和引用传递? 值传递(pass by value):是指在调用函数时将实际参数复制一份传递到函数中,这样在函数中如果对参数进行修改,将不会影响到实际参数 引用传递(pass by reference):是指在调 阅读全文
摘要:
多线程 创建方式 Thread类 定义一个子类MyThread继承线程类Java.lang.Thread,重写run()方法 创建MyThread对象 调用线程对象的start()方法启动线程(启动后还是执行run方法) 优缺点 优点:编码简单 缺点:线程类已经继承Thread,无法继承其他类,不利 阅读全文
摘要:
JAVA IO详解 File 概述 File类可以定位文件,进行删除、获取文本本身信息等操作。但是不能读写文件。 File类在包java.io.File下、代表操作系统的文件对象(文件、文件夹) File类提供了诸如:定位文件,获取文件本身的信息、删除文件、创建文件(文件夹)等功能 创建File对象 阅读全文