大数据老司机

2022年5月8日

摘要：一、安装JDK8 【温馨提示】这里使用jdk8，这里不要用其他jdk了，可能会出现一些其他问题的，我用jdk11有些包就找不到，好像jdk9都不行 1）JDK下载地址 http://www.oracle.com/technetwork/java/javase/downloads/index.html 阅读全文

posted @ 2022-05-08 00:02 大数据老司机阅读(2087) 评论(1) 推荐(0)

2022年5月5日

大数据Hadoop之——Flink Table API 和 SQL（单机Kafka）

摘要：一、Table API 和 Flink SQL 是什么 Table API 和 SQL 集成在同一套 API 中。这套 API 的核心概念是Table，用作查询的输入和输出，这套 API 都是批处理和流处理统一的上层 API，这意味着在无边界的实时数据流和有边界的历史记录数据流上，关系型 API 阅读全文

posted @ 2022-05-05 22:55 大数据老司机阅读(1524) 评论(0) 推荐(0)

2022年5月4日

大数据Hadoop之——实时计算流计算引擎Flink（Flink环境部署）

摘要：一、概述 Flink核心是一个流式的数据流执行引擎，并且能够基于同一个Flink运行时，提供支持流处理和批处理两种类型应用。其针对数据流的分布式计算提供了数据分布，数据通信及容错机制等功能。基于流执行引擎，Flink提供了跟多高抽象层的API便于用户编写分布式任务，下面稍微介绍一下Flink的几种A 阅读全文

posted @ 2022-05-04 22:18 大数据老司机阅读(3736) 评论(0) 推荐(0)

Java-Maven详解

摘要：一、什么是Maven？ Apache Maven是一个软件项目管理的综合工具。基于项目对象模型（POM）的概念，提供了帮助管理构建、文档、报告、依赖、发布等方法，Maven简化和标准化项目建设过程。处理编译，分配，文档，团队协作和其他任务的无缝连接。 Maven增加可重用性并负责建立相关的任务。 1 阅读全文

posted @ 2022-05-04 15:20 大数据老司机阅读(2194) 评论(0) 推荐(0)

2022年5月2日

大数据Hadoop之——Spark Streaming原理

摘要：一、概述 Spark Streaming是对核心Spark API的一个扩展，它能够实现对实时数据流的流式处理，并具有很好的可扩展性、高吞吐量和容错性。Spark Streaming支持从多种数据源提取数据，如：Kafka、Flume、Twitter、ZeroMQ、Kinesis以及TCP套接字，并阅读全文

posted @ 2022-05-02 11:09 大数据老司机阅读(892) 评论(0) 推荐(0)

2022年4月30日

大数据Hadoop之——Spark on Hive 和 Hive on Spark的区别与实现

摘要：一、Spark on Hive 和 Hive on Spark的区别 1）Spark on Hive Spark on Hive 是Hive只作为存储角色，Spark负责sql解析优化，执行。这里可以理解为Spark 通过Spark SQL 使用Hive 语句操作Hive表 ,底层运行的还是 Spa 阅读全文

posted @ 2022-04-30 08:34 大数据老司机阅读(7521) 评论(1) 推荐(0)

2022年4月23日

大数据Hadoop之——Spark SQL+Spark Streaming

摘要：一、Spark SQL概述 Spark SQL是Spark用来处理结构化数据的一个模块，它提供了两个编程抽象叫做DataFrame和DataSet并且作为分布式SQL查询引擎的作用，其实也是对RDD的再封装。大数据Hadoop之——计算引擎Spark，官方文档：https://spark.apach 阅读全文

posted @ 2022-04-23 17:38 大数据老司机阅读(2389) 评论(0) 推荐(1)

2022年4月16日

大数据Hadoop之——Spark集群部署（Standalone）

摘要：一、Spark概述 Spark基础概念和原理讲解可以参考我上篇博文：大数据Hadoop之——计算引擎Spark 二、Spark的运行模式 1）Standalone（本章讲解）独立模式，自己独立一套集群(master/client/slave)，Spark 原生的简单集群管理器，自带完整的服务，阅读全文

posted @ 2022-04-16 15:36 大数据老司机阅读(7225) 评论(0) 推荐(1)

2022年4月9日

大数据Hadoop之——计算引擎Spark

摘要：一、概述 Apache Spark 是专为大规模数据处理而设计的快速通用的计算引擎。Spark是UC Berkeley AMP lab (加州大学伯克利分校的AMP实验室)所开源的类Hadoop MapReduce的通用并行框架，Spark，拥有Hadoop MapReduce所具有的优点；但不同于阅读全文

posted @ 2022-04-09 17:54 大数据老司机阅读(3950) 评论(0) 推荐(1)

2022年4月5日

大数据Hadoop之——数据仓库Hive

摘要：一、概述 Hive是基于Hadoop的一个数据仓库（Data Aarehouse，简称数仓、DW），可以将结构化的数据文件映射为一张数据库表，并提供类SQL查询功能。是用于存储、分析、报告的数据系统。在Hadoop生态系统中，HDFS用于存储数据，Yarn用于资源管理，MapReduce用于数据处阅读全文

posted @ 2022-04-05 23:17 大数据老司机阅读(4302) 评论(0) 推荐(0)

技术栈

匠人精神，持之以恒！

公告