大数据 - 随笔分类 - 集君

Hudi与Spark结合使用

摘要：Hudi与Spark结合 💡 本指南总结Hudi基于spark-shell、spark-submit(java案例)，使用spark datasource来演示Hudi的操作Hudi表的插入、更新、读取快照和增量数据等功能。 Hudi背景 Hudi（Hadoop Update Delete Inc 阅读全文

posted @ 2024-07-22 10:59 集君

Hudi测试

摘要：实验环境 minio-8.0.10 http://192.168.137.100:32000/minio/bigdata/ spark-operator-1.1.26 spark-history-server 3.2.2 http://192.168.137.100:32627/ 测试案例案例hu 阅读全文

posted @ 2024-07-22 10:46 集君

Spark 3.2使用体验

摘要：👀 单机安装部署基于官网：spark-3.2.2-bin-hadoop3.2.tgz包测试机器：hyper-v test001 路径： /home/soft/spark-3.2.2-bin-hadoop3.2 修改spark-defaults.conf # Example: # spark.m 阅读全文

posted @ 2024-07-22 10:44 集君

Spark 3.2.2 java编程案例

摘要：用vscode新建一个maven项目，添加maven配置： <dependency>  <groupId>org.apache.spark</groupId> <artifactId>spark-sql_2.12</artifactId> <vers 阅读全文

posted @ 2022-09-19 11:34 集君

Apache Flink简介与安装

摘要：什么是 Apache Flink？ Apache Flink是一个框架和分布式处理引擎，用于对无界数据和有界数据流进行状态计算。Flink被设计为在所有常见的集群环境中运行，以内存中的速度和任何规模执行计算。处理无界和有界数据任何类型的数据都是作为事件流产生的。信用卡交易、传感器测量、机器日志或阅读全文

posted @ 2022-09-08 19:08 集君

Spark 3.2.2 集群安装部署

摘要：Hadoop 集群部署基础系统环境准备在VMware中创建3台centos7.6主机，空间50G：配置/etc/hostname 修改/etc/sysconfig/network-scripts/ifcfg-ens33静态ip、网关（192.168.208.1）、DNS（8.8.8.8）配置阅读全文

posted @ 2022-09-06 17:40 集君

大数据Hadoop简介、安装、使用

摘要：Hadoop Hadoop是用java语言编写的，在分布式服务器集群上存储海量数据并运行分布式分析应用的开源框架，其核心部分是HDFS、MapReduce与Yarn HDFS是分布式文件系统，引入存放文件元数据的服务器NameNode和实际存放数据的服务器DataNode，对数据进行分布式存储和读取阅读全文

posted @ 2022-09-02 15:10 集君

Hadoop简介和架构

摘要：Hadoop Hadoop是用java语言编写的，在分布式服务器集群上存储海量数据并运行分布式分析应用的开源框架，其核心部分是HDFS、MapReduce与Yarn HDFS是分布式文件系统，引入存放文件元数据的服务器NameNode和实际存放数据的服务器DataNode，对数据进行分布式存储和读取阅读全文

posted @ 2022-09-01 17:34 集君

Loading

集君

随笔分类 - 大数据

公告