Loading

随笔分类 -  大数据

摘要:Hudi与Spark结合 💡 本指南总结Hudi基于spark-shell、spark-submit(java案例),使用spark datasource来演示Hudi的操作Hudi表的插入、更新、读取快照和增量数据等功能。 Hudi背景 Hudi(Hadoop Update Delete Inc 阅读全文
posted @ 2024-07-22 10:59 集君 编辑
摘要:实验环境 minio-8.0.10 http://192.168.137.100:32000/minio/bigdata/ spark-operator-1.1.26 spark-history-server 3.2.2 http://192.168.137.100:32627/ 测试案例 案例hu 阅读全文
posted @ 2024-07-22 10:46 集君 编辑
摘要:👀 单机安装部署 基于官网:spark-3.2.2-bin-hadoop3.2.tgz包 测试机器:hyper-v test001 路径: /home/soft/spark-3.2.2-bin-hadoop3.2 修改spark-defaults.conf # Example: # spark.m 阅读全文
posted @ 2024-07-22 10:44 集君 编辑
摘要:用vscode新建一个maven项目,添加maven配置: <dependency> <!-- Spark dependency --> <groupId>org.apache.spark</groupId> <artifactId>spark-sql_2.12</artifactId> <vers 阅读全文
posted @ 2022-09-19 11:34 集君 编辑
摘要:什么是 Apache Flink? Apache Flink是一个框架和分布式处理引擎,用于对无界数据和有界数据流进行状态计算。Flink被设计为在所有常见的集群环境中运行,以内存中的速度和任何规模执行计算。 处理无界和有界数据 任何类型的数据都是作为事件流产生的。信用卡交易、传感器测量、机器日志或 阅读全文
posted @ 2022-09-08 19:08 集君 编辑
摘要:Hadoop 集群部署 基础系统环境准备 在VMware中创建3台centos7.6主机,空间50G: 配置/etc/hostname 修改/etc/sysconfig/network-scripts/ifcfg-ens33静态ip、网关(192.168.208.1)、DNS(8.8.8.8) 配置 阅读全文
posted @ 2022-09-06 17:40 集君 编辑
摘要:Hadoop Hadoop是用java语言编写的,在分布式服务器集群上存储海量数据并运行分布式分析应用的开源框架,其核心部分是HDFS、MapReduce与Yarn HDFS是分布式文件系统,引入存放文件元数据的服务器NameNode和实际存放数据的服务器DataNode,对数据进行分布式存储和读取 阅读全文
posted @ 2022-09-02 15:10 集君 编辑
摘要:Hadoop Hadoop是用java语言编写的,在分布式服务器集群上存储海量数据并运行分布式分析应用的开源框架,其核心部分是HDFS、MapReduce与Yarn HDFS是分布式文件系统,引入存放文件元数据的服务器NameNode和实际存放数据的服务器DataNode,对数据进行分布式存储和读取 阅读全文
posted @ 2022-09-01 17:34 集君 编辑

more_horiz
keyboard_arrow_up dark_mode palette
选择主题
点击右上角即可分享
微信分享提示