随笔分类 -  大数据

Spark常用算子
摘要:Spark是一个快速、通用、可扩展的分布式数据处理引擎,支持各种数据处理任务。Spark提供了许多强大的算子,用于对数据集进行各种转换和操作。 以下是Spark中常用的一些算子: 1. map:对RDD中的每个元素进行转换操作。 2. filter:对RDD中的每个元素进行过滤操作。 3. flat 阅读全文

posted @ 2023-05-18 23:47 SuperGuoYa 阅读(319) 评论(0) 推荐(0) 编辑

Hadoop的核心配置文件
摘要:1. core-site.xml:该配置文件包含了Hadoop通用配置,例如Hadoop的文件系统和I/O设置、Hadoop日志目录、Hadoop缓存设置等。 2. hdfs-site.xml:该配置文件包含了Hadoop分布式文件系统(HDFS)的配置,例如HDFS的副本数、块大小、数据目录、安全 阅读全文

posted @ 2023-05-17 22:32 SuperGuoYa 阅读(866) 评论(0) 推荐(0) 编辑

< 2025年3月 >
23 24 25 26 27 28 1
2 3 4 5 6 7 8
9 10 11 12 13 14 15
16 17 18 19 20 21 22
23 24 25 26 27 28 29
30 31 1 2 3 4 5

导航

统计

点击右上角即可分享
微信分享提示