我的视频blog地址 http://www.lofter.com/blog/cloudrivers
摘要: 1.关于S3,S3N和S3A的区别与联系(wiki:https://wiki.apache.org/hadoop/AmazonS3) S3 Native FileSystem (URI scheme: s3n) A native filesystem for reading and writing 阅读全文
posted @ 2020-06-10 22:56 Michael云擎 阅读(2439) 评论(0) 推荐(0) 编辑
摘要: 将spark解析的结果保存到S3 这个和保存到本地的区别在于,你需要配置aws的key和密码,以及它的region,代码如下 package com.alo7.spark import java.util.Properties import test07.DWReadS3LogToKafka_Tpu 阅读全文
posted @ 2020-06-10 22:44 Michael云擎 阅读(202) 评论(0) 推荐(0) 编辑
摘要: 经 EMRFS S3 优化的提交程序的要求 https://docs.aws.amazon.com/zh_cn/emr/latest/ReleaseGuide/emr-spark-committer-reqs.html 满足以下条件时,将使用经 EMRFS S3 优化的提交程序: 您可以运行使用 S 阅读全文
posted @ 2020-06-10 22:35 Michael云擎 阅读(229) 评论(0) 推荐(0) 编辑
摘要: 聊这个问题的原因是,本周在测试环境遇到了一例从Spark往S3写数据失败的情况,花了些时间来搞清楚个中缘由,这里整理出来与大家分享,期望能对同道中人有所帮助。 背景 在笔者的数据系统中,每天会定时启动一个Spark批处理程序,对前一天的流处理结果进行合并、整理,然后写入AWS S3,从而提供尽可能快 阅读全文
posted @ 2020-06-10 22:34 Michael云擎 阅读(893) 评论(0) 推荐(0) 编辑
摘要: 在《聊一聊Spark写文件的机制——如何保证数据一致性》一文中,我们分析了Spark写文件的机制,探讨了多个File Output Committer在性能与数据一致性上的权衡,以及针对AWS S3这样的对象存储的优化思路。文章结尾处,曾提到我们将会采用EMRFS S3-optimized Comm 阅读全文
posted @ 2020-06-10 22:33 Michael云擎 阅读(537) 评论(0) 推荐(0) 编辑
摘要: 亚马逊AWS官方博客 使用经 EMRFS S3 优化的提交器提高 Apache Spark 写入 Apache Parquet 格式文件的性能 by AWS Localization | on 26 NOV 2019 | in AWS Big Data | Permalink | Share Ori 阅读全文
posted @ 2020-06-10 22:27 Michael云擎 阅读(384) 评论(0) 推荐(0) 编辑
我的视频blog地址 http://www.lofter.com/blog/cloudrivers