2020 年 6月 10 日随笔档案 - Michael云擎

2020年6月10日

摘要： 1.关于S3，S3N和S3A的区别与联系（wiki:https://wiki.apache.org/hadoop/AmazonS3） S3 Native FileSystem (URI scheme: s3n) A native filesystem for reading and writing 阅读全文

posted @ 2020-06-10 22:56 Michael云擎阅读(2439) 评论(0) 推荐(0) 编辑

将 Spark Streaming 的结果保存到 S3

摘要：将spark解析的结果保存到S3 这个和保存到本地的区别在于，你需要配置aws的key和密码，以及它的region，代码如下 package com.alo7.spark import java.util.Properties import test07.DWReadS3LogToKafka_Tpu 阅读全文

posted @ 2020-06-10 22:44 Michael云擎阅读(202) 评论(0) 推荐(0) 编辑

经 EMRFS S3 优化的提交程序的要求

摘要：经 EMRFS S3 优化的提交程序的要求 https://docs.aws.amazon.com/zh_cn/emr/latest/ReleaseGuide/emr-spark-committer-reqs.html 满足以下条件时，将使用经 EMRFS S3 优化的提交程序：您可以运行使用 S 阅读全文

posted @ 2020-06-10 22:35 Michael云擎阅读(229) 评论(0) 推荐(0) 编辑

聊一聊Spark写文件的机制——如何保证数据一致性

摘要：聊这个问题的原因是，本周在测试环境遇到了一例从Spark往S3写数据失败的情况，花了些时间来搞清楚个中缘由，这里整理出来与大家分享，期望能对同道中人有所帮助。背景在笔者的数据系统中，每天会定时启动一个Spark批处理程序，对前一天的流处理结果进行合并、整理，然后写入AWS S3，从而提供尽可能快阅读全文

posted @ 2020-06-10 22:34 Michael云擎阅读(893) 评论(0) 推荐(0) 编辑

再谈Spark下写S3文件的File Output Committer问题

摘要：在《聊一聊Spark写文件的机制——如何保证数据一致性》一文中，我们分析了Spark写文件的机制，探讨了多个File Output Committer在性能与数据一致性上的权衡，以及针对AWS S3这样的对象存储的优化思路。文章结尾处，曾提到我们将会采用EMRFS S3-optimized Comm 阅读全文

posted @ 2020-06-10 22:33 Michael云擎阅读(537) 评论(0) 推荐(0) 编辑

使用经 EMRFS S3 优化的提交器提高 Apache Spark 写入 Apache Parquet 格式文件的性能

摘要：亚马逊AWS官方博客使用经 EMRFS S3 优化的提交器提高 Apache Spark 写入 Apache Parquet 格式文件的性能 by AWS Localization | on 26 NOV 2019 | in AWS Big Data | Permalink | Share Ori 阅读全文

posted @ 2020-06-10 22:27 Michael云擎阅读(384) 评论(0) 推荐(0) 编辑

Michael云擎的技术博客

主要用于学习笔记和网上技术文章的收藏记录 ~

公告