摘要:
Parquet是可用于Hadoop生态系统中任何项目的开源文件格式。与基于行的文件(例如CSV或TSV文件)相比,Apache Parquet旨在提供高效且高性能的扁平列式数据存储格式。 Parquet使用记录粉碎和组装算法,该算法优于嵌套名称空间的简单拼合。Parquet经过优化,可以批量处理复杂 阅读全文
摘要:
spark-submit时报错 python升级3.7引起 恢复2.7正常 阅读全文
摘要:
Spark Streaming VS Structured Streaming Spark Streaming是Spark最初的流处理框架,使用了微批的形式来进行流处理。 提供了基于RDDs的Dstream API,每个时间间隔内的数据为一个RDD,源源不断对RDD进行处理来实现流计算 Apache 阅读全文