侧边栏

随笔分类 -  spark

spark学习,在大厂搞数据质量时有对spark不懂的地方进行网上资料学习
摘要:在spark中,RDD、DataFrame、Dataset是最常用的数据类型,本博文给出笔者在使用的过程中体会到的区别和各自的优势 共性: 1、RDD、DataFrame、Dataset全都是spark平台下的分布式弹性数据集,为处理超大型数据提供便利 2、三者都有惰性机制,在进行创建、转换,如ma 阅读全文
posted @ 2019-10-24 11:12 泡代码的小二黑 阅读(611) 评论(1) 推荐(0) 编辑
摘要:梳理一下Spark中关于并发度涉及的几个概念File,Block,Split,Task,Partition,RDD以及节点数、Executor数、core数目的关系。 输入可能以多个文件的形式存储在HDFS上,每个File都包含了很多块,称为Block。当Spark读取这些文件作为输入时,会根据具体 阅读全文
posted @ 2019-10-21 10:37 泡代码的小二黑 阅读(2017) 评论(0) 推荐(1) 编辑
摘要:在日常工作中,有时候需要读取mysql的数据作为DataFrame数据源进行后期的Spark处理,Spark自带了一些方法供我们使用,读取mysql我们可以直接使用表的结构信息,而不需要自己再去定义每个字段信息。下面是我的实现方式。 1.mysql的信息: mysql的信息我保存在了外部的配置文件, 阅读全文
posted @ 2019-10-17 20:29 泡代码的小二黑 阅读(1303) 评论(0) 推荐(0) 编辑
摘要:spark的正则表达式匹配暂时只找到一个可用于dataframe处理数据的函数 ————————————————原文链接:https://blog.csdn.net/qingumeng4466/article/details/78932970 阅读全文
posted @ 2019-10-15 21:44 泡代码的小二黑 阅读(2585) 评论(0) 推荐(0) 编辑
摘要:java.lang.IllegalArgumentException: System memory 259522560 must be at least 471859200. Please increase heap size using the --driver-memory option or 阅读全文
posted @ 2019-10-15 21:06 泡代码的小二黑 阅读(1024) 评论(0) 推荐(0) 编辑
摘要:broadcast 官方文档描述: Broadcast a read-only variable to the cluster, returning a [[org.apache.spark.broadcast.Broadcast]] object for reading it in distrib 阅读全文
posted @ 2019-06-01 20:31 泡代码的小二黑 阅读(341) 评论(0) 推荐(0) 编辑

script src="https://files.cnblogs.com/files/fenggwsx/clipboard.min.js"/script script src="https://files.cnblogs.com/files/fenggwsx/cp.js"/script
点击右上角即可分享
微信分享提示