摘要: Spark、调优、参数总结 阅读全文
posted @ 2019-01-05 10:26 lillcol 阅读(1197) 评论(0) 推荐(0) 编辑
摘要: RDD,重新分区,repartition,coalesce,Spark,大数据,源码 阅读全文
posted @ 2018-11-01 17:14 lillcol 阅读(2604) 评论(0) 推荐(0) 编辑
摘要: DataFrame、大数据、优化、Scala、coalesce、repartition 阅读全文
posted @ 2018-10-31 19:06 lillcol 阅读(9985) 评论(0) 推荐(2) 编辑
摘要: Scala 学习笔记 阅读全文
posted @ 2018-10-30 19:26 lillcol 阅读(423) 评论(0) 推荐(0) 编辑
摘要: Spark 开发环境搭建,包括IDEA、Scala、Svn、SBT、Java等安装配置 阅读全文
posted @ 2018-10-17 16:50 lillcol 阅读(2544) 评论(0) 推荐(0) 编辑
摘要: Spark处理后的结果数据resultDataFrame可以有多种存储介质,比较常见是存储为文件、关系型数据库,非关系行数据库。 各种方式有各自的特点,对于海量数据而言,如果想要达到实时查询的目的,使用HBase作为存储的介质是非常不错的选择。 现需求是:Spark对Hive、mysql数据源进行处 阅读全文
posted @ 2018-10-16 18:20 lillcol 阅读(4023) 评论(0) 推荐(0) 编辑
摘要: Spark:DataFrame写文件,追加,覆盖 阅读全文
posted @ 2018-10-16 16:05 lillcol 阅读(26155) 评论(0) 推荐(0) 编辑
摘要: Spark将DataFrame进行一些列处理后,需要将之写入mysql,下面是实现过程 1.mysql的信息 mysql的信息我保存在了外部的配置文件,这样方便后续的配置添加。 1 //配置文件示例: 2 [hdfs@iptve2e03 tmp_lillcol]$ cat job.propertie 阅读全文
posted @ 2018-10-16 11:23 lillcol 阅读(10084) 评论(1) 推荐(0) 编辑
摘要: Spark:读取mysql作为DataFrame进行数据分析 阅读全文
posted @ 2018-10-16 10:12 lillcol 阅读(7643) 评论(0) 推荐(0) 编辑