摘要:
Spark处理后的结果数据resultDataFrame可以有多种存储介质,比较常见是存储为文件、关系型数据库,非关系行数据库。 各种方式有各自的特点,对于海量数据而言,如果想要达到实时查询的目的,使用HBase作为存储的介质是非常不错的选择。 现需求是:Spark对Hive、mysql数据源进行处 阅读全文
摘要:
Spark:DataFrame写文件,追加,覆盖 阅读全文
摘要:
Spark将DataFrame进行一些列处理后,需要将之写入mysql,下面是实现过程 1.mysql的信息 mysql的信息我保存在了外部的配置文件,这样方便后续的配置添加。 1 //配置文件示例: 2 [hdfs@iptve2e03 tmp_lillcol]$ cat job.propertie 阅读全文
摘要:
Spark:读取mysql作为DataFrame进行数据分析 阅读全文
摘要:
在日常工作中,有时候需要读取mysql的数据作为DataFrame数据源进行后期的Spark处理,Spark自带了一些方法供我们使用,读取mysql我们可以直接使用表的结构信息,而不需要自己再去定义每个字段信息。下面是我的实现方式。 1.mysql的信息: mysql的信息我保存在了外部的配置文件, 阅读全文