Spark 提交运行 保存结果 流程控制
1.Spark 内部已经实现了连接各种数据库和仓库
MySQL HDFS HIVE textFile RDD(数据集)
将 HDFS 基于Spark 得到的计算结果保存至MySQL 也是极其简单的
如何将程序更加模块化和可控制 ,我们一般都是运行时加不同参数
以达到不同时间 , 不同地点 , 不同需求的计算任务
也就是
1.数据不同(时间上,业务上)
2.计算过程不同(需求改变)
3.最终形态不一样(存储到不同位置)
---------其实这三个问题都可以用参数解决 , 相当于case , 满足什么 , 执行什么 .
尽量在不改变原有代码的情况下 , 让业务功能更加灵活 . 准确 ,稳定 ,高效 . 多维度