Falcon
DataSource:
对于关系型数据库,创建DataSource;
Cluster
是指一个大数据的平台,需要指定Hive的接口(hiveServer)以及hdfs接口;
Feed
其实对于数据源的消费,如果是mysql到hive(需要有cluster做数据源),直接通过一个feed即可完成数据的转移。选择RMDB import/export;但是我就是卡在了这里,怎么数据都是导不过去。我怀疑可能是作为接收方,hive的分区写法不对;但是没有很好的资料来介绍Falcon里面怎么来处理这个;我有一点一直没明白,为什么作为接收方Hive还要指定分区呢?
Process
还有一种feed是用于在同一个cluster中进行拷贝的场景(hdfs文件或者hive文件拷贝,使用的技术是discp),这个时候,Feed是在process里面搞;
这些数据的导入都是基于oozie和sqoop来进行的。
通过http://slave4:15000/#/feeds
可以获得feeds列表;但是falcon的脆弱在于如果某个entity找不到(比如hdp)便会报错,进而整个系统崩溃;
异常处理
刚才看了半天的73机器的falcon日志;怎么也没有变化。后来想到了反正也没有日志不如重新安装到64上面吧;我怀疑是74机器设备性能不行导致的;突然发现其实falcon就是装载64机器上面。