Falcon

DataSource:
对于关系型数据库,创建DataSource;

Cluster

  是指一个大数据的平台,需要指定Hive的接口(hiveServer)以及hdfs接口;

Feed

  其实对于数据源的消费,如果是mysql到hive(需要有cluster做数据源),直接通过一个feed即可完成数据的转移。选择RMDB import/export;但是我就是卡在了这里,怎么数据都是导不过去。我怀疑可能是作为接收方,hive的分区写法不对;但是没有很好的资料来介绍Falcon里面怎么来处理这个;我有一点一直没明白,为什么作为接收方Hive还要指定分区呢?

Process

  还有一种feed是用于在同一个cluster中进行拷贝的场景(hdfs文件或者hive文件拷贝,使用的技术是discp),这个时候,Feed是在process里面搞;
这些数据的导入都是基于oozie和sqoop来进行的。


通过http://slave4:15000/#/feeds
可以获得feeds列表;但是falcon的脆弱在于如果某个entity找不到(比如hdp)便会报错,进而整个系统崩溃;

异常处理

  刚才看了半天的73机器的falcon日志;怎么也没有变化。后来想到了反正也没有日志不如重新安装到64上面吧;我怀疑是74机器设备性能不行导致的;突然发现其实falcon就是装载64机器上面。

 

posted on 2018-03-11 20:07  张叫兽的技术研究院  阅读(244)  评论(0编辑  收藏  举报

导航