flink elasticsearch sink table 忽略部分字段开发
接上一篇,实现flink对elasicsearch的source/table
代码 https://github.com/cclient/flink-connector-elasticsearch-sink
flink elasticsearch sink 的 table写,默认会写些'冗余'列进es
es table写,官方支持自定义主键列,和主键列的连接方式(-)
以这几个列连接,计算id ,做为es的_id 写入es
同时也像logstash/nifi 那样支持动态index,配置索引列,写入对的应索引
写入没有问题
问题是这些参于计算的列,也都会一并写入_source,虽然可以通过配置es的mapping,减少这些列的开销,但毕竟doc结构不整洁,看着碍事(实际logstash也有同样的问题,logstash指定的document_id 会写入最终doc source内,和_id重复)
有没有办法不写入这些列?
官方没有这功能,就想办法定制调整
结合flink的应用经验,并结合上篇es source的适配经验,很简单就实现了
1 官方的sink table是dynamic table 生成的是rowdata
2 sink 结合scheme 实现对rowdata的解析,转为json字符串,bulk写入es
问题就出现在这一步,scheme有列信息 rowdata 有列数据
把要转为字符串的rowdata及scheme 都去掉相应的列,问题就应该解决了
添加自定义参数名,ignore-fields 构造时加载
遍历旧scheme,过滤掉ignore-fields 列,生成新的scheme,以scheme做序列化
报错
因为rowdata和scheme不匹配,rowdata内的列也需要去掉
rowdata不支持k/v访问,但字段顺序和scheme一致,通过scheme算出ignore-fields在rowdata内的index
过滤掉rowdata的相关列,重新生成rowdata即可,主要代码rowDataRemoveFiledByIndex
public RowData rowDataRemoveFiledByIndex(RowData row,int[] ignoreFieldIndeies){
Object[] newRows=new Object[row.getArity()-ignoreFieldIndeies.length];
for (int i = 0,j=0; i < row.getArity(); i++) {
if(!intArrayContains(ignoreFieldIndeies,i)){
newRows[j]=((GenericRowData)row).getField(i);
j++;
}
}
return GenericRowData.of(newRows);
}
private void processUpsert(RowData row, RequestIndexer indexer) {
RowData rowData=rowDataRemoveFiledByIndex(row,this.ignoreFieldIndeies);
byte[] document = this.serializationSchema.serialize(rowData);
String key = (String)this.createKey.apply(row);
if (key != null) {
UpdateRequest updateRequest = this.requestFactory.createUpdateRequest(this.indexGenerator.generate(row), this.docType, key, this.contentType, document);
indexer.add(new UpdateRequest[]{updateRequest});
} else {
IndexRequest indexRequest = this.requestFactory.createIndexRequest(this.indexGenerator.generate(row), this.docType, key, this.contentType, document);
indexer.add(new IndexRequest[]{indexRequest});
}
}
如此问题解决,测试通过,写入es不再会有'冗余'字段
但该方法只是功能满足,实际性能有损失
scheme的加载是一次性的,没有影响
但对每一行数据rowdata,都要过滤字段,执行RowData rowData=rowDataRemoveFiledByIndex(row,this.ignoreFieldIndeies);
生成新的rowdata,大数据下开销相对较大,有一定性能损失
最完美的办法是在序列化的时候,也就是flink的原码基础上做,序列化时对rowdata不必要的字段做过滤,而不是构造一个过滤字段后的rowdata,由flink序列化
更好的办法要调整flink的core和序列化的核心公共代码了,改起来难度稍高,也会影响其他组件,暂时现有的方案
真有必要时再尝试改动序列化部分,编译flink,后部署