ETL工具-nifi干货系列 第十一讲 处理器UpdateAttribute使用教程
1、在这里我们重温下nifi里面一个重要的概念FlowFile,如下图所示:
FlowFile:FlowFile代表NiFi中的单个数据。nifi数据流中流动的就是flowfile,每个nifi处理器处理的数据也是基于flowfile的。
FlowFile由两个组件组成:FlowFile属性(attribute)和FlowFile内容(content)。内容是FlowFile表示的数据。属性是提供有关数据的信息或上下文的特征,它们由键值对组成。所有FlowFiles都具有以下标准属性:
-
uuid:一个通用唯一标识符,用于区分FlowFile与系统中的其他FlowFiles。
-
filename:在将数据存储到磁盘或外部服务时可以使用的可读文件名
-
path:在将数据存储到磁盘或外部服务时可以使用的分层结构值,以便数据不存储在单个目录中
flowfile除了自身默认的标准属性外,用户还可以自定义属性,自定义属性的用途很多,如上节课讲的RouteOnAttribute就用到了自定义属性。
2、处理器UpdateAttribute,该处理器的作用根据名字就可以看出来,就是为了更新flowFile的属性存在的,如下图所示:
Delete Attributes Expression:正则匹配的属性将从 FlowFiles 文件中删除。属性无论是否由此处理器更新,匹配的现有属性都将被删除。
删除属性Value值用法如下(概括下来就是支持精确匹配和模糊匹配删除):
lastUser - 将删除名称为 "lastUser" 的属性。
user.* - 将删除以 "user" 开头的属性,例如 "username"、"userName"、"userID" 和 "users"。但不会删除 "User" 或 "localuser"。
(user.*|host.*|.*Date) - 将删除 "user"、"username"、"userName"、"hostInfo"、"hosts" 和 "updateDate",但不会删除 "User"、"HOST"、"update" 或 "updatedate"。
Store State:选择是否存储状态,有Do not store state和Store state locally两个选项。选择 “无状态” 将提供纯粹在无状态方式下更新流文件属性的默认功能。选择有状态的选项将不仅存储流文件上的属性,还会存储在处理器的状态中。(也就是说无状态仅仅基于当前flowfile进行计算,有状态是基于处理器和流经处理器的所有flowfile为基础进行计算,如计算flowfile的条数)
Stateful Variables Initial Value:如果使用状态来设置/引用变量,那么此值将用于设置有状态变量的初始值。仅在状态不包含变量值时,此值将在 @OnScheduled 方法中使用。如果以有状态方式运行,则需要此值,但如果需要,可以为空。
Cache Value Lookup Cache Size:指定应在缓存中存储多少个规范查找值。
3、示例:新增不存在属性,新增一个动态属性myNickName为king,如下图所示
查看数据溯源信息可知flowFile属性中多了一个myNickName属性,与此同时查看LogMessage处理器的溯源信息依然可以看到myNickName。
4、示例:新增存在属性,新增一个动态属性filename为${filename}.flowfile,如下图所示
点击运行,然后查看溯源信息,此时filename已经发生了变更,如下图所示:
5、示例:高级用法 存储状态,记录通过该处理器的数据流总和,如下图所示:
点击运行,然后查看溯源信息,此时myCount值已经进行统计,如下图所示:
6、高级用法,添加规则条件,符合条件时update指定的属性值,如下图所示:
添加一个rule,如果id的值等于1,就修改name的值为Java大金刚