SSIS数据转换组件_模糊分组转换

模糊分组转换执行数据清理工作。它首先查找可能重复的行，然后选择要在对数据进行标准化的过程使用的规范数据行。模糊分组的任务编辑器有下面三个标签:

1. 连接管理器

使用列表框选择现有的 OLE DB 连接管理器，或使用“新建”按钮创建新的连接。

该功能主要是为模糊分组转换算法完成工作所需而需要创建临时 SQL Server 表。创建的表可能会很大，因此在生产服务其只有有限的可用磁盘空间时，因该考虑将模糊分组转换连接到Sql Server 的非生产实例中。则此转换性能可能会提高。

2 列

该选项卡可以设置用于对带有重复值的行进行分组。如图:

若要配置该转换，您必须选择要在确定重复项时使用的输入列，而且必须为每列选择匹配类型（模糊匹配或完全匹配）。完全匹配保证只对该列中具有相同值的行进行分组。完全匹配可以应用到除 DT_TEXT、DT_NTEXT 和 DT_IMAGE 之外的任何 Integration Services 数据类型的列。模糊匹配对具有相似值的行进行分组。近似匹配数据的方法基于用户指定的相似性得分。在模糊匹配中，只能使用具有 DT_WSTR 和 DT_STR 数据类型的列。

在图中最下面每列表示的含义如下:

列名	说明
输入列	在可用输入列中选择要分组的输入列
输出别名	为相应的输出列输入一个描述性的名称，默认为输入列名
组输出别名	为包含分组重复项的规范值得列输入一个描述性名称。默认为输入列名后加_clean
匹配类型	两种，Fuzzy-模糊匹配，Extract-完全匹配
最低相似性	设置相似性阈值。改值越接近1，查找值与源值重复可能性越高
相似性输出别名	为包含所选联接相似性得分的新输出列指定名称.如果将该值保留空,将不会创建输出列.
数字	指定比较列数据时前导数字和尾随数字的重要性.Neither-前导数字和尾随数字都不重要。Leading-只有前导数字重要。Trailing-只有尾随数字重要。LeadingAndTrailing-前导和尾随数字都重要
比较标志	包含忽略大小写、忽略假名类型、忽略符号、忽略字符宽度等等。