微软BI 之SSIS 系列 - 变量查询语句引起列输出顺序不一致的解决方法
2013-12-04 12:47 BIWORK 阅读(2257) 评论(11) 编辑 收藏 举报开篇介绍
这个问题来自于 天善BI社区,看了一下比较有意思,因为我自己认为在 SSIS中处理各种类型文件的经验还比较丰富(有一年的时间几乎所有ETL都跟文件相关),但是这个问题确实之前没有特别考虑过。研究了一下,找到了解决的方法,赶紧记录下来。
简单描述一下这个问题,如果我们的 SOURCE 是直接从表里面查询,然后输出到文件的时候,查询语句中列的顺序就是输出文件列的顺序(逗号分隔的文件)。但是如果使用变量查询语句,那么这个输出顺序和查询列的顺序就会不一致了!如果我们的文件格式已经提前定义好了,那么这个就很不好调整了。除非手动一列一列的在文件管理器中删除所有列,然后重新建立,但这样会非常耗费时间和精力,并且非常容易出错。
解决过程
先看看问题,再来看比较简单的解决方案。
测试数据源查询语句和结果 -
如果是直接查询的话,文件输出列的顺序没有任何问题和影响,下面是我的查询语句,和在 SQL Server 中的是一样的。
OLE DB Source 里的顺序与查询语句一致。
向下关联一个文件输出并在它的连接管理器中可以看到这些顺序都是一样的,不需要做出任何调整。
最后的输出结果也是一样的,列的输出顺序都一致,没有问题。
现在我们使用变量来保存这个查询语句 -
在数据源中使用这个变量作为查询语句来查询 -
切换到 Columns 的时候发现非常诡异的地方出来了,整个列的输出顺序和查询的顺序不一样了。并且更为诡异的问题是,同样的两个变量语句,我反复删除试建了好几次。第一个的顺序和这个还不一样,第二个正常,这是第三个顺序。并且在最开始只测试几个字段的时候,这个顺序一直是正常的,现在看到的是我增加了好几个列才看到的。关于为什么有这个变化,或者与写没写 Top 10 我还真的没有办法重现刚才的第一个顺序,总之问题出现了。
这样输出的时候,和文件管理器关联之后的顺序。以前的做法是先删除所有的,然后重新一项一项添加回去,并且还要注意数据类型都要记下来。
但是这样确实存在一个问题,如果我们的输出列比较复杂,要不一个一个列的类型顺序记载下来会非常花费时间和精力。可以在这里调整,但是总觉得是一个效率比较低的选择。
输出的结果果然如此,顺序和期望的不一致!
解决的方法虽然也需要人工手动操作,但是比起在文件管理器中删除新建要容易的多,回到数据源的列,先取消全部可用的列。
然后对照查询语句列的顺序,依次选中需要的列,比如第一个先勾选 BusinessEntityID,第二个再勾选 NationalIDNumber,后面根据需要按顺序依次勾选。
按顺序选择完成之后,这样所有的列又按照查询顺序输出了。
需要重新建立新的文件链接管理器,这样可以避免之前的缓存影响,再来看管理器中的列顺序也是对应一致的,没有问题了。
输出结果也是一致的了!
写到这里我也仍然怀疑,如果直接用表难道就一直没有出现这个现象吗,还是没有碰到? 这个确实记不清了,但是从这个问题反而使得另外的一个问题变得很清晰,也就是无论输入源的查询顺序是怎么样的,我们完全可以控制它的输出顺序。因为有的时候可能会碰到第三方直接给你一个视图或者存储过程,输出的就是这样的顺序,但是下游文件格式已经固定了,那么就可以通过这种方式来完成自定义的顺序向下输出了。
更多 BI 文章请参看 BI 系列随笔列表 (SSIS, SSRS, SSAS, MDX, SQL Server) 如果觉得这篇文章看了对您有帮助,请帮助推荐,以方便他人在 BIWORK 博客推荐栏中快速看到这些文章。