Robin's Blog

记录 积累 学习 成长

  博客园 :: 首页 :: 博问 :: 闪存 :: 新随笔 :: 联系 :: 订阅 订阅 :: 管理 ::
分布式事务听起来很不错,其实不然。它只是尽可能的降低数据不一致的可能性,并不能完 全避免。从我的应用中来看,总数约5千万的操作,错了十几个。当然,这个错误率完全可以忍受了。不能忍受的是当你的DB在cluster(集群)当 中,msdtc也会被作为一项资源出现,cluster的某些问题会诡异的导致msdtc不可用,问题排查起来是非常郁闷的。大家都知道,作为大型系统, 不太可能不用cluster,所以msdtc的问题会显得很突出,伊给我的感觉实在是脆弱……
 
事务这个东东用来保证非常critical的数据的一致性,是否使用事务,要看你的业 务需求.但是.NET 2.0在分布式事务支持上面不够彪悍,这使得某些情况下,你要牺牲一些东西,如:某些可以并行执行的部分,但是不能并行执行。 System.Transactions中偶还没发现支持并行执行事务的Transactioin对象,所以如果想让代码比较“傻瓜”,就不得不串行执行 所有的操作步骤,当然无法获得并行执行可并行步骤的快速响应。当然,系统的吞吐率可能因为串行提高了一点点,看你的需求了。
 
如果你不得不用分布式事务,那也得琢磨琢磨:
1.         这步操作一定得在事务当中吗?这步操作如果没完成或者失败了,值得回滚整个事务吗?难道没有优雅的补偿措施或者容错措施?
2.         分布式事务涉及到的点,必须的这么多?必须得实时的操作这一大串?不能通过通知类操作去精简掉某些点?
3.         在发起分布式事务之后,你是不是做了事务无关的操作,尽管这些操作跟事务无关?(如,读取数据、计算、等用户返回消息、等其他模块的调用返回等等)要知道事务应该尽快结束。
4.         你没有把一些读操作也算在事务里面了吧?这是很容易犯的错误,你在事务中Enlist了一个select 操作。
5.        你的操作,某些步骤可以等全部操作完成之后再执行.这类操作具有明显的通知类特点。通知类操作是说,我给你一个通知,并且我保证通知到了你;你必须吃下这个通知,并且保证处理成功,但是你不必我一通知你你就处理。这样的操作很明显可以用另外一个任务去搞。

and so on….有经验的安达补充……
 
好吧,到这里你不得不使用传说中的“分布式事务”,那么,偶建议你首先在应用程序服务器安装如下几个补丁:
1.         kb916002.(http://support.microsoft.com/kb/916002/en-us),它解决了“New request is not allowed to start because it should come with valid transaction descriptor.”的bug,不安装它,你的应用会出现大量这种错误。
2.      kb929246.(http://support.microsoft.com/kb/929246/en-us),kb网站上说,它解决了“
Consider the following scenario. You connect two Microsoft SQL Server databases in a transaction scope. The transaction scope is defined by using the System.Transactions.TransactionScope class in the Microsoft .NET Framework 2.0. In this scenario, you intermittently receive the following error message:
System.InvalidOperationException: SqlConnection does not support parallel transactions
This problem only occurs if you enable connection pooling for the connection.
”。实际上你看到更多的是当你的Transaction被Abort时 (如超时),SqlConnection并没有被释放。直接后果是一段时间之后,你的SqlConnection连接池中没有可用连接,你无法拿到 SqlConnection。当初报给GTech的时候感觉这种bug真是相当的愚蠢。是的,愚蠢!
3.         kb936983(http://support.microsoft.com/kb/936983/en-us),kb网站上又说,丫解决了“
In a Microsoft .NET Framework 2.0-based application, you try to use the System.Transactions.CommittableTransaction.Commit method to commit a transaction. However, the call to the System.Transactions.CommittableTransaction.Commit method may always be blocked.
”。实际上你看到的情况是,你的程序运行了很长时间,但是你发现性能计 数器.Net Provider for SqlServer\NumberOfStasisConnections开始有了示数,并且逐渐增加。于是你查看了代码,发现根本就不存在连接泄漏。接 着你又开始查数据库,你发现确实有在前一天就Enlist到分布式事务中的连接在等待命令。然后,计数器示数.Net Provider for SqlServer\NumberOfStasisConnections连续增加,你意识到进程中的僵尸连接越来越多,为了避免连接池被吃光,你不得不 偷偷的重启了服务,你甚至不得不为此写了一个脚本来定时重启你的服务。最后,你开始骂娘。相对2,这个bug稍微nb了一些。
 
我们有理由怀疑MS并没有仔细认真的测试System.Transactions和System.Data.SqlClient中的东西。
 
TransactionScope在文档中宣称只在“必要”情况下才提升事务级别,但 是事实上不是这样。在TransactionScope内,只要你用不同的SqlConnection对象操作DB一次以上(不管你的目标是不是同一个实 例、同一个库),都会提升事务级别到分布式事务。很猥琐吧?当然,从SqlClient目前实现上可以理解这个事情:
我们知道,在事务提交或回滚前,事务拿着的连接是不被释放的,不管你在代码中有没有调 用Close或Dispose(这里要稍微提一下Dispose模式。对这两个方法的调用没有本质上的不同)。所以就算是用相同的连接字符串生成的俩 SqlConnection,其内部引用的连接池中的internal连接也不是一个,也就是说,从DB的角度看,是两个不同的Session.不同的 Session不能共享一个本地事务(这句话本身可能需要小心求证),只能通过分布式事务管理。
但是微软不能优化它吗?能。连接字符串完全可以解析成一堆field,就像 SqlConnectionStringBuilder那样,然后通过比较前面一个internal的连接中信息来判断是重用前一个连接还是从连接池里面 拿一个新的。当然还有一个坎,有任何一点不同的连接字符串都会生成不同的连接池,就算是只多一个空格也是这样,连接池可能也得改造改造。
但是微软没有做这种改造,那我们就得自己做了——执行相同实例相同库上操作都在一个SqlConnection上执行好了。
        
值得一提的是,DbConnection对象有一个 EnlistTransaction方法,它给了我们手工分布式事务的机会。现在我们设计东西,大多数情况下是采用从上到下的设计,最后才会关心 persistent方式。这个时候DbConnection.EnlistTransaction就显得特别的有用。相比之 下,TransactionScope过于死板。而且,手工控制Enlist给了我们并行执行一堆操作,最后大家一起提交或回滚的可能(只要你的需求能忍 受稍高的错误率。分布式事务的两阶段提交方式理论上注定这个所谓的“稍高”不会比直接使用分布式事务高多少。)
        
最后稍微提提MSDTC的配置和DTCPing工具。
MSDTC配置主要是“安全配置”,并且要在应用程序服务器(应用程序服务器也是分布式事务的一个节点)、所有相关的DB服务器上进行配置。怎么配置google一把,到处都是。
配置完之后,应该把DTCPing拷贝到所有这些服务器上,并且进行双向的连通性确认。双向是说A->B得通,B->A也得通。注意DTCPing的用法,上面写的明明白白,就不多说了。
如果某台机器不能解析别的机器名,修改一把hosts文件就OK了。

==============

以上纯粹是个人经验,错误浅薄之处,还请各位安达指正.
posted on 2009-08-21 15:52  Robin99  阅读(225)  评论(0编辑  收藏  举报