今天已经是有做HTML解析器的想法好几天了,一开始是一个朋友要我帮忙处理下从网页上的表格中获取信息,然后分项保存到数据库中,实现数据本地化。一开始就打算好好做一个,以后也可以通用,经过一个多星期的资料收集和试验,现在分析器的雏形已经出来了。
在一开始的时候打算直接用.NET中字符处理的方法来做,但过于复杂和麻烦,而且效率不高;然后有想到把HTML当做XML用XML相关的类来解析,但HTML的语法比较松散;还试过SgmlReader,这个东西的解析也不够满意。最后觉得用正则表达式来做(我学习了5天,已经深入到自动机的理论),选用的原因:
一、 效率高;
二、 容错性好。应为HTML没有XML那样严格的语法规范,HTML要松散些。
但正则表达式有个缺点,如果要匹配最近的<td></td>正则表达式要相当复杂,而且我也没有研究出来。我的解决办法是象Table用Match匹配出文字,然后用Match的index获得匹配的位置,再用SubString方法取得值字符串。效果还不错哦。
现在遇到的问题:如果Table中包含Table那么对TR的分解将出来错误。