摘要: 之前由于工作的原因,写过一个通用网站数据采集的小工具,通过配置XML来采集不同的网站内容。 这段时间工作闲暇之余,觉得有必要重构一下,顺便学习学习,特此记录。 字符处理规则重构 字符处理应该算是采集中得一个核心内容,如果在一大串HTML字符串中提取成我们需要的字段。先看看之前的处理方式: V... 阅读全文
posted @ 2012-06-13 13:30 寒风吹过 阅读(1858) 评论(8) 推荐(4) 编辑