摘要: 根据前两篇的博文: curl数据采集系列之单页面采集函数get_html curl数据采集系列之多页面并行采集函数get_htmls 已经可以得到了我们需要的html文件,现在需要处理得到的文件获取到我们需要的采集的数据。 对于html文档的解析,没有像XML那样的解析类,因为HTML文档有很多不成对的标签,很不严格。这个时候就需要采用其他的一些辅助类了,simplehtmldom是一个类似于JQuery方式操作HTML文档的解析类。可以很方便的得到想要的数据,可惜速度慢。这里不是我们这里讨论的重点,我主要使用正则来匹配我所需要的采集的数据,可以很快速的得到我需要采集的信息。 考... 阅读全文
posted @ 2013-04-02 12:08 黑睫毛膏 阅读(601) 评论(0) 推荐(0) 编辑