2013 年 4月 2 日随笔档案 - 黑睫毛膏

2013年4月2日

摘要：根据前两篇的博文： curl数据采集系列之单页面采集函数get_html curl数据采集系列之多页面并行采集函数get_htmls 已经可以得到了我们需要的html文件，现在需要处理得到的文件获取到我们需要的采集的数据。对于html文档的解析，没有像XML那样的解析类，因为HTML文档有很多不成对的标签，很不严格。这个时候就需要采用其他的一些辅助类了，simplehtmldom是一个类似于JQuery方式操作HTML文档的解析类。可以很方便的得到想要的数据，可惜速度慢。这里不是我们这里讨论的重点，我主要使用正则来匹配我所需要的采集的数据，可以很快速的得到我需要采集的信息。考... 阅读全文

posted @ 2013-04-02 12:08 黑睫毛膏阅读(601) 评论(0) 推荐(0) 编辑

黑睫毛膏

公告