摘要: 在做数据采集时经常要使用到curl+正则的方式采集需要的数据根据自己的工作经验把自己写的一些常用自定义函数拿到博客园来分享如果有写得不恰当的地方请多多指教这是一个系列没办法在一两天写完所以一篇一篇的发布大致大纲:1.curl数据采集系列之单页面采集函数get_html2.curl数据采集系列之多页面并行采集函数get_htmls3.curl数据采集系列之正则处理函数get_matches4.curl数据采集系列之代码分离5.curl数据采集系列之并行逻辑控制函数web_spider、、、单页面采集在数据采集过程中是最常用的一个功能有时在服务器访问限制的情况下只能使用这种采集方式慢但是可以简单的 阅读全文
posted @ 2013-03-21 18:49 黑睫毛膏 阅读(744) 评论(0) 推荐(1) 编辑