摘要: 用第一篇的get_html()实现简单的数据采集,由于是一个一个执行才采集数据的传输时间就会是所有页面下载的总时长,一个页面假设1秒,那么10个页面就是10秒了。所幸curl还提供了并行处理的功能。要写一个并行采集的函数,先要了解要采集什么样的页面,对采集的页面用什么请求,才能写出一个相对常用的函数。功能需求分析:返回什么?当然每一个页面的html集合成的数组传递什么参数?编写get_html()时,我们知道了可以用options数组来传递更多的curl参数,那么多页面同时采集函数的编写这种特性也得保留下来。什么类型的参数?无论是请求网页HTML,还是调用互联网api接口,get和post传递 阅读全文
posted @ 2013-03-22 17:23 黑睫毛膏 阅读(757) 评论(0) 推荐(2) 编辑