摘要: 一般让爬虫在一个进程内多线程并发,有几种方法。 阅读全文
posted @ 2010-05-18 16:12 老兵笔记 阅读(8044) 评论(1) 推荐(2) 编辑
摘要: 设置 HTTP 或 Socket 访问超时,来防止爬虫抓取某个页面时间过长。 阅读全文
posted @ 2010-05-18 16:07 老兵笔记 阅读(12055) 评论(0) 推荐(1) 编辑
摘要: 我们需要确定网页的内容/标题等文字的编码格式,比如 utf-8 、gb2312 等。 阅读全文
posted @ 2010-05-18 15:57 老兵笔记 阅读(3523) 评论(1) 推荐(1) 编辑
只有注册用户登录后才能阅读该文。 阅读全文
posted @ 2010-05-18 14:48 老兵笔记 阅读(4153) 评论(4) 推荐(3) 编辑