摘要: 前一篇博文是对当当网图书详情页面进行分析,提取图书的相关信息。现在要解决的问题做一个爬虫把当当网图书详情页面下载下来。一般爬虫的基本思路是这样的:给定一个初始URL,沿着网页间的超链接链一直访问下去。但这里要注意几个问题:避免回路出现死循环。使用队列来存储待访问的URL方法简单,网页访问顺序是固定死的;采用来存储待访问的URL,可以很好地用树的层次结构来表示网页的层次结构,对树的遍历可以采用前根遍历,也可以采用层次遍历。大量的页面都是我们不需要的--不是当当网图书详情页面,如何少做一些无用功。访问页面连接超时时间的设定。如果你网速不好,就设长一点,但是再次提醒你访问的大多数网页都是我们不需要的 阅读全文
posted @ 2011-05-22 20:18 高性能golang 阅读(7767) 评论(0) 推荐(1) 编辑