2011 年 5月 22 日随笔档案 - 高性能golang

2011年5月22日

摘要：前一篇博文是对当当网图书详情页面进行分析，提取图书的相关信息。现在要解决的问题做一个爬虫把当当网图书详情页面下载下来。一般爬虫的基本思路是这样的：给定一个初始URL，沿着网页间的超链接链一直访问下去。但这里要注意几个问题：避免回路出现死循环。使用队列来存储待访问的URL方法简单，网页访问顺序是固定死的；采用来存储待访问的URL，可以很好地用树的层次结构来表示网页的层次结构，对树的遍历可以采用前根遍历，也可以采用层次遍历。大量的页面都是我们不需要的--不是当当网图书详情页面，如何少做一些无用功。访问页面连接超时时间的设定。如果你网速不好，就设长一点，但是再次提醒你访问的大多数网页都是我们不需要的阅读全文

posted @ 2011-05-22 20:18 高性能golang 阅读(7767) 评论(0) 推荐(1) 编辑

高性能golang

Technologies come and technologies go, but insight is forever.

公告