随笔档案「2012年6月19日」：1抓取网页 ... - 94julia

2012年6月19日

摘要：网络爬虫的基本操作是抓取网页。那么如何才能随心所欲地获得自己想要的页面？这一节将从URL开始讲起，然后告诉大家如何抓取网页，并给出一个使用Java语言抓取网页的例子。最后，要讲一讲抓取过程中的一个重要问题：如何处理HTTP状态码。1.1.1 深入理解URL 抓取网页的过程其实和读者平时使用IE浏览器浏览网页的道理是一样的。比如，你打开一个浏览器，输入猎兔搜索网站的地址，如图1.1所示。图1.1 使用浏览器浏览网页 “打开”网页的过程其实就是浏览器作为一个浏览的“客户端”，向服务器端发送了一次请求，把服务器端的文件“抓”到本地，再进... 阅读全文

posted @ 2012-06-19 19:27 94julia 阅读(1244) 评论(0) 推荐(1)

94julia

公告