网页抓取 - 随笔分类 - 猿人谷

Java网络爬虫的实现

摘要：记得在刚找工作时，隔壁的一位同学在面试时豪言壮语曾实现过网络爬虫，当时的景仰之情犹如滔滔江水连绵不绝。后来，在做图片搜索时，需要大量的测试图片，因此萌生了从Amazon中爬取图书封面图片的想法，从网上也吸取了一些前人的经验，实现了一个简单但足够用的爬虫系统。网络爬虫是一个自动提取网页的程序，它为搜索引擎从万维网上下载网页，是搜索引擎的重要组成，其基本架构如下图所示：传统爬虫从一个或若干初始网页的URL开始，获得初始网页上的URL，在抓取网页的过程中，不断从当前页面上抽取新的URL放入队列，直到满足系统的一定停止条件。对于垂直搜索来说，聚焦爬虫，即有针对性地爬取特定主题网页的爬虫，更为适合。本阅读全文

posted @ 2013-04-01 16:27 猿人谷阅读(710) 评论(0) 推荐(0) 编辑

（转载）Python写爬虫--抓取网页并解析HTML

摘要：CUHK上学期有门课叫做Semantic Web，课程project是要搜集整个系里面的教授信息，输入到一个系统里，能够完成诸如“如果选了A教授的课，因时间冲突，B教授的哪些课不能选”、 “和A教授实验室相邻的实验室都是哪些教授的”这一类的查询。这就是所谓的“语义网”了啊。。。然而最坑爹的是，所有这些信息，老师并没有给一个文档或者数据库，全要靠自己去系主页上搜集。唯一的想法是写个爬虫，令人悲哀的是，所有做这个project的同学，都是纯人肉手工完成，看得我只想扶墙。。。从网页中抓取特定信息，我觉得这是一个普遍性的问题，以后经常会遇到。幸亏那个project只是需要我们系的所有教授的信息，大家阅读全文

posted @ 2013-03-06 10:48 猿人谷阅读(495) 评论(0) 推荐(0) 编辑

（转载）利用webkit抓取动态网页和链接

摘要：做爬虫的时候最头疼的就是遇到一些动态加载的页面或者是一些动态生成的链接。比如我们的博客园就是个例子：凤凰网的评论链接也是一样：今天我们就用Webkit来解决这个问题。预备知识可以看一下我前面几篇文章，准备工作参照利用InjectedBundle定制自己的Webkit（二）中的客户端程序。一切就绪之后我们开始！首先介绍一些重要的函数和回调在创建一个Page之后我们可以设置一些回调函数，其中有一个是：WKPageLoaderClient::didFinishDocumentLoadForFrame原型是：typedef void (*WKPageDidFinishLoadForFrameCallb 阅读全文

posted @ 2013-03-04 20:45 猿人谷阅读(806) 评论(0) 推荐(0) 编辑

网页抓取

摘要：之前做聊天室时，由于在聊天室中提供了新闻阅读的功能，写了一个从网页中抓取信息（如最新的头条新闻，新闻的来源，标题，内容等）的类，本文将介绍如何使用这个类来抓取网页中需要的信息。本文将以抓取博客园首页的博客标题和链接为例：上图显示的是博客园首页的DOM树，显然只需提取出class为post_item的div，再重中提取出class为titlelnk的a标志即可。这样的功能可以通过以下函数来实现：/// /// 在文本html的文本查找标志名为tagName,并且属性attrName的值为attrValue的所有标志/// 例如：FindTagByAttr(html, "div" 阅读全文

posted @ 2013-03-04 20:41 猿人谷阅读(1085) 评论(0) 推荐(0) 编辑

相对路径和绝对路径的区别

摘要：以后慢慢启用个人博客：http://yuanrengu.com/ 在HTML里只要涉及文件的地方(如超级链接、图片等)就会涉及绝对路径与相对路径的概念。 1.绝对路径绝对路径是指文件在硬盘上真正存在的路径。例如“bg.jpg”这个图片是存放在硬盘的“E:\book\网页布局代码\第2章”目录下，那阅读全文

posted @ 2013-03-01 16:26 猿人谷阅读(124257) 评论(1) 推荐(28) 编辑

HTML中的相对路径与绝对路径

摘要：HTML初学者会经常遇到这样一个问题，如何正确引用一个文件。比如，怎样在一个HTML网页中引用另外一个HTML网页作为超链接(hyperlink)？怎样在一个网页中插入一张图片？......(相关教程：HTML超链接；HTML图片)如果你在引用文件时(如加入超链接，或者插入图片等)，使用了错误的文件路径，就会导致引用失效(无法浏览链接文件，或无法显示插入的图片等)。为了避免这些错误，正确地引用文件，我们需要学习一下HTML路径。HTML有2种路径的写法：相对路径和绝对路径。HTML相对路径(Relative Path)同一个目录的文件引用如果源文件和引用文件在同一个目录里，直接写引用文件名即可阅读全文

posted @ 2013-03-01 16:14 猿人谷阅读(6156) 评论(0) 推荐(5) 编辑

Python抓取中文网页

摘要：早就有想法把博客每天的访问流量记下来，刚好现在申请了GAE的应用，又开始学Python，正好拿这个练手。打算先利用Python把访问记录保存在本地，熟悉之后可以部署到GAE，利用GAE提供的cron就可以每天更近访问流量了。OK，开始~ 首先是简单的网页抓取程序： [python] view plaincopy import sys， urllib2 req = urllib2.Request（"http://blog.csdn.net/nevasun"） fd = urllib2.urlopen（req） while True：data = fd.read（1024） i 阅读全文

posted @ 2013-01-04 19:30 猿人谷阅读(364) 评论(0) 推荐(0) 编辑

随笔分类 - 网页抓取