摘要: pic.hao123.com的图片看起来貌似很不错, 想把它做到Android手机上展示。首先要考虑的问题如果采集这些图片信息(如链接、名称、介绍等)并存储到自己的服务器。有一个简单的方法就是使用浏览器插件的方式,定向爬取这个网站上的网页,并分析html元素,提取所需要的信息,并生成json数据,发送到自己的服务器,由服务器存入数据库。 简单的定向爬取可以把所有链接入栈并标记是否已经访问过,并对每个链接进行分析,一些不符合规则的链接或者已经访问过的链接可以直接跳过。 使用什么样的规则来分析网页并提取元素呢? 一是使用正则表达式,这个玩意很强大,不过编写起来有点麻烦,特别是用来分析元素时,得对. 阅读全文
posted @ 2013-02-06 15:37 黄耀 阅读(779) 评论(0) 推荐(0) 编辑