摘要: 利用爬虫技术获取网页源代码后,针对网页抽取出它的特定文本内容,利用正则表达式和抽取工具,能够更好地抽取这些内容。 下面介绍一种抽取工具 -- HtmlParser HtmlParser是一个用来解析HTML文件的java包,主要用于转换、抽取两个方面。 利用HtmlParser可以实现下面内容的抽取 阅读全文
posted @ 2013-12-11 14:31 lmei 阅读(1391) 评论(2) 推荐(1) 编辑
摘要: 网络爬虫的基本操作是抓取网页。首先要了解下URL~~ 在理解URL之前,先了解下URI,这两个概念我曾经混淆过~@_@|| 什么是URI? Web上每种可用的资源,如:html文档、视频,图片等都由一个通用的资源标志符(Universal Resources Identifier,即URI)进行定位 阅读全文
posted @ 2013-12-11 13:54 lmei 阅读(1414) 评论(0) 推荐(0) 编辑