摘要: 一,htmpparser介绍 htmlparser是一个功能比较强大的网页解析工具,主要用于 html 网页的转换(Transformation) 以及网页内容的抽取 (Extraction)。二,使用与示例 1,提取网页某类型标签.这里,html的标签对应于一个标签类,如标签对应于ImageTag.下面以提取标签为例,输出网页图片地址: //读取文件内容 String html = IOUtils.toString(new FileInputStream(localFile), "UTF-8"); //创建html解析器 ... 阅读全文
posted @ 2013-10-11 15:13 剑志 阅读(1025) 评论(0) 推荐(0) 编辑
摘要: 一、HttpClient介绍 虽然在 JDK 的 java.net 包中已经提供了访问 HTTP 协议的基本功能,但是它没有提供足够的灵活性和其他应用程序需要的功能。HttpClient 是 Apache Jakarta Common 下的子项目,用来提供高效的、最新的、功能丰富的支持 HTTP 协议的客户端编程工具包,并且它支持 HTTP 协议最新的版本和建议。二、使用范例(以下版本4.3) 1,通过get方式,请求网页内容。我们首先创建httpclient对象,然后通过httpclient来执行http get方法,httpresponse获得服务端响应的所有内容,httpentity.. 阅读全文
posted @ 2013-10-11 09:49 剑志 阅读(3116) 评论(1) 推荐(1) 编辑