摘要: 1、测试代码import java.io.File; import java.io.IOException; import org.jsoup.Jsoup; import org.jsoup.nodes.Document; import org.jsoup.select.Elements; public class Test { public static void main(String[] args) { Test t = new Test(); t.parseUrl(); } public void parseUrl()... 阅读全文
posted @ 2013-05-21 17:42 licomeback 阅读(1167) 评论(0) 推荐(0) 编辑
摘要: jsoup 简介Java 程序在解析 HTML 文档时,相信大家都接触过 htmlparser 这个开源项目,我曾经在 IBM DW 上发表过两篇关于 htmlparser 的文章,分别是:从 HTML 中攫取你所需的信息和扩展 HTMLParser 对自定义标签的处理能力。但现在我已经不再使用 htmlparser 了,原因是 htmlparser 很少更新,但最重要的是有了 jsoup 。jsoup 是一款 Java 的 HTML 解析器,可直接解析某个 URL 地址、HTML 文本内容。它提供了一套非常省力的 API,可通过 DOM,CSS 以及类似于 jQuery 的操作方法来取出和操 阅读全文
posted @ 2013-05-21 17:31 licomeback 阅读(273) 评论(0) 推荐(0) 编辑
摘要: 这两天准备做一些网站编程的工作,于是对HtmlParse小研究了一下,目的是快速入手,而不是深入研究,做了一下整理,和大家共同讨论一下。一,数据组织分析:HtmlParser主要靠Node、AbstractNode和Tag来表达Html,因为Remark和Text相对简单,此处就将其忽略了。Node是形成树结构表示HTML的基础,所有的数据表示都是接口Node的实现,Node定义了与页面树结构所表达的页面Page对象,定义了获取父、子、兄弟节点的方法,定义了节点到对应html文本的方法,定义了该节点对应的起止位置,定义了过滤方法,定义了Visitor访问机制。AbstractNode是Node 阅读全文
posted @ 2013-05-21 17:10 licomeback 阅读(134) 评论(0) 推荐(0) 编辑
摘要: import java.net.*;import java.io.*;import org.htmlparser.NodeFilter;import org.htmlparser.Parser;import org.htmlparser.filters.TagNameFilter;import org.htmlparser.tags.TableColumn;import org.htmlparser.tags.TableRow;import org.htmlparser.tags.TableTag;import org.htmlparser.util.NodeList;public class 阅读全文
posted @ 2013-05-21 16:53 licomeback 阅读(838) 评论(0) 推荐(0) 编辑
摘要: HTMLParser具有小巧,快速的优点,缺点是相关文档比较少(英文的也少),很多功能需要自己摸索。对于初学者还是要费一些功夫的,而一旦上手以后,会发现HTMLParser的结构设计很巧妙,非常实用,基本你的各种需求都可以满足。这里我根据自己这几个月来的经验,写了一点入门的东西,希望能对新学习HTMLParser的朋友们有所帮助。(不过当年高考本人语文只比及格高一分,所以文法方面的问题还希望大家多多担待)HTMLParser的核心模块是org.htmlparser.Parser类,这个类实际完成了对于HTML页面的分析工作。这个类有下面几个构造函数: public Parser (); pub 阅读全文
posted @ 2013-05-21 16:24 licomeback 阅读(165) 评论(0) 推荐(0) 编辑
摘要: htmlparser1.6提取tr似乎有些问题,直接用css selector提取的tr冗余,tr里面还有tr。所以这里多做了些处理。请看代码。 public static Map<String,String> parseList(String url) { Map<String,String> rlt=new LinkedHashMap<String,String>(); NodeFilter filter=new CssSelectorNodeFilter (".className tr"); filter = new AndFilt 阅读全文
posted @ 2013-05-21 16:16 licomeback 阅读(712) 评论(0) 推荐(0) 编辑
摘要: 由于asp.net的版本不正确,或者vs.net先于iis之前安装配置,都会发生各种各样的问题,比如下面的错误就是一例: ======================================无法显示 XML 页。 使用 XSL 样式表无法查看 XML 输入。请更正错误然后单击 刷新按钮,或以后重试。 --------------------------------------------------------------------------------名称以无效字符开头。处理资源 'http://localhost/' 时出错。第 1 行,位置: 2 <%@ 阅读全文
posted @ 2013-05-21 10:07 licomeback 阅读(231) 评论(0) 推荐(0) 编辑