摘要: http://www.cnblogs.com/pick/架构篇 阅读全文
posted @ 2012-07-17 11:48 庸蛹 阅读(161) 评论(0) 推荐(0) 编辑
摘要: 吸取上次代码过多的教训,这次主要讲设计。org.htmlparser.lexer 包,是主要的进行html解析的包。Page类可以根绝传入的urlConnection,text,stream等类型,构造相应的Page对象,Page对象中比较关键的是Source,url,PageIndex对象,他们的用途是:Source相当于一个Reader,但是与Reader不同的地方是,Source应当是线程同步的,字符可以改变,而且有可能多次请求。这边主要是要对解析的内容进行记录,记录位置等信息。Source是抽象类,具体的实现是StringSource和InputStreamSource。而inputS 阅读全文
posted @ 2012-07-17 11:15 庸蛹 阅读(1532) 评论(0) 推荐(0) 编辑