君子博学而日参省乎己 则知明而行无过矣

博客园 首页 新随笔 联系 订阅 管理

2013年3月8日 #

摘要: 上文分析了具体的解析类HtmlParser对网页文档的解析实现源码,了解到了Apache Tika的编码识别的处理方式。(HtmlParser对网页文件的解析其实并没有用到ParseContext上下文类的SAXParser对象,而是用到了另外一个TagSoup组件)本文继续分析Tika对xml格式... 阅读全文
posted @ 2013-03-08 02:38 刺猬的温驯 阅读(982) 评论(0) 推荐(1) 编辑