君子博学而日参省乎己 则知明而行无过矣

博客园 首页 新随笔 联系 订阅 管理

2013年5月16日 #

该文被密码保护。 阅读全文
posted @ 2013-05-16 05:58 刺猬的温驯 阅读(27) 评论(0) 推荐(0) 编辑

摘要: 参考了iteye上的一篇文章http://yshjava.iteye.com/blog/1528208,本人还原了该文章的源码,还请那位博主原谅精确抽取web网页内容一直是做数据抽取开发比较头痛的问题,目前国内外也有很多研究成果,尚待进一步发掘并应用于实际项目中下面是转载部分:应该说,在WEB分块领域,已经有大量的研究工作。由于HTML语法的灵活性,目前大部分的网页都没有完全遵循W3C规范,这样可能会导致DOM树结果的错误。更重要的是,DOM树最早引入是为了在浏览器中进行布局显示,而不是进行WEB页面的语义结构描述。某些文献中提到,根据标签把网页分成若干内容块,这些分块方法流程简单,但面对日益 阅读全文
posted @ 2013-05-16 02:52 刺猬的温驯 阅读(1116) 评论(3) 推荐(0) 编辑