摘要: 这学期的软件工程课,几个团队合作一个比较大的项目,然后我们团队主要负责爬虫获得的数据的处理,抽取元数据,去重等工作。因为不知道爬虫得到的数据具体是什么样子的,所以我们的工作还要能够对得到的html文档能够做一个解析,我主要负责这一块的工作。 因为html不是一种对语法要求不是特别严格的标记语言,所获得的一个html的文件中可能就会存在各种各样的问题,比如一个标签没有闭合,所以在解析的过程中所面对的情况的复杂度就比较大。通过在网络上查找资料,最终我还是选择了采用开源的HtmlAglityPack来解析html网页。 HtmlAglityPack将html我网页建立成一棵DOM树,然后我们... 阅读全文
posted @ 2012-11-06 19:45 shoumu 阅读(635) 评论(0) 推荐(0) 编辑