2009 年 4月 12 日随笔档案 - 神八

2009年4月12日

摘要：最近在做一些网页信息采集的工作，说通俗点就是爬虫工具，要监控页面中某一部分内容是否发生变化。起初考虑用正则表达式去匹配网页源码，经过咨询有经验人士，推荐使用xpath去获取页面内容能获得更好的效率。但是对于html这种宽松语法要求的语言来说，不可能100%地完全符合xml标准，那么就没法使用xpath，说得更直接点就是：不能把html源码直接加载到xmldocument中。为了使用xpath，只能... 阅读全文

posted @ 2009-04-12 10:29 神八阅读(24639) 评论(5) 推荐(0) 编辑

shenba

闻道有先后，术业有专攻，如是而已。

公告