会员
周边
众包
新闻
博问
闪存
赞助商
所有博客
当前博客
我的博客
我的园子
账号设置
简洁模式
...
退出登录
注册
登录
shenba
闻道有先后,术业有专攻,如是而已。
博客园
首页
新随笔
联系
管理
订阅
2009年4月12日
实现html转Xml
摘要: 最近在做一些网页信息采集的工作,说通俗点就是爬虫工具,要监控页面中某一部分内容是否发生变化。起初考虑用正则表达式去匹配网页源码,经过咨询有经验人士,推荐使用xpath去获取页面内容能获得更好的效率。但是对于html这种宽松语法要求的语言来说,不可能100%地完全符合xml标准,那么就没法使用xpath,说得更直接点就是:不能把html源码直接加载到xmldocument中。为了使用xpath,只能...
阅读全文
posted @ 2009-04-12 10:29 神八
阅读(24639)
评论(5)
推荐(0)
编辑
公告