摘要: 做网站的朋友们不免都会涉及到要从其他网站抓取一些信息。 1. 常用的办法是用正则表达式来获取 优点:比较精准,一蹴而就,不会遗漏你需要的内容 缺点:全中国这么多网页,如果写正则表达式要写到发疯! 如果目标网页一旦改版就要重新写正则表达式,人工排查工作太大。 2. 我们要讨论的是是否能自动分析网页正文 (标题在下一章节讲) 有两个思路 第一是:关键字匹配法(本次主要讲述此方法,仅思路,因商业原因不提供源代码) 第二个是:文本区域获取法 阅读全文
posted @ 2011-07-04 17:23 沈逸 阅读(2233) 评论(4) 推荐(2) 编辑