摘要:
做网站的朋友们不免都会涉及到要从其他网站抓取一些信息。
1. 常用的办法是用正则表达式来获取
优点:比较精准,一蹴而就,不会遗漏你需要的内容
缺点:全中国这么多网页,如果写正则表达式要写到发疯! 如果目标网页一旦改版就要重新写正则表达式,人工排查工作太大。
2. 我们要讨论的是是否能自动分析网页正文 (标题在下一章节讲)
有两个思路 第一是:关键字匹配法(本次主要讲述此方法,仅思路,因商业原因不提供源代码) 第二个是:文本区域获取法 阅读全文