2.4 通用的网页信息结构化信息提取的方法

我们在抓网页的时候，希望获得的是网页中的有效信息。事实上，直接抓取下来的内容是网页全部的HTML代码，代码中有很多标签、格式控制等等无效的信息。这一节我们就来讲解对于任意一个网页，我们怎么提取出网页中的有效信息，并且结构化存储。

这个工程使用起来很简单，把要提取的链接放到pool.txt里，然后运行main.py，就可以把pool.txt里的页面都抓取下来并且结构化存储。结果存在output文件夹里。

每个网页都保存了链接、标题、文本、图片链接、链接到的网页。效果如下：

下面来讲解一下原理，实际上很简单，使用的是beautifulsoup包。

beautifulsoup是Python的一个拓展库，可以非常方便的实现HTML网页的分析。下面是它的官方文档网址，里面讲的非常清楚：

实现起来特别容易，核心代码只有几行，就可以很容易的提取出想要的东西：

想要更多地了解和使用beautifulsoup，建议学习官方文档~

posted @ 2017-05-09 18:05 lvmememe 阅读(1383) 评论(0) 编辑收藏举报

刷新页面返回顶部

lvmememe