2.4 通用的网页信息结构化信息提取的方法

  我们在抓网页的时候,希望获得的是网页中的有效信息。事实上,直接抓取下来的内容是网页全部的HTML代码,代码中有很多标签、格式控制等等无效的信息。这一节我们就来讲解对于任意一个网页,我们怎么提取出网页中的有效信息,并且结构化存储。

  先亮代码:https://github.com/1049451037/universal_webpage_extraction

  这个工程使用起来很简单,把要提取的链接放到pool.txt里,然后运行main.py,就可以把pool.txt里的页面都抓取下来并且结构化存储。结果存在output文件夹里。

  每个网页都保存了链接、标题、文本、图片链接、链接到的网页。效果如下:

  

  下面来讲解一下原理,实际上很简单,使用的是beautifulsoup包。

  beautifulsoup是Python的一个拓展库,可以非常方便的实现HTML网页的分析。下面是它的官方文档网址,里面讲的非常清楚:

  https://www.crummy.com/software/BeautifulSoup/bs4/doc.zh/

  实现起来特别容易,核心代码只有几行,就可以很容易的提取出想要的东西:

  

  想要更多地了解和使用beautifulsoup,建议学习官方文档~

 

posted @ 2017-05-09 18:05  lvmememe  阅读(1383)  评论(0编辑  收藏  举报