可爱的 Python: 使用 mechanize 和 Beautiful Soup 轻松收集 Web 数据
可爱的 Python: 使用 mechanize 和 Beautiful Soup 轻松收集 Web 数据
使用 Python 工具简化 Web 站点数据的提取和组织
简介: 需要从 Web 页面收集数据时,可以使用 mechanize 库自动从 Web 站点收集数据并与之交互。通过 Mechanize 您可以填充表单并设置和保存 cookies,此外,Mechanize 提供了各种各样的工具来使 Python 脚本具备真正的 Web 浏览器的功能,可以与交互式 Web 站点进行交互。一款名为 Beautiful Soup 的常用配套工具帮助 Python 程序理解 Web 站点中包含的脏乱“基本是 HTML” 内容。
使用基本的 Python 模块,可以 编写脚本来与 Web 站点交互,但是如果没有必要的话,那么您就不希望这样做。Python 2.x 中的模块 urllib
和 urllib2
,以及 Python 3.0 中的统一的 urllib.*
子包,可以在 URL 的末尾获取资源。然而,当您希望与 Web 页面中找到的内容进行某种比较复杂的交互时,您需要使用 mechanize 库(参见 参考资料 获得下载链接)。
在自动化 Web scrap 或用户与 Web 站点的交互模拟中,最大的困难之一就是服务器使用 cookies 跟踪会话进度。显然,cookies 是 HTTP 头部的一部分,在 urllib
打开资源时会自然显示出来。而且,标准模块 Cookie
(Python 3 中的 http.cookie
)和 cookielib
(Python 3 中的 http.cookiejar
)有助于在比原始的文本处理更高的层次上处理这些头部。即使如此,在这个层次上执行处理也非常的繁琐。mechanize 库将这种处理提升到一个更高程度的抽象并使您的脚本 — 或交互性 Python shell — 表现出非常类似实际 Web 浏览器的行为。
Python 的 mechanize 受到 Perl 的 WWW:Mechanize
的启发,后者具有类似的一组功能。当然,作为长期的 Python 支持者,我认为 mechanize 更健壮,它看上去似乎继承了两种语言的通用模式。
mechanize 的一个亲密伙伴是同样出色的 Beautiful Soup 库(参见 参考资料 获得下载链接)。这是一个非常神奇的 “粗糙的解析器”,用于解析实际 Web 页面中包含的有效 HTML。您不需要 将 Beautiful Soup 用于 mechanize,反之亦然,但是多半情况下,当您与 “实际存在的 Web” 交互时,您将希望同时使用这两种工具。
我曾在多个编程项目中使用过 mechanize。最近一个项目是从一个流行的 Web 站点中收集匹配某种条件的名称的列表。该站点提供了一些搜索工具,但是没有提供任何正式的 API 来执行此类搜索。虽然访问者可能能够更明确地猜出我过去在做什么,但我将修改给出的代码的细节,以避免暴露有关被 scrap 的站点或我的客户机的过多信息。一般情况下,我给出的代码对于类似任务是通用的。
在实际开发 Web scrap/分析代码的过程中,我发现以交互式方式查看、处理和分析 Web 页面的内容以了解相关 Web 页面实际发生的操作是非常重要的功能。通常,站点中的一些页面是由查询动态生成(但是具有一致的模式),或是根据非常严格的模板预先生成。
完成这种交互式体验的一种重要方法就是在 Python shell 内使用 mechanize 本身,特别是在一个增强的 shell 内,比如 IPython(参见 参考资料 获得一个链接)。通过这种方式,您可以在编写执行希望用于生产中的交互的最终脚本之前,请求各种已链接的资源、提交表单、维护或操作站点 cookies,等等。
然而,我发现我与 Web 站点的许多实验性质的交互在实际的现代 Web 浏览器中得到了更好的执行。方便地呈现页面可以使您更加快速地了解给定页面或表单中正在发生的事情。问题在于,呈现页面仅仅完成了事情的一半,可能还不到一半。获得 “页面源代码” 会让您更进一步。要真正理解给定 Web 页面或与 Web 服务器的一系列交互的背后的原理,需要了解更多。
要了解这些内容,我常常使用 Firebug(参见 参考资料 获得链接)或面向 Firefox 的 Web Developer 插件(或最新 Safari 版本中的内置的可选 Develop 菜单,但是所针对的目标人群不同)。所有这些工具都可以执行诸如显示表单字段、显示密码、检查页面的 DOM、查看或运行 Javascript、观察 Ajax 通信等操作。比较这些工具的优劣需要另外撰写一篇文章,但是如果您要进行面向 Web 的编程的话,那么必须熟悉这些工具。
不管使用哪一种工具来对准备实现自动化交互的 Web 站点做实验,您都需要花比编写简洁的 mechanize 代码(用于执行您的任务)更多的时间来了解站点实际发生的行为。
考虑到上面提到的项目的意图,我将把包含 100 行代码的脚本分为两个功能:
- 检索所有感兴趣的结果
- 从被检索的页面中拉取我感兴趣的信息
使用这种方式组织脚本是为了便于开发;当我开始任务时,我需要知道如何完成这两个功能。我觉得我需要的信息位于一个普通的页面集合中,但是我还没有检查这些页面的具体布局。
首先我将检索一组页面并将它们保存到磁盘,然后执行第二个任务,从这些已保存的文件中拉取所需的信息。当然,如果任务涉及使用检索到的信息构成同一会话内的新交互,那么您将需要使用顺序稍微不同的开发步骤。
因此,首先让我们查看我的 fetch()
函数:
清单 1. 获取页面内容
import sys, time, os from mechanize import Browser LOGIN_URL = 'http://www.example.com/login' USERNAME = 'DavidMertz' PASSWORD = 'TheSpanishInquisition' SEARCH_URL = 'http://www.example.com/search?' FIXED_QUERY = 'food=spam&' 'utensil=spork&' 'date=the_future&' VARIABLE_QUERY = ['actor=%s' % actor for actor in ('Graham Chapman', 'John Cleese', 'Terry Gilliam', 'Eric Idle', 'Terry Jones', 'Michael Palin')] def fetch(): result_no = 0 # Number the output files br = Browser() # Create a browser br.open(LOGIN_URL) # Open the login page br.select_form(name="login") # Find the login form br['username'] = USERNAME # Set the form values br['password'] = PASSWORD resp = br.submit() # Submit the form # Automatic redirect sometimes fails, follow manually when needed if 'Redirecting' in br.title(): resp = br.follow_link(text_regex='click here') # Loop through the searches, keeping fixed query parameters for actor in in VARIABLE_QUERY: # I like to watch what's happening in the console print >> sys.stderr, '***', actor # Lets do the actual query now br.open(SEARCH_URL + FIXED_QUERY + actor) # The query actually gives us links to the content pages we like, # but there are some other links on the page that we ignore nice_links = [l for l in br.links() if 'good_path' in l.url and 'credential' in l.url] if not nice_links: # Maybe the relevant results are empty break for link in nice_links: try: response = br.follow_link(link) # More console reporting on title of followed link page print >> sys.stderr, br.title() # Increment output filenames, open and write the file result_no += 1 out = open(result_%04d' % result_no, 'w') print >> out, response.read() out.close() # Nothing ever goes perfectly, ignore if we do not get page except mechanize._response.httperror_seek_wrapper: print >> sys.stderr, "Response error (probably 404)" # Let's not hammer the site too much between fetches time.sleep(1) |
对感兴趣的站点进行交互式研究后,我发现我希望执行的查询含有一些固定的元素和一些变化的元素。我仅仅是将这些元素连接成一个大的 GET
请求并查看 “results” 页面。而结果列表包含了我实际需要的资源的链接。因此,我访问这些链接(当此过程出现某些错误时,会抛出 try
/except
块)并保存在这些内容页面上找到的任何内容。
很简单,是不是?Mechanize 可以做的不止这些,但是这个简单的例子向您展示了 Mechanize 的大致功能。
现在,我们已经完成了对 mechanize 的操作;剩下的工作是理解在 fetch()
循环期间保存的大量 HTML 文件。批量处理特性让我能够在一个不同的程序中将这些文件整齐、明显地分离开来,fetch()
和 process()
可能交互得更密切。Beautiful Soup 使得后期处理比初次获取更加简单。
对于这个批处理任务,我们希望从获取的各种 Web 页面的零散内容中生成表式的以逗号分隔的值(CSV)数据。
清单 2. 使用 Beautiful Soup 从无序的内容中生成整齐的数据
from glob import glob from BeautifulSoup import BeautifulSoup def process(): print "!MOVIE,DIRECTOR,KEY_GRIP,THE_MOOSE" for fname in glob('result_*'): # Put that sloppy HTML into the soup soup = BeautifulSoup(open(fname)) # Try to find the fields we want, but default to unknown values try: movie = soup.findAll('span', {'class':'movie_title'})[1].contents[0] except IndexError: fname = "UNKNOWN" try: director = soup.findAll('div', {'class':'director'})[1].contents[0] except IndexError: lname = "UNKNOWN" try: # Maybe multiple grips listed, key one should be in there grips = soup.findAll('p', {'id':'grip'})[0] grips = " ".join(grips.split()) # Normalize extra spaces except IndexError: title = "UNKNOWN" try: # Hide some stuff in the HTML <meta> tags moose = soup.findAll('meta', {'name':'shibboleth'})[0]['content'] except IndexError: moose = "UNKNOWN" print '"%s","%s","%s","%s"' % (movie, director, grips, moose) |
第一次查看 Beautiful Soup,process()
中的代码令人印象深刻。读者应当阅读有关文档来获得关于这个模块的更多细节,但是这个代码片段很好地体现了它的整体风格。大多数 soup 代码包含一些对只含有格式良好的 HTML 的页面的 .findAll()
调用。这里是一些类似 DOM 的 .parent
、nextSibling
和 previousSibling
属性。它们类似于 Web 浏览器的 “quirks” 模式。我们在 soup 中找到的内容并不完全 是一个解析树。
诸如我之类的守旧者,甚至于一些更年轻的读者,都会记住使用 TCL Expect(或使用用 Python 和其他许多语言编写的类似内容)编写脚本带来的愉悦。自动化与 shell 的交互,包括 telnet、ftp、ssh 等等远程 shell,变得非常的直观,因为会话中的所有内容都被显示出来。Web 交互变得更加细致,因为信息被分为头部和内容体,并且各种相关的资源常常通过 href
链接、框架、Ajax 等被绑定在一起。然而,总的来说,您可以 使用 wget
之类的工具来检索 Web 服务器提供的所有字节,然后像使用其他连接协议一样运行与 Expect 风格完全相同的脚本。
在实践中,几乎没有编程人员过分执着于过去的老方法,比如我建议的 wget
+ Expect 方法。Mechanize 保留了许多与出色的 Expect 脚本相同的东西,令人感觉熟悉和亲切,并且和 Expect 一样易于编写(如果不是更简单的话)。Browser()
对象命令,比如 .select_form()
、.submit()
和 .follow_link()
,真的是实现 “查找并发送” 操作的最简单、最明显的方法,同时绑定了我们希望在 Web 自动化框架中具备的复杂状态和会话处理的所有优点。