代码改变世界

Task Queue Python API——Google App Engine Services简介

2011-01-31 18:27  onm  阅读(324)  评论(0编辑  收藏  举报

上回说道《Images, Users, URL Fetch Python API》,这回说个人认为比较重要并且好用实用的一个API,Task Queue Python API。

之所以说重要是因为,Google App Engine默认限制了一个请求必须在30s内返回,否则会引发超时异常。那么对于比较繁重的任务往往无能为力,有了Task Queue Python API就可以满足大的任务的需求了。而且它还是从某种角度来说是多线程的,几个Task可以同时运行。它还有一个好处,是可以作为异步机制,当一个用户交互操作需要立即返回时,我们可以使用Task Queue API进行模拟,将真正需要执行的任务放到队列里,稍后执行。例如,在我写的micolog的autoping插件中,就是用了这种方式。

一些概念:

叫做Task Queue Python API,所以肯定会有两个概念Task的概念和Queue的概念。

先说Queue,Queue是代表一些Task的集合,就是一个FIFO队列,先进入队列的先执行。Queue的作用主要是约束Task的执行,每一个应用可以有多个Queue,并且可以设置Queue的并行任务数,重新尝试次数等。

再说Task,Task是代表实际的任务,每一个任务被封装成一个Task,但是Task从某种角度来说其实本身并不是实际的任务执行体,稍后说道的worker进行实际的任务执行。

最后说worker,worker其实并不是一个单独的概念,它是包含在Task中的,Task通过使用HTTP request的方式,对相应的worker进行请求,来达到执行一些任务的效果。使用HTTP request的好处是可以同时进行参数的传递,稍后的例子中会有具体的说明。

使用方法:

下面代码中演示了Task Queue基本方法。通过注释具体说明,就不单独说明了。

queue = taskqueue.Queue('default')	# 获取通过queue.yaml配置的名为default的Queue队列。
queue.add(taskqueue.Task(url='/admin/pingservice/pingworker', 	# 队列中添加Task任务,任务的worker的url为所示url。
		params={'site_domain': site_domain,	# 通过params参数向worker传递任务参数。
		'site_name': site_name,
		'entry_link': entry_link,},
		retry_options=taskqueue.TaskRetryOptions(task_retry_limit=1)))	# 设置人物重试次数为1。

class PingWorkerHandler(webapp.RequestHandler):

    def post(self):	# Task使用post请求处理。
        site_domain = self.request.get('site_domain')	# 获取请求参数。
        site_name = self.request.get('site_name')
        entry_link = self.request.get('entry_link')

对于大的任务,可以通过将任务分解为一个个的小任务,通过队列机制,即使用list的pop()和append()方法进行任务分解。中间结果可以通过memcache进行保存,具体示例就不在这里演示了。

需要注意的地方:

每个请求也就是Task仍然需要满足在30s内返回。

如果Task执行过程中出现异常或者返回http错误,那么Task将会重新执行,这一点如果不加注意很可能导致Task不断重新执行,引发逻辑甚至数据错误,还会造成消耗大量CPU时间。

还有,据我所知,Task Queue Python API是在Google APP Engine SDK 1.4.0版本的时候正是Release的,之前一直处于实验阶段,处于一个叫做lab的包中,官方推荐如果之前使用lab中的Task Queue Python API现在应该更改为正式的API。

还有一些配额的限制,详情参看这里