Task Queue Python API——Google App Engine Services简介
2011-01-31 18:27 onm 阅读(324) 评论(0) 编辑 收藏 举报上回说道《Images, Users, URL Fetch Python API》,这回说个人认为比较重要并且好用实用的一个API,Task Queue Python API。
之所以说重要是因为,Google App Engine默认限制了一个请求必须在30s内返回,否则会引发超时异常。那么对于比较繁重的任务往往无能为力,有了Task Queue Python API就可以满足大的任务的需求了。而且它还是从某种角度来说是多线程的,几个Task可以同时运行。它还有一个好处,是可以作为异步机制,当一个用户交互操作需要立即返回时,我们可以使用Task Queue API进行模拟,将真正需要执行的任务放到队列里,稍后执行。例如,在我写的micolog的autoping插件中,就是用了这种方式。
一些概念:
叫做Task Queue Python API,所以肯定会有两个概念Task的概念和Queue的概念。
先说Queue,Queue是代表一些Task的集合,就是一个FIFO队列,先进入队列的先执行。Queue的作用主要是约束Task的执行,每一个应用可以有多个Queue,并且可以设置Queue的并行任务数,重新尝试次数等。
再说Task,Task是代表实际的任务,每一个任务被封装成一个Task,但是Task从某种角度来说其实本身并不是实际的任务执行体,稍后说道的worker进行实际的任务执行。
最后说worker,worker其实并不是一个单独的概念,它是包含在Task中的,Task通过使用HTTP request的方式,对相应的worker进行请求,来达到执行一些任务的效果。使用HTTP request的好处是可以同时进行参数的传递,稍后的例子中会有具体的说明。
使用方法:
下面代码中演示了Task Queue基本方法。通过注释具体说明,就不单独说明了。
queue = taskqueue.Queue('default') # 获取通过queue.yaml配置的名为default的Queue队列。 queue.add(taskqueue.Task(url='/admin/pingservice/pingworker', # 队列中添加Task任务,任务的worker的url为所示url。 params={'site_domain': site_domain, # 通过params参数向worker传递任务参数。 'site_name': site_name, 'entry_link': entry_link,}, retry_options=taskqueue.TaskRetryOptions(task_retry_limit=1))) # 设置人物重试次数为1。 class PingWorkerHandler(webapp.RequestHandler): def post(self): # Task使用post请求处理。 site_domain = self.request.get('site_domain') # 获取请求参数。 site_name = self.request.get('site_name') entry_link = self.request.get('entry_link')
对于大的任务,可以通过将任务分解为一个个的小任务,通过队列机制,即使用list的pop()和append()方法进行任务分解。中间结果可以通过memcache进行保存,具体示例就不在这里演示了。
需要注意的地方:
每个请求也就是Task仍然需要满足在30s内返回。
如果Task执行过程中出现异常或者返回http错误,那么Task将会重新执行,这一点如果不加注意很可能导致Task不断重新执行,引发逻辑甚至数据错误,还会造成消耗大量CPU时间。
还有,据我所知,Task Queue Python API是在Google APP Engine SDK 1.4.0版本的时候正是Release的,之前一直处于实验阶段,处于一个叫做lab的包中,官方推荐如果之前使用lab中的Task Queue Python API现在应该更改为正式的API。
还有一些配额的限制,详情参看这里。