video上传架构设计与实现
项目需要做一个关于视频上传的功能。整体的流程就是用户通过页面上传视频,然后后台记录上传信息,转码,播放。其实就是和youku,tudou等ugc视频的功能类似的。
可能存在的瓶颈及解决方法:
1.上传的网络瓶颈。(横向扩展,通过添加nginx即可)
2.后台处理的瓶颈,涉及到截图,调整文件位置等后续操作。返回给前端的消息及时性。(延时消息异步,先给前端返回,再进行后续的操作)
3.高并发。
系统架构:
lvs
nginx nginx nginx nginx
web_server(tornado) web_server(tornado) web_server(tornado) web_server(tornado)
转码系统
架构如上图很简单,lvs后面挂的nginx。
使用nginx的upload module来进行上传功能。
nginx upstream到后端的server。
关于nginx配置如下:
location /video/ {
upload_pass @after_upload;
upload_store /data1/video_temp;
#upload_store_access user:rw;
upload_set_form_field $upload_field_name.name "$upload_file_name";
upload_set_form_field $upload_field_name.content_type "$upload_content_type";
upload_set_form_field $upload_field_name.path "$upload_tmp_path";
#Inform backend about hash and size of a file
upload_aggregate_form_field $upload_field_name.md5 "$upload_file_md5";
upload_aggregate_form_field $upload_field_name.size "$upload_file_size";
upload_pass_form_field "^.*(?!Filedata)$";
#upload_pass_form_field "^.*$";
error_page 405 =200 @after_upload;
#upload_cleanup 400 404 499 500-505;
}
location @after_upload {
proxy_pass http://videoupload_backend;
}
2.后端实现使用tornado,一个异步的非阻塞python webframe。
主ti的流程如下:
1 class Transcode(tornado.web.RequestHandler): 2 @tornado.web.asynchronous 3 def post(self): 4 #tempfile = self.get_argument("Filedata.size") 5 #print "filedata.size is %s" %tempfile 6 #getParameter = self.request.arguments 7 #print "File data size is %s" %getParameter['Filedata.size'][0] 8 #for (k,v) in getParameter.items(): 9 # print "dict[%s]=%s" %(k,v) 10 #filename = getParameter['Filedata.name'] 11 try: 12 logging.info('Begin ###############Get the Post info') 13 param = { 14 'watermark':self.get_argument('watermark',default=''), 15 'ugc':self.get_argument('ugc',default=''), 16 'Filedata.path':self.get_argument('Filedata.path',default=''), 17 'Filedata.name':self.get_argument('Filedata.name',default=''), 18 'Filedata.content_type':self.get_argument('Filedata.content_type',default=''), 19 'Filedata.md5':self.get_argument('Filedata.md5',default=''), 20 'Filedata.size':self.get_argument('Filedata.size',default=''), 21 'enctype':self.get_argument('enctype',default=''), 22 } 23 except Exception, e: 24 logging.error("Error happens: %s" % str(e)) 25 self.finish() 26 return 27 28 #pmovefile.doMoveFile(param['Filedata.path'],param,DEST_PATH,callback=self._on_success) 29 30 movDesPath = pmovefile.doMoveFile(param['Filedata.path'],param,DEST_PATH) 31 32 self.HandleSnapShotJPG(param,movDesPath,SNAPSHOT_PATH,succ_callback=self.my_on_sucess,fail_callback=self.my_on_fail) 33
其中异步的操作都是放在返回给前端之前做的。代码太多,就不放上来了。
3.遇到的问题:上传的视频同步的问题。由于前端机器的负载分流,存在截图同步的问题。看youku的做法是直接暴露的ip在外面,应该是用随机用lvs后面的一个ip来进行上传。我们这里还是选择了个域名的方式,然后在后台的nginx之间做了同步。
对rsync的同步效率问题:大视频同步非常慢,是由于比对数据差异引起的,小的数据量很快。由于知道截图的图片地址,自己定义,故使用rsync增量同步的方式。