Bottle + WebUploader 修改Bottle框架从而大文件上传实现方案
Bottle 是个轻量级的Web框架,小巧又强大,真不愧是个轻量级的框架。可扩展性非常好,可以扩展很多功能,但是有些功能就不得不自己动手修改了。
Bottle:http://www.bottlepy.org/docs/dev/tutorial.html
BaiduWebUpLoader 则是一个我认为非常不错的大文件上传库,兼容IE6,Flash和HTML5两套自动选择方案。详情请阅读他们的项目文档。
BaiduWebUpLoader:https://github.com/fex-team/webuploader
BaiduWebUpLoader 可以将大文件拆成 N 个小POST请求分段传输,传输过程中有这些值:
我们将关键用到 chunk 值。当然了我建议你如果没读过webloader 的文档还是去读读。里面有详细的介绍,在这里不在阐述。
所以我们需要将 Bottle 框架修改成,每次的POST大文件分段的时候自动合并成一个文件,但是也不能影响单/多小文件上传。
现在我们来动手吧,对Bottle进行小小的修改。
首先阅读Bottle 官方文档可以看到很简单的文件上传,相信这对于你而言并不难。
文件最后保存的时候是用 upload.save() 函数来进行保存的,记住这个函数,我们要去修改它的源代码。
我们使用 request.files.gupet('upload_file') 既可以得到一个 FormsDict 对象,FormsDict对象是一群 对象的集合, 因为你一次上传并不可能只有一个文件,所以是有个集合的。
如同:
我们跟进 FileUpload 类,去看看他的定义。
这张图只需明白。self.file 值是外界赋值的,这里我们不管。
再看下张图,你会发现一个可喜之处。save函数就在这里,我们只需要进行更改就好了。
这里是 save 函数的实现。注释也说了各个参数的用法。
参数: 目的地 是否覆盖 缓冲区大小
接下来我们就需要更改这个 raise IOError('File exists.') ,因为只有这样,我们才可以对已有的文件进行追加写入,让多个POST请求变成一个文件。
保证下次文件存储的时候是可以合并在一起的,而不是覆盖。
但是发现并没有 POST数据,不能直接在这里写 with open(path,'ab') as fp,我们得看看它是如何实现的;
于是我们看看下面的 _copy_file 方法
看见这个函数,瞬间高兴了,这不 IO 流都在这里了嘛。这个函数将会每次从 POST 请求中读一段文件数据到缓冲区,然后再写到目标流。
看起来这个我是可以直接利用的,只需要加一个 追加,不重写就可以,因为这里的write 是open 返回的文件指针,是通用的。
于是我们修改成如下:
我们创建一个 ab 模式的文件指针。然后利用现有的 _copy_file 函数就好了!
注意我加了个参数,section_upload,当为True时代表追加写入文件模式。
这样我们就实现了几次文件POST包都可以合并(追加)成一个文件了。
但是还不止这样就结束了,还记得最开始的POST里面的 chunk 值吗?当它等于0的时候,就是代表一个新的文件,所以我们这样就可以避免重复追加。
如果不加这个判断,就会造成,以后上传只要文件名一样,就会追加到现有的文件,所以我们不能这样。
有些地方是业务逻辑,你看着变量名理解就好了。
overwrite 是是否覆盖,section_upload是我自定义的参数,表示追加模式。两者不可同时为True
这样,就可以实现 结合webloader就可以实现大文件上传,而又也不用担心小文件会出错。
不过你再使用之后,会发现一个奇异现象,就是任何上传中文名字的文件,中文名都会过滤掉。
原先我以为是编码问题,后来再去翻翻源码发现Bottle内部上传文件名自己进行了过滤,所以如果你不需要这个功能的话,还得去掉。
如果你不需要这个功能,你还得自己去掉这些代码。无视我那个注释。
不过你就要自己提供文件名过滤了,对了,POST请求中 你也可以用name的值。。
上传测试:
我们上传这些文件,我相信足够证明大文件可靠性。
这是我的 uploader 配置:
这里更正一下,最大并发数可以不为1,修改后的依然支持多并发,因为我们加了 chunk 的判断。从而兼容。
但是我还是建议为1,因为会出现一些意想不到的事情,在真实的网络中。
上传结果:
全部上传成功,并且没有一个文件损坏。
不过我忘记加小文件和其他格式文件了,我后来都测试过,全部正常。
单(多)小文件 Webloader 不会分段,而是直接POST,这个我们修改之后的也可以支持。
这样小小的修改一下Bottle框架之后,我们就可以实现大文件上传了,当然了是用的内置的HTTP服务。
如果搭配Apache的话就另外说了,不过我看了下代码应该也需要这样改。
可能的风险:
没有在真实网络测试,以后有机会加上。目前还没有试过,webloader 文档介绍会自动重传丢失部分;
但是我不能保证如果是POST传输文件数据的时候到一半断掉,或者漏了几个字节,然后原先已经写入数据却不能反悔了。
将会导致即使重传上传后追加的文件损坏。