commons-net使用FTP进行文件下载导致内容乱码的原因
在编写从FTP服务器下载文件代码时发现完成之后发现文件的内容乱码。一开始以为是编码格式不一致导致的,就去搜了方法去设置。
方法:ftpClient.setControlEncoding(“UTF-8”);
但是发现完全没有起到作用,后来无意间发现是传输模式选择有误。
FTP的传输有两种方式:ASCII传输模式和二进制数据传输模式。FTPClient默认设置为0,代表ASCII传输模式,通过添加 ftpClient.setFileType(FTP.BINARY_FILE_TYPE)将传输模式设置成二进制传输模式
1.ASCII传输方式:假定用户正在拷贝的文件包含的简单ASCII码文本,如果在远程机器上运行的不是UNIX,当文件传输时ftp通常会自动地调整文件的内容以便于把文件解释成另外那台计算机存储文本文件的格式。
但是常常有这样的情况,用户正在传输的文件包含的不是文本文件,它们可能是程序,数据库,字处理文件或者压缩文件(尽管字处理文件包含的大部分是文本,其中也包含有指示页尺寸,字库等信息的非打印字符)。在拷贝任何非文本文件之前,用binary 命令告诉ftp逐字拷贝,不要对这些文件进行处理,这也是下面要讲的二进制传输。
2.二进制传输模式:在二进制传输中,保存文件的位序,以便原始和拷贝的是逐位一一对应的。即使目的地机器上包含位序列的文件是没意义的。例如,macintosh以二进制方式传送可执行文件到Windows系统,在对方系统上,此文件不能执行。
如果你在ASCII方式下传输二进制文件,即使不需要也仍会转译。这会使传输稍微变慢 ,也会损坏数据,使文件变得不能用。(在大多数计算机上,ASCII方式一般假设每一字符的第一有效位无意义,因为ASCII字符组合不使用它。如果你传输二进制文件,所有的位都是重要的。)如果你知道这两台机器是同样的,则二进制方式对文本文件和数据文件都是有效的。
结论,现在一般来说传输的话基本都是用二进制进行传输的,编写程序的时候对于传输模式上要仔细,觉得麻烦的话全写二进制传输一般不会错