关于TomCat上传文件中文名乱码的问题
最近在学习TomCat文件上传这一部分,由于文件上传必须要三个条件:
1.表单提交方式必须为Post
2.表单中需要有<input type=”file”>元素,还需要有name属性和值(name的值)。
3.表单enctype=”multipart/form-data”
而且,这种方式提交后对浏览器进行抓包分析如下:
1 POST /web06/jsp/upload.jsp HTTP/1.1 2 Accept: text/html, application/xhtml+xml, */* 3 X-HttpWatch-RID: 22006-10026 4 Referer: http://localhost:8080/web06/jsp/upload.jsp 5 Accept-Language: zh-CN 6 User-Agent: Mozilla/5.0 (Windows NT 6.3; WOW64; Trident/7.0; rv:11.0) like Gecko 7 Content-Type: multipart/form-data; boundary=-------------------------7e139d10110a64(分割线,将请求体的内容分成几块,后面带两个横杠表示内容结束) 8 Accept-Encoding: gzip, deflate 9 Host: localhost:8080 10 Content-Length: 322 11 DNT: 1 12 Connection: Keep-Alive 13 Cache-Control: no-cache 14 Cookie: JSESSIONID=D51DCB996556C94861B2C72C4D978010 15 16 -----------------------------7e139d10110a64 17 Content-Disposition: form-data; name="info" 18 19 aaa 20 -----------------------------7e139d10110a64 21 Content-Disposition: form-data; name="upload"; filename="C:\Users\jt\Desktop\aa.txt" 22 Content-Type: text/plain 23 24 hello world!!! 25 -----------------------------7e139d10110a64—-(有两个横杠表示结束)
要想获得普通项的参数,不能像以前那样通过request.getParameter()来得到了.因此,借住第三方工具包,本文采用的是Apache公司的FileUpload工具包.代码如下:
1 public class UploadServlet extends HttpServlet { 2 protected void doPost(HttpServletRequest request, HttpServletResponse response) throws ServletException, IOException { 3 try { 4 DiskFileItemFactory diskFileItemFactory = new DiskFileItemFactory(); 5 ServletFileUpload servletFileUpload = new ServletFileUpload(diskFileItemFactory); 6 request.setCharacterEncoding("utf-8"); 7 List<FileItem> fileitems = servletFileUpload.parseRequest(request); 8 //System.setProperty("sun.jnu.encoding","utf-8");//设置系统对文件名编码的字符集 9 for (FileItem itme : fileitems) { 10 if (itme.isFormField()) {//是普通项 11 String name = itme.getFieldName(); 12 String value = itme.getString("utf-8"); 13 //String value = itme.getString(); 14 //value = new String(value.getBytes("iso-8859-1"),"utf-8"); 15 System.out.println(name+"---"+value); 16 } else {//文件上传项 17 String realPath = this.getServletContext().getRealPath("/upload"); 18 File file = new File(realPath); 19 if (!file.exists()) { 20 file.mkdirs();//不存在就创建文件夹 21 } 22 //获得文件输入流 23 InputStream is = itme.getInputStream(); 24 //获得输出流 25 String filename =itme.getName(); 26 System.out.println(filename); 27 //System.out.println(System.getProperty("file.encoding")); 28 //System.out.println(System.getProperty("sun.jnu.encoding")); 29 int index = filename.lastIndexOf("\\");//兼容IE浏览器,如果是IE浏览器,则获得filename为全路径 30 if (index != -1) { 31 filename = filename.substring(index + 1); 32 } 33 System.out.println(filename); 34 String newFilename = Utils.getName(filename);//工具类,防止文件名重名,调用UUID 35 String path = Utils.getFilename(newFilename);//工具类,将文件进行分类存放 36 File newFile = new File(realPath +"/"+ path); 37 if (!newFile.exists()) { 38 newFile.mkdirs(); 39 } 40 FileOutputStream os = new FileOutputStream(realPath +"/"+ path+ newFilename); 41 IOUtils.copy(is,os); 42 is.close(); 43 os.close(); 44 } 45 } 46 } catch (FileUploadException e) { 47 e.printStackTrace(); 48 } 49 }
上面代码中标红部分是比较关键的地方.下面对普通项和文件项乱码问题分别进行解释:
1.普通项
获得普通项的值得代码为:
String value = itme.getString("utf-8");
和这个方法有个重载的如下:
String value = itme.getString();
很显然大家也知道结果,上面那个采用字符集"utf-8"进行编码,如果value含有中文,那么结果不会乱码,而采用下面一种则会乱码.我当时就在想,我在程序开始已经设置了请求缓冲流的字符集如下:
request.setCharacterEncoding("utf-8");
为什么我调用下面getString()还会出现乱码呢?去查看源码才发现自己对这几个方法根本没有理解,只是套模板用而已.下面先看一下setCharacterEncoding()方法的作用,API中的解释如下:
public void setCharacterEncoding(String env) throws java.io.UnsupportedEncodingException
重写此请求正文中使用的字符编码的名称。必须在使用 getReader() 读取请求参数或读取输入之前调用此方法。否则,此方法没有任何效果。
当你提交不含文件的表单,调用getParameter方法从请求缓冲流获得数据时,设置该方法可以解决乱码问题,(只限Post请求和Tomcat8.0的get请求).查看getParameter源码如下:
6 private void mergeParameters(){
7 if ((queryParamString == null) || (queryParamString.length() < 1))
8 return;
9 HashMap queryParameters = new HashMap();
10 String encoding = getCharacterEncoding();
11 if (encoding == null)
12 encoding = "ISO-8859-1";
13 try{
14 RequestUtil.parseParameters(queryParameters, queryParamString, encoding);
15 }catch (Exception e){
16 ;
17 }
18 Iterator keys = parameters.keySet().iterator();
19 while (keys.hasNext()){
20 String key = (String) keys.next();
21 Object value = queryParameters.get(key);
22 if (value == null){
23 queryParameters.put(key, parameters.get(key));
24 continue;
25 }
26 queryParameters.put(key, mergeValues(value, parameters.get(key)));
27 }
28 parameters = queryParameters;
29 }
主要在10 11 12三行代码,10行调用了getCharacterEncoding()方法获得字符集,如果没设置的话就默认设置字符集为iso-8859-1.
而在提交含有文件(即设置了enctype属性)的请求中就不一样了,下面看一下getString()方法的源码:
1 public String getString() {
2 byte[] rawdata = get();//通过缓冲流获得字节数组
3 String charset = getCharSet();//获得字符集,并没有看到setCharSet方法,因此,调用该方法,只能得到charset=null
4 if (charset == null) {//如果字符集是空
5 charset = DEFAULT_CHARSET;//这是个自定义常量为ISO-8859-1
6 }
7 try {
8 return new String(rawdata, charset);//通过iso-8859-1进行编码得到了结果,肯定会乱码
9 } catch (UnsupportedEncodingException e) {
10 return new String(rawdata);
11 }
12 }
public String getString(final String charset) throws UnsupportedEncodingException { return new String(get(), charset); }
这是重载的getString(String )方法,可以看到get()获得字符数组之后,直接调用new String方法得到参数.
那么如果用 String value = itme.getString();则可以先用iso-8859-1解码,然后再用utf-8编码,也能获得正确的结果.
String value = new String((value.getbytes("iso-8859-1"),"utf-8");
2.文件项上传(文件名乱码和文件内容乱码)
请参考: https://blog.csdn.net/QQ578473688/article/details/77265815?locationNum=7&fps=1