【Java/CSV】CSV文件中,如果单引号之间的内容必须作为整体考虑,其中若有逗号也不起分隔作用,该如何处理
通常csv文件要处理,可以读出一行后用逗号去劈分,这样处理很方便;但是有CSV文件里也有这么一种情况,那就是单引号之间的内容必须作为整体考虑,其中若有逗号也不起分隔作用。如以下文件
1,'andy,a',23,'2022-04-02 12:12:12' 2,'bill,b,B',24,'2022-04-02 13:13:13' 3,cindy,25,'2022-04-02 14:14:14' 4,douglas,26,'2022-04-02 15:15:15'
这个文件里,四个日期,还有
andy,a和bill,b,B
都是该作为整体考虑的,不能用逗号简单劈分了之。这时又该怎么办呢?
对此的处理和分词器类似,我们可以让程序一个个读入字符,然后遇到逗号和单引号时分析一下:如果结束符是逗号,那么之前读入的部分便存起来;如果结束符是单引号,那么继续读入,直到读到下一个单引号为止。
具体程序如下:
package com.hy.lab; import java.io.BufferedReader; import java.io.FileInputStream; import java.io.InputStreamReader; import java.util.ArrayList; import java.util.List; /** * CsvReader阅读器 * 默认以逗号分割内容,若发现单引号,则单引号之间的内容作为整体考虑 * ctl文件中 * fields terminated by ',' * Optionally enclosed by '\'' * 的原理性实现 * 2022年4月2日 */ public class CsvReader { private List<List<String>> lines; public CsvReader(String filename) throws Exception{ lines=new ArrayList<>(); BufferedReader br = new BufferedReader(new InputStreamReader(new FileInputStream(filename), "UTF-8")); String line = null; while( ( line = br.readLine() ) != null ) { lines.add(parseLine(line)); } br.close(); } private List<String> parseLine(String line){ List<String> words=new ArrayList<>(); char endChar=','; char[] arr=line.toCharArray(); String word=""; for(int i=0;i<arr.length;i++){ char c=arr[i]; if(c==','){ if(endChar=='\''){ word+=c; }else{ if(word.trim().length()>0) { words.add(word); word = ""; } } }else if(c=='\''){ if(endChar=='\''){ // 单引号结束处 endChar=','; if(word.trim().length()>0) { words.add(word); word = ""; } }else{ // 单引号开始处 endChar='\''; if(word.trim().length()>0) { words.add(word); word = ""; } } }else{ word+=c; } } // 收尾 if(word.trim().length()>0) { words.add(word); } return words; } public void printContent(){ for(List<String> line:lines){ for(String word:line){ System.out.print(word+"\t\t"); } System.out.println(); } } public static void main(String[] args) throws Exception{ CsvReader reader=new CsvReader("c:\\temp1\\emp42.csv"); reader.printContent(); } }
读入的CSV文件内容如下:
1,'andy,a',23,'2022-04-02 12:12:12',A 2,'bill,b,B',24,'2022-04-02 13:13:13',B 3,cindy,25,'2022-04-02 14:14:14',WOLD 4,douglas,26,'2022-04-02 15:15:15',HELO
处理后的输出如下:
1 andy,a 23 2022-04-02 12:12:12 A 2 bill,b,B 24 2022-04-02 13:13:13 B 3 cindy 25 2022-04-02 14:14:14 WOLD 4 douglas 26 2022-04-02 15:15:15 HELO
如上,便是Oracle的ctl文件中
fields terminated by ','
Optionally enclosed by '\''
的原理性实现
END
【推荐】国内首个AI IDE,深度理解中文开发场景,立即下载体验Trae
【推荐】编程新体验,更懂你的AI,立即体验豆包MarsCode编程助手
【推荐】抖音旗下AI助手豆包,你的智能百科全书,全免费不限次数
【推荐】轻量又高性能的 SSH 工具 IShell:AI 加持,快人一步
· 无需6万激活码!GitHub神秘组织3小时极速复刻Manus,手把手教你使用OpenManus搭建本
· C#/.NET/.NET Core优秀项目和框架2025年2月简报
· Manus爆火,是硬核还是营销?
· 终于写完轮子一部分:tcp代理 了,记录一下
· 【杭电多校比赛记录】2025“钉耙编程”中国大学生算法设计春季联赛(1)
2020-04-02 经典SQL问题:Top 10%
2020-04-02 区间查询与等效minus查询
2018-04-02 【pyhon】nvshens按目录图片批量下载爬虫1.00(多线程版)
2018-04-02 【Canvas与密铺】90年代马赛克密铺效果 1920x1080
2015-04-02 【Canvas与化学】铁元素图标
2015-04-02 上传项目至svn服务器,从svn上获取项目