【Java/CSV】CSV文件中,如果单引号之间的内容必须作为整体考虑,其中若有逗号也不起分隔作用,该如何处理

通常csv文件要处理,可以读出一行后用逗号去劈分,这样处理很方便;但是有CSV文件里也有这么一种情况,那就是单引号之间的内容必须作为整体考虑,其中若有逗号也不起分隔作用。如以下文件

1,'andy,a',23,'2022-04-02 12:12:12'
2,'bill,b,B',24,'2022-04-02 13:13:13'
3,cindy,25,'2022-04-02 14:14:14'
4,douglas,26,'2022-04-02 15:15:15'

这个文件里,四个日期,还有

andy,a和bill,b,B

都是该作为整体考虑的,不能用逗号简单劈分了之。这时又该怎么办呢?

对此的处理和分词器类似,我们可以让程序一个个读入字符,然后遇到逗号和单引号时分析一下:如果结束符是逗号,那么之前读入的部分便存起来;如果结束符是单引号,那么继续读入,直到读到下一个单引号为止。

具体程序如下:

package com.hy.lab;

import java.io.BufferedReader;
import java.io.FileInputStream;
import java.io.InputStreamReader;
import java.util.ArrayList;
import java.util.List;

/**
 * CsvReader阅读器
 * 默认以逗号分割内容,若发现单引号,则单引号之间的内容作为整体考虑
 * ctl文件中
 * fields terminated by ','
 * Optionally enclosed by '\''
 * 的原理性实现
 * 2022年4月2日
 */
public class CsvReader {
    private List<List<String>> lines;

    public CsvReader(String filename) throws Exception{
        lines=new ArrayList<>();

        BufferedReader br = new BufferedReader(new InputStreamReader(new FileInputStream(filename), "UTF-8"));

        String line = null;
        while( ( line = br.readLine() ) != null ) {
            lines.add(parseLine(line));
        }
        br.close();
    }

    private List<String> parseLine(String line){
        List<String> words=new ArrayList<>();

        char endChar=',';
        char[] arr=line.toCharArray();
        String word="";
        for(int i=0;i<arr.length;i++){
            char c=arr[i];

            if(c==','){
                if(endChar=='\''){
                    word+=c;
                }else{
                    if(word.trim().length()>0) {
                        words.add(word);
                        word = "";
                    }
                }
            }else if(c=='\''){
                if(endChar=='\''){
                    // 单引号结束处
                    endChar=',';
                    if(word.trim().length()>0) {
                        words.add(word);
                        word = "";
                    }
                }else{
                    // 单引号开始处
                    endChar='\'';
                    if(word.trim().length()>0) {
                        words.add(word);
                        word = "";
                    }
                }
            }else{
                word+=c;
            }
        }

        // 收尾
        if(word.trim().length()>0) {
            words.add(word);
        }

        return words;
    }

    public void printContent(){
        for(List<String> line:lines){
            for(String word:line){
                System.out.print(word+"\t\t");
            }
            System.out.println();
        }
    }

    public static void main(String[] args) throws Exception{
        CsvReader reader=new CsvReader("c:\\temp1\\emp42.csv");
        reader.printContent();
    }
}

读入的CSV文件内容如下:

1,'andy,a',23,'2022-04-02 12:12:12',A
2,'bill,b,B',24,'2022-04-02 13:13:13',B
3,cindy,25,'2022-04-02 14:14:14',WOLD
4,douglas,26,'2022-04-02 15:15:15',HELO

处理后的输出如下:

1        andy,a        23        2022-04-02 12:12:12        A        
2        bill,b,B        24        2022-04-02 13:13:13        B        
3        cindy        25        2022-04-02 14:14:14        WOLD        
4        douglas        26        2022-04-02 15:15:15        HELO    

如上,便是Oracle的ctl文件中

fields terminated by ','
Optionally enclosed by '\''

的原理性实现

END 

posted @ 2022-04-02 16:16  逆火狂飙  阅读(522)  评论(0编辑  收藏  举报
生当作人杰 死亦为鬼雄 至今思项羽 不肯过江东