经历:Java中字符串中按照多个字符拆分或替换:split()和replaceAll()
一、replaceAll()
今天,遇到了这样的一个字符串【如下代码】:
String s="@0|新港@0|天津@0|东莞@0|南沙@0|营口@0|钦州@0|上海@0|汕头@0|连云港@0|顺乐";
需求是:将“@0|”替换成“,”:
String s="@0|新港@0|天津@0|东莞@0|南沙@0|营口@0|钦州@0|上海@0|汕头@0|连云港@0|顺乐"; System.out.println(s.replaceAll("@0|", ",")); 输出结果: ,,|,新,港,,|,天,津,,|,东,莞,,|,南,沙,,|,营,口,,|,钦,州,,|,上,海,,|,汕,头,,|,连,云,港,,|,顺,乐,
输出结果会将每个@和0单独替换,而|则不会发生变化。原因是因为“|”需要进行转移才会被认可。正确做法如下:
public static void main(String[] args) { String s="@0|新港@0|天津@0|东莞@0|南沙@0|营口@0|钦州@0|上海@0|汕头@0|连云港@0|顺乐"; System.out.println(s.replaceAll("@0\\|", ",")); } 输入结果: ,新港,天津,东莞,南沙,营口,钦州,上海,汕头,连云港,顺乐
二、split():同replaceAll()一样,在遇到特殊字符时候,我们也是需要将其进行转移。
1、有时候要对不规整的数据进行分割处理,数据中可能会出现一个或多个不同的分割符,这时需要用到 String.split() 方法来进行分割,对于分割的多个字符,需要用英文状态下的中括号[]包含,代码如下:
public static void main(String[] args) { String s2="苹果:栗子,蛋糕;梨:核桃,面包"; String[] sArr=s2.split("[: , ;]"); for(String s:sArr){ System.out.println(s); } } //输出结果 苹果 栗子 蛋糕 梨 核桃 面包
2、split 的实现直接调用的 matcher 类的 split 的方法。在使用String.split方法分隔字符串时,分隔符如果用到一些特殊字符,可能会得不到我们预期的结果。在正则表达式中有特殊的含义的字符,我们使用的时候必须进行转义,示例:
String s3="188.162.335.24"; //没有进行转移的拆分 String[] sArr=s3.split("."); for(String s:sArr){ System.out.println(s); } //输出结果: <空> String s3="188.162.335.24"; //进行转移的拆分 String[] sArr=s3.split("\\."); for(String s:sArr){ System.out.println(s); } //输出结果: 188 162 335 24
split分隔符总结
1.字符"|","*","+"都得加上转义字符,前面加上"\\"。
2.而如果是"\",那么就得写成"\\\\"。
3.如果一个字符串中有多个分隔符,可以用"|"作为连字符,如果分隔符是“|”,也是需要进行转义的。
比如:String str = "Java string-split#test",可以用Str.split(" |-|#")把每个字符串分开。这样就把字符串分成了3个子字符串。例如:“|”进行转义的拆分
String s="@0|新港@0|天津@0|东莞@0|南沙@0|营口@0|钦州@0|上海@0|汕头@0|连云港@0|顺乐"; String[] arr=s.split("@0\\|"); for(String st:arr){ System.out.println(st); } //输出结果: 新港 天津 东莞 南沙 营口 钦州 上海 汕头 连云港 顺乐
三、高性能的字符串拆分类StringTokenizer: Java.util.Tokenizer JDK 1.0 or later
StringTokenizer 类允许应用程序将字符串分解为标记。StringTokenizer 是出于兼容性的原因而被保留的遗留类(虽然在新代码中并不鼓励使用它)。建议所有寻求此功能的人使用 String 的 split 方法或 java.util.regex 包。代码如下:
String s="@0|新港@0|天津@0|东莞@0|南沙@0|营口@0|钦州@0|上海@0|汕头@0|连云港@0|顺乐"; StringTokenizer t=new StringTokenizer(s,"@0\\|"); while(t.hasMoreElements()){ System.out.println(t.nextToken()); } //输出结果: 新港 天津 东莞 南沙 营口 钦州 上海 汕头 连云港 顺乐
但是StringTokenizer对于字符串"192.168..33"的分割,返回的字符串数组只有3个元素,对于两个分隔符之间的空字符串会忽略,这个要慎重使用。
但是String.split(String.split是用正则表达式匹配,所以不使用KMP字符串匹配算法)用的都是按顺序遍历的算法,时间复杂度O(m*n),较高,所以性能上,StringTokenizer好很多,对于频繁使用字符串分割的应用,例如etl数据处理,使用StringTokenizer性能可以提高很多。