lua字符串分割函数[适配中文特殊符号混合]

lua的官方函数里无字符串分割,起初写了个简单的,随之发现如果是中文、字符串、特殊符号就会出现分割错误的情况,所以就有了这个zsplit.

function zsplit(strn, chars)

  function stringPatch(str)
    --格式化输入包含特殊符号的分割字符
    local str_p = str: gsub("%)", "% %)")
    : gsub("%(", "%%(")
    : gsub("%[", "%%[")
    : gsub('%]', '%%]')
    : gsub('%:', '%%:')
    : gsub('%;', '%%;')
    : gsub('%+', '%%+')
    : gsub('%-', '%%-');
    return str_p;
  end
  function jbyteCount(jstr)
    local lenInByte = #jstr;
    local tbyteCount = {};
    local totallen = 0;
    for i = 1, lenInByte do
      --计算传入的字符串的每一个字符长度
      local curByte = string.byte(jstr, i);

      local byteCount = 0;--这里的初始长度设为0
      if curByte > 0 and curByte <= 127 then
        byteCount = 1
       elseif curByte >= 192 and curByte < 223 then
        byteCount = 2
       elseif curByte >= 224 and curByte < 239 then
        byteCount = 3
       elseif curByte >= 240 and curByte <= 247 then
        byteCount = 4
      end
      table.insert(tbyteCount,byteCount);
      totallen = totallen + byteCount;
    end
    -- print('totallen长度:',totallen);
    return totallen,tbyteCount;
  end

  --第二参数可省略 此时默认每个字符分割
  if not chars then
    chars = ''
  end
  --没有第一参数或为空值时报错
  if not strn then
    return "zsplit 错误: #1 nil 参数1为空值!";
  end
  local strSun = {};
  if chars == '' then
    --[[当默认每个字符分割时的补充方案.
          因为遇到分割中文时,因为长度问题导致分割错误
    ]]
    local lenInByte = #strn;
    local width = 0
    local fuckn = 0
    for i = 1, lenInByte do
      --计算传入的字符串的每一个字符长度
      local curByte = string.byte(strn, i);
      local byteCount = 1;
      if curByte > 0 and curByte <= 127 then
        byteCount = 1
       elseif curByte >= 192 and curByte < 223 then
        byteCount = 2
       elseif curByte >= 224 and curByte < 239 then
        byteCount = 3
       elseif curByte >= 240 and curByte <= 247 then
        byteCount = 4
      end
      local char = string.sub(strn, i, i + byteCount - 1)
      fuckn = i + byteCount - 1;
      if (i~= fuckn or curByte < 127) then
        table.insert(strSun, char)
      end
      if (i == #strn) then
        return strSun
      end
    end
   else
    --endsign结束标志
    local endsign = 1;
    local ongsubs, gsubs = string.gsub(strn,stringPatch(chars), chars)
    print('\n替换结束:',ongsubs,
    '\n替换次数:',gsubs,
    '\n源字符串:',strn,
    '\n格式化匹配条件:',stringPatch(chars),
    '\n源匹配条件',chars)
    for i = 0,gsubs do
      local wi = string.find(ongsubs, stringPatch(chars));
      --print('匹配条件所在位置:',wi);
      if (wi == nil) then
        --当没有匹配到条件时 截取当前位置到最后一个位置
        wi = -1
        endsign = 0;
      end
      local acc = string.sub(ongsubs, 1, wi-endsign)
      table.insert(strSun,acc)-- (string.gsub(acc, stringPatch(chars), '')));
      ongsubs = string.sub(ongsubs, wi + jbyteCount(chars), -1);
    end
  end
  return strSun
end

用法:

zsplit(需要分割的字符串[string],分割条件[string])

让我们来测试一下:

str = "中文:你好,哈嘻嘻哈。,英文:abcdefg,emoji表情😳🙄👍🍎🌹,特殊字符:%\\*$'/@|,混合:嗯emm-嗯-嗯emm嗯**";

sstr=zsplit(str,"哈");--中文
for i=1,#sstr do print(sstr[i]);end

sstr=zsplit(str,"de");--英文
for i=1,#sstr do print(sstr[i]);end

sstr=zsplit(str,"\\");--特殊符号
for i=1,#sstr do print(sstr[i]);end

sstr=zsplit(str,"嗯emm-");--混合
for i=1,#sstr do print(sstr[i]);end

sstr=zsplit(str,"😳");--由于表情字符的特殊性输出的可能显示上会错误,实际是正确的
for i=1,#sstr do print(sstr[i]);end

他的输出是这样的(换成图片,之前被博客园误认为排版混乱哈哈)

替换结束:	中文:你好,哈嘻嘻哈。,英文:abcdefg,emoji表情😳🙄👍🍎🌹,特殊字符:%\*$'/@|,混合:嗯emm-嗯-嗯emm嗯**	
替换次数:	2	
源字符串:	中文:你好,哈嘻嘻哈。,英文:abcdefg,emoji表情😳🙄👍🍎🌹,特殊字符:%\*$'/@|,混合:嗯emm-嗯-嗯emm嗯**	
格式化匹配条件:	哈	
源匹配条件	哈
中文:你好,
嘻嘻
。,英文:abcdefg,emoji表情😳🙄👍🍎🌹,特殊字符:%\*$'/@|,混合:嗯emm-嗯-嗯emm嗯**
替换结束:	中文:你好,哈嘻嘻哈。,英文:abcdefg,emoji表情😳🙄👍🍎🌹,特殊字符:%\*$'/@|,混合:嗯emm-嗯-嗯emm嗯**	
替换次数:	1	
源字符串:	中文:你好,哈嘻嘻哈。,英文:abcdefg,emoji表情😳🙄👍🍎🌹,特殊字符:%\*$'/@|,混合:嗯emm-嗯-嗯emm嗯**	
格式化匹配条件:	de	
源匹配条件	de
中文:你好,哈嘻嘻哈。,英文:abc
fg,emoji表情😳🙄👍🍎🌹,特殊字符:%\*$'/@|,混合:嗯emm-嗯-嗯emm嗯**
替换结束:	中文:你好,哈嘻嘻哈。,英文:abcdefg,emoji表情😳🙄👍🍎🌹,特殊字符:%\*$'/@|,混合:嗯emm-嗯-嗯emm嗯**	
替换次数:	1	
源字符串:	中文:你好,哈嘻嘻哈。,英文:abcdefg,emoji表情😳🙄👍🍎🌹,特殊字符:%\*$'/@|,混合:嗯emm-嗯-嗯emm嗯**	
格式化匹配条件:	\	
源匹配条件	\
中文:你好,哈嘻嘻哈。,英文:abcdefg,emoji表情😳🙄👍🍎🌹,特殊字符:%
*$'/@|,混合:嗯emm-嗯-嗯emm嗯**
替换结束:	中文:你好,哈嘻嘻哈。,英文:abcdefg,emoji表情😳🙄👍🍎🌹,特殊字符:%\*$'/@|,混合:嗯emm-嗯-嗯emm嗯**	
替换次数:	1	
源字符串:	中文:你好,哈嘻嘻哈。,英文:abcdefg,emoji表情😳🙄👍🍎🌹,特殊字符:%\*$'/@|,混合:嗯emm-嗯-嗯emm嗯**	
格式化匹配条件:	嗯emm%-	
源匹配条件	嗯emm-
中文:你好,哈嘻嘻哈。,英文:abcdefg,emoji表情😳🙄👍🍎🌹,特殊字符:%\*$'/@|,混合:
嗯-嗯emm嗯**
替换结束:	中文:你好,哈嘻嘻哈。,英文:abcdefg,emoji表情😳🙄👍🍎🌹,特殊字符:%\*$'/@|,混合:嗯emm-嗯-嗯emm嗯**	
替换次数:	1	
源字符串:	中文:你好,哈嘻嘻哈。,英文:abcdefg,emoji表情😳🙄👍🍎🌹,特殊字符:%\*$'/@|,混合:嗯emm-嗯-嗯emm嗯**	
格式化匹配条件:	😳	
源匹配条件	😳
中文:你好,哈嘻嘻哈。,英文:abcdefg,emoji表情
🙄👍🍎🌹,特殊字符:%\*$'/@|,混合:嗯emm-嗯-嗯emm嗯**

如果有写错或者可以优化的地方,望指出!

posted @ 2020-01-02 08:26  zzerx  阅读(1926)  评论(0编辑  收藏  举报