hutool HtmlUtil清除html标签时会将<中文字符>去除

版本情况

JDK版本: 1.8.0_211 hutool版本: 5.2.3

问题描述(包括截图)

HtmlUtil.cleanHtmlTag()去除html标签时,会将<中文字符>也当做html标签去除。

  1. 复现代码

java @Test public void testHtmlUtil() { String txt = "<div>《中文字符1<中文字符2>、<中文字符3>、<中文字符4>、<中文字符5>中文字符6》</div>"; System.out.println("---输出结果---"); System.out.println(HtmlUtil.cleanHtmlTag(txt)); System.out.println("---期待结果---"); System.out.println("《中文字符1<中文字符2>、<中文字符3>、<中文字符4>、<中文字符5>中文字符6》"); }

  1. 堆栈信息

  1. 建议 在正则表达式中指定匹配内容为大小写英文字母和数字1~6。 这是我的临时解决方案,请大佬参考。

private final static Pattern HTML_TAG_REGEX = Pattern.compile("<[^\\s]*?/?[a-zA-Z_\\-]+[1-6]*(\\s*[a-zA-Z]*\\s*=\\s?(\"|').*?(\"|'))*\\s*/?>");

 

转自:https://www.book360.cn/question/EIeBTob0.html

posted @ 2023-01-05 20:41  N神3  阅读(721)  评论(0编辑  收藏  举报