hutool HtmlUtil清除html标签时会将<中文字符>去除
版本情况
JDK版本: 1.8.0_211 hutool版本: 5.2.3
问题描述(包括截图)
HtmlUtil.cleanHtmlTag()去除html标签时,会将<中文字符>
也当做html标签去除。
- 复现代码
java @Test public void testHtmlUtil() { String txt = "<div>《中文字符1<中文字符2>、<中文字符3>、<中文字符4>、<中文字符5>中文字符6》</div>"; System.out.println("---输出结果---"); System.out.println(HtmlUtil.cleanHtmlTag(txt)); System.out.println("---期待结果---"); System.out.println("《中文字符1<中文字符2>、<中文字符3>、<中文字符4>、<中文字符5>中文字符6》"); }
-
堆栈信息
-
建议 在正则表达式中指定匹配内容为大小写英文字母和数字1~6。 这是我的临时解决方案,请大佬参考。
private final static Pattern HTML_TAG_REGEX = Pattern.compile("<[^\\s]*?/?[a-zA-Z_\\-]+[1-6]*(\\s*[a-zA-Z]*\\s*=\\s?(\"|').*?(\"|'))*\\s*/?>");
转自:https://www.book360.cn/question/EIeBTob0.html
感谢您的阅读,您的支持是我写博客动力。