unicode汉字编码
原来我使用的一直是 \u4e00-\u9fa5 ,今天在匹配中文标点的时候匹配不上,就查了一下相关资料,原来unicode跟中文有关的范围还有好几个。
字符范围表
1.标准CJK文字
范围:\u3400-\u4DB5,\u4E00-\u9FA5,\u9FA6-\u9FBB,\uF900-\uFA2D,\uFA30-\uFA6A,\uFA70-\uFAD9 说明:一共有好几个范围,除 \u4e00-\u9fa5外 都不是很常用 参考地址:http://www.unicode.org/Public/UNIDATA/Unihan.html
2.全角ASCII、全角中英文标点、半宽片假名、半宽平假名、半宽韩文字母
范围:\uFF00-\uFFEF 参考地址:http://www.unicode.org/charts/PDF/UFF00.pdf
3.CJK部首补充
范围:\u2E80-\u2EFF 参考地址:http://www.unicode.org/charts/PDF/U2E80.pdf
4.CJK标点符号
范围:\u3000-\u303F 参考地址:http://www.unicode.org/charts/PDF/U3000.pdf
5.CJK笔划
范围:\u31C0-\u31EF 参考地址:http://www.unicode.org/charts/PDF/U31C0.pdf
6.康熙部首
范围:\u2F00-\u2FDF 参考地址:http://www.unicode.org/charts/PDF/U2F00.pdf
7.汉字结构描述字符
范围:\u2FF0-\u2FFF 参考地址:http://www.unicode.org/charts/PDF/U2FF0.pdf
8.注音符号
范围:\u3100-\u312F 参考地址:http://www.unicode.org/charts/PDF/U3100.pdf
9.注音符号(闽南语、客家语扩展)
范围:\u31A0-\u31BF 参考地址:http://www.unicode.org/charts/PDF/U31A0.pdf
10.日文平假名
范围:\u3040-\u309F 参考地址:http://www.unicode.org/charts/PDF/U3040.pdf
11.日文片假名
范围:\u30A0-\u30FF 参考地址:http://www.unicode.org/charts/PDF/U30A0.pdf
12.日文片假名拼音扩展
范围:\u31F0-\u31FF 参考地址:http://www.unicode.org/charts/PDF/U31F0.pdf
13.韩文拼音
范围:\uAC00-\uD7AF 参考地址:http://www.unicode.org/charts/PDF/UAC00.pdf
14.韩文字母
范围:\u1100-\u11FF 参考地址:http://www.unicode.org/charts/PDF/U1100.pdf
15.韩文兼容字母
范围:\u3130-\u318F 参考地址:http://www.unicode.org/charts/PDF/U3130.pdf
16.易经六十四卦象
范围:\u4DC0-\u4DFF 参考地址:http://www.unicode.org/charts/PDF/U4DC0.pdf
17.彝文音节
范围:\uA000-\uA48F 参考地址:http://www.unicode.org/charts/PDF/UA000.pdf
18.彝文部首
范围:\uA490-\uA4CF 参考地址:http://www.unicode.org/charts/PDF/UA490.pdf
19.盲文符号
范围:\u2800-\u28FF 参考地址:http://www.unicode.org/charts/PDF/U2800.pdf
20.CJK字母及月份
范围:\u3200-\u32FF 参考地址:http://www.unicode.org/charts/PDF/U3200.pdf
21.CJK特殊符号(日期合并)
范围:\u3300-\u33FF 参考地址:http://www.unicode.org/charts/PDF/U3300.pdf
22.装饰符号(非CJK专用)
范围:\u2700-\u27BF 参考地址:http://www.unicode.org/charts/PDF/U2700.pdf
23.杂项符号(非CJK专用)
范围:\u2600-\u26FF 参考地址:http://www.unicode.org/charts/PDF/U2600.pdf
24.中文竖排标点
范围:\uFE10-\uFE1F 参考地址:http://www.unicode.org/charts/PDF/UFE10.pdf
25.CJK兼容符号(竖排变体、下划线、顿号)
范围:\uFE30-\uFE4F 参考地址:http://www.unicode.org/charts/PDF/UFE30.pdf
改进后的匹配表达式
- [\u3400-\u4DB5\u4E00-\u9FA5\u9FA6-\u9FBB\uF900-\uFA2D\uFA30-\uFA6A\uFA70-\uFAD9\uFF00-\uFFEF\u2E80-\u2EFF\u3000-\u303F\u31C0-\u31EF] (注:这条基本能满足要求)
- [\u3400-\u4DB5\u4E00-\u9FA5\u9FA6-\u9FBB\uF900-\uFA2D\uFA30-\uFA6A\uFA70-\uFAD9\uFF00-\uFFEF\u2E80-\u2EFF\u3000-\u303F\u31C0-\u31EF\u2F00-\u2FDF\u2FF0-\u2FFF\u3100-\u312F\u31A0-\u31BF\u3040-\u309F\u30A0-\u30FF\u31F0-\u31FF\uAC00-\uD7AF\u1100-\u11FF\u3130-\u318F\u4DC0-\u4DFF\uA000-\uA48F\uA490-\uA4CF\u2800-\u28FF\u3200-\u32FF\u3300-\u33FF\u2700-\u27BF\u2600-\u26FF\uFE10-\uFE1F\uFE30-\uFE4F] (注:这是完整版本)
转自:http://ju.outofmemory.cn/entry/53571
【推荐】编程新体验,更懂你的AI,立即体验豆包MarsCode编程助手
【推荐】凌霞软件回馈社区,博客园 & 1Panel & Halo 联合会员上线
【推荐】抖音旗下AI助手豆包,你的智能百科全书,全免费不限次数
【推荐】轻量又高性能的 SSH 工具 IShell:AI 加持,快人一步
· 智能桌面机器人:用.NET IoT库控制舵机并多方法播放表情
· Linux glibc自带哈希表的用例及性能测试
· 深入理解 Mybatis 分库分表执行原理
· 如何打造一个高并发系统?
· .NET Core GC压缩(compact_phase)底层原理浅谈
· 手把手教你在本地部署DeepSeek R1,搭建web-ui ,建议收藏!
· 新年开篇:在本地部署DeepSeek大模型实现联网增强的AI应用
· Janus Pro:DeepSeek 开源革新,多模态 AI 的未来
· 互联网不景气了那就玩玩嵌入式吧,用纯.NET开发并制作一个智能桌面机器人(三):用.NET IoT库
· 【非技术】说说2024年我都干了些啥