UniCode编码表及部分不可见字符过滤方案

 

Unicode编码表/0000-0FFF

图例: Unicode 3.1
Unicode 1.0 Unicode 3.2
Unicode 1.1 Unicode 4.0
Unicode 2.0 Unicode 4.1
Unicode 2.1 未使用
Unicode 3.0 不作编码
Unicode 编码表
0000-0FFF 8000-8FFF 10000-10FFF 20000-20FFF 28000-28FFF
1000-1FFF 9000-9FFF   21000-21FFF 29000-29FFF
2000-2FFF A000-AFFF   22000-22FFF 2A000-2AFFF
3000-3FFF B000-BFFF   23000-23FFF  
4000-4FFF C000-CFFF 1D000-1DFFF 24000-24FFF 2F000-2FFFF
5000-5FFF D000-DFFF   25000-25FFF  
6000-6FFF E000-EFFF   26000-26FFF  
7000-7FFF F000-FFFF   27000-27FFF E0000-E0FFF

 

【Unicode 码表】

0000-007F:C0控制符及基本拉丁文 (C0 Control and Basic Latin)
0080-00FF:C1控制符及拉丁文补充-1 (C1 Control and Latin 1 Supplement) 
0100-017F:拉丁文扩展-A (Latin Extended-A) 
0180-024F:拉丁文扩展-B (Latin Extended-B) 
0250-02AF:国际音标扩展 (IPA Extensions) 
02B0-02FF:空白修饰字母 (Spacing Modifiers) 
0300-036F:结合用读音符号 (Combining Diacritics Marks) 
0370-03FF:希腊文及科普特文 (Greek and Coptic) 
0400-04FF:西里尔字母 (Cyrillic) 
0500-052F:西里尔字母补充 (Cyrillic Supplement) 
0530-058F:亚美尼亚语 (Armenian) 
0590-05FF:希伯来文 (Hebrew) 
0600-06FF:阿拉伯文 (Arabic) 
0700-074F:叙利亚文 (Syriac) 
0750-077F:阿拉伯文补充 (Arabic Supplement) 
0780-07BF:马尔代夫语 (Thaana) 
07C0-077F:西非書面語言 (N'Ko) 
0800-085F:阿维斯塔语及巴列维语 (Avestan and Pahlavi) 
0860-087F:Mandaic 
0880-08AF:撒马利亚语 (Samaritan) 
0900-097F:天城文书 (Devanagari) 
0980-09FF:孟加拉语 (Bengali) 
0A00-0A7F:锡克教文 (Gurmukhi) 
0A80-0AFF:古吉拉特文 (Gujarati) 
0B00-0B7F:奥里亚文 (Oriya) 
0B80-0BFF:泰米尔文 (Tamil) 
0C00-0C7F:泰卢固文 (Telugu) 
0C80-0CFF:卡纳达文 (Kannada) 
0D00-0D7F:德拉维族语 (Malayalam) 
0D80-0DFF:僧伽罗语 (Sinhala) 
0E00-0E7F:泰文 (Thai) 
0E80-0EFF:老挝文 (Lao) 
0F00-0FFF:藏文 (Tibetan) 
1000-109F:缅甸语 (Myanmar) 
10A0-10FF:格鲁吉亚语 (Georgian) 
1100-11FF:朝鲜文 (Hangul Jamo) 
1200-137F:埃塞俄比亚语 (Ethiopic) 
1380-139F:埃塞俄比亚语补充 (Ethiopic Supplement) 
13A0-13FF:切罗基语 (Cherokee) 
1400-167F:统一加拿大土著语音节 (Unified Canadian Aboriginal Syllabics) 
1680-169F:欧甘字母 (Ogham) 
16A0-16FF:如尼文 (Runic) 
1700-171F:塔加拉语 (Tagalog) 
1720-173F:Hanunóo 
1740-175F:Buhid 
1760-177F:Tagbanwa 
1780-17FF:高棉语 (Khmer) 
1800-18AF:蒙古文 (Mongolian) 
18B0-18FF:Cham 
1900-194F:Limbu 
1950-197F:德宏泰语 (Tai Le) 
1980-19DF:新傣仂语 (New Tai Lue) 
19E0-19FF:高棉语记号 (Kmer Symbols) 
1A00-1A1F:Buginese 
1A20-1A5F:Batak 
1A80-1AEF:Lanna 
1B00-1B7F:巴厘语 (Balinese) 
1B80-1BB0:巽他语 (Sundanese) 
1BC0-1BFF:Pahawh Hmong 
1C00-1C4F:雷布查语(Lepcha) 
1C50-1C7F:Ol Chiki 
1C80-1CDF:曼尼普尔语 (Meithei/Manipuri) 
1D00-1D7F:语音学扩展 (Phonetic Extensions) 
1D80-1DBF:语音学扩展补充 (Phonetic Extensions Supplement) 
1DC0-1DFF:结合用读音符号补充 (Combining Diacritics Marks Supplement) 
1E00-1EFF:拉丁文扩充附加 (Latin Extended Additional) 
1F00-1FFF:希腊语扩充 (Greek Extended) 
2000-206F:常用标点 (General Punctuation) 
2070-209F:上标及下标 (Superscripts and Subscripts) 
20A0-20CF:货币符号 (Currency Symbols) 
20D0-20FF:组合用记号 (Combining Diacritics Marks for Symbols) 
2100-214F:字母式符号 (Letterlike Symbols) 
2150-218F:数字形式 (Number Form) 
2190-21FF:箭头 (Arrows) 
2200-22FF:数学运算符 (Mathematical Operator) 
2300-23FF:杂项工业符号 (Miscellaneous Technical) 
2400-243F:控制图片 (Control Pictures) 
2440-245F:光学识别符 (Optical Character Recognition) 
2460-24FF:封闭式字母数字 (Enclosed Alphanumerics) 
2500-257F:制表符 (Box Drawing) 
2580-259F:方块元素 (Block Element) 
25A0-25FF:几何图形 (Geometric Shapes) 
2600-26FF:杂项符号 (Miscellaneous Symbols) 
2700-27BF:印刷符号 (Dingbats) 
27C0-27EF:杂项数学符号-A (Miscellaneous Mathematical Symbols-A) 
27F0-27FF:追加箭头-A (Supplemental Arrows-A) 
2800-28FF:盲文点字模型 (Braille Patterns) 
2900-297F:追加箭头-B (Supplemental Arrows-B) 
2980-29FF:杂项数学符号-B (Miscellaneous Mathematical Symbols-B) 
2A00-2AFF:追加数学运算符 (Supplemental Mathematical Operator) 
2B00-2BFF:杂项符号和箭头 (Miscellaneous Symbols and Arrows) 
2C00-2C5F:格拉哥里字母 (Glagolitic) 
2C60-2C7F:拉丁文扩展-C (Latin Extended-C) 
2C80-2CFF:古埃及语 (Coptic) 
2D00-2D2F:格鲁吉亚语补充 (Georgian Supplement) 
2D30-2D7F:提非纳文 (Tifinagh) 
2D80-2DDF:埃塞俄比亚语扩展 (Ethiopic Extended) 
2E00-2E7F:追加标点 (Supplemental Punctuation) 
2E80-2EFF:CJK 部首补充 (CJK Radicals Supplement) 
2F00-2FDF:康熙字典部首 (Kangxi Radicals) 
2FF0-2FFF:表意文字描述符 (Ideographic Description Characters) 
3000-303F:CJK 符号和标点 (CJK Symbols and Punctuation) 
3040-309F:日文平假名 (Hiragana) 
30A0-30FF:日文片假名 (Katakana) 
3100-312F:注音字母 (Bopomofo) 
3130-318F:朝鲜文兼容字母 (Hangul Compatibility Jamo) 
3190-319F:象形字注释标志 (Kanbun) 
31A0-31BF:注音字母扩展 (Bopomofo Extended) 
31C0-31EF:CJK 笔画 (CJK Strokes) 
31F0-31FF:日文片假名语音扩展 (Katakana Phonetic Extensions) 
3200-32FF:封闭式 CJK 文字和月份 (Enclosed CJK Letters and Months) 
3300-33FF:CJK 兼容 (CJK Compatibility) 
3400-4DBF:CJK 统一表意符号扩展 A (CJK Unified Ideographs Extension A) 
4DC0-4DFF:易经六十四卦符号 (Yijing Hexagrams Symbols) 
4E00-9FBF:CJK 统一表意符号 (CJK Unified Ideographs) 
A000-A48F:彝文音节 (Yi Syllables) 
A490-A4CF:彝文字根 (Yi Radicals) 
A500-A61F:Vai 
A660-A6FF:统一加拿大土著语音节补充 (Unified Canadian Aboriginal Syllabics Supplement) 
A700-A71F:声调修饰字母 (Modifier Tone Letters) 
A720-A7FF:拉丁文扩展-D (Latin Extended-D) 
A800-A82F:Syloti Nagri 
A840-A87F:八思巴字 (Phags-pa) 
A880-A8DF:Saurashtra 
A900-A97F:爪哇语 (Javanese) 
A980-A9DF:Chakma 
AA00-AA3F:Varang Kshiti 
AA40-AA6F:Sorang Sompeng 
AA80-AADF:Newari 
AB00-AB5F:越南傣语 (Vi?t Thái) 
AB80-ABA0:Kayah Li 
AC00-D7AF:朝鲜文音节 (Hangul Syllables) 
D800-DBFF:High-half zone of UTF-16 
DC00-DFFF:Low-half zone of UTF-16 
E000-F8FF:自行使用區域 (Private Use Zone) 
F900-FAFF:CJK 兼容象形文字 (CJK Compatibility Ideographs) 
FB00-FB4F:字母表達形式 (Alphabetic Presentation Form) 
FB50-FDFF:阿拉伯表達形式A (Arabic Presentation Form-A) 
FE00-FE0F:变量选择符 (Variation Selector) 
FE10-FE1F:竖排形式 (Vertical Forms) 
FE20-FE2F:组合用半符号 (Combining Half Marks) 
FE30-FE4F:CJK 兼容形式 (CJK Compatibility Forms) 
FE50-FE6F:小型变体形式 (Small Form Variants) 
FE70-FEFF:阿拉伯表達形式B (Arabic Presentation Form-B) 
FF00-FFEF:半型及全型形式 (Halfwidth and Fullwidth Form) 
FFF0-FFFF:特殊 (Specials)

 

 

 

 

U+0123456789ABCDEF
0000 NUL SOH STX ETX EOT ENQ ACK BEL BS HT LF VT FF CR SO SI
0010 DLE DC1 DC2 DC3 DC4 NAK SYN ETB CAN EM SUB ESC FS GS RS US
0020   ! " # $ % & ' ( ) * + , - . /
0030 0 1 2 3 4 5 6 7 8 9 : ; < = > ?
0040 @ A B C D E F G H I J K L M N O
0050 P Q R S T U V W X Y Z [ \ ] ^ _
0060 ` a b c d e f g h i j k l m n o
0070 p q r s t u v w x y z { | } ~ DEL
0080 PAD HOP BPH NBH IND NEL SSA ESA HTS HTJ VTS PLD PLU RI SS2 SS3
0090 DCS PU1 PU2 STS CCH MW SPA EPA SOS SGCI SCI CSI ST OSC PM APC
00A0 NBSP ¡ ¢ £ ¤ ¥ ¦ § ¨ © ª « ¬ SHY ® ¯
00B0 ° ± ² ³ ´ µ · ¸ ¹ º » ¼ ½ ¾ ¿
00C0 À Á Â Ã Ä Å Æ Ç È É Ê Ë Ì Í Î Ï
00D0 Ð Ñ Ò Ó Ô Õ Ö × Ø Ù Ú Û Ü Ý Þ ß
00E0 à á â ã ä å æ ç è é ê ë ì í î ï
00F0 ð ñ ò ó ô õ ö ÷ ø ù ú û ü ý þ ÿ
U+0123456789ABCDEF
0100 Ā ā Ă ă Ą ą Ć ć Ĉ ĉ Ċ ċ Č č Ď ď
0110 Đ đ Ē ē Ĕ ĕ Ė ė Ę ę Ě ě Ĝ ĝ Ğ ğ
0120 Ġ ġ Ģ ģ Ĥ ĥ Ħ ħ Ĩ ĩ Ī ī Ĭ ĭ Į į
0130 İ ı IJ ij Ĵ ĵ Ķ ķ ĸ Ĺ ĺ Ļ ļ Ľ ľ Ŀ
0140 ŀ Ł ł Ń ń Ņ ņ Ň ň ʼn Ŋ ŋ Ō ō Ŏ ŏ
0150 Ő ő Œ œ Ŕ ŕ Ŗ ŗ Ř ř Ś ś Ŝ ŝ Ş ş
0160 Š š Ţ ţ Ť ť Ŧ ŧ Ũ ũ Ū ū Ŭ ŭ Ů ů
0170 Ű ű Ų ų Ŵ ŵ Ŷ ŷ Ÿ Ź ź Ż ż Ž ž ſ
0180 ƀ Ɓ Ƃ ƃ Ƅ ƅ Ɔ Ƈ ƈ Ɖ Ɗ Ƌ ƌ ƍ Ǝ Ə
0190 Ɛ Ƒ ƒ Ɠ Ɣ ƕ Ɩ Ɨ Ƙ ƙ ƚ ƛ Ɯ Ɲ ƞ Ɵ
01A0 Ơ ơ Ƣ ƣ Ƥ ƥ Ʀ Ƨ ƨ Ʃ ƪ ƫ Ƭ ƭ Ʈ Ư
01B0 ư Ʊ Ʋ Ƴ ƴ Ƶ ƶ Ʒ Ƹ ƹ ƺ ƻ Ƽ ƽ ƾ ƿ
01C0 ǀ ǁ ǂ ǃ DŽ Dž dž LJ Lj lj NJ Nj nj Ǎ ǎ Ǐ
01D0 ǐ Ǒ ǒ Ǔ ǔ Ǖ ǖ Ǘ ǘ Ǚ ǚ Ǜ ǜ ǝ Ǟ ǟ
01E0 Ǡ ǡ Ǣ ǣ Ǥ ǥ Ǧ ǧ Ǩ ǩ Ǫ ǫ Ǭ ǭ Ǯ ǯ
01F0 ǰ DZ Dz dz Ǵ ǵ Ƕ Ƿ Ǹ ǹ Ǻ ǻ Ǽ ǽ Ǿ ǿ
U+0123456789ABCDEF
0200 Ȁ ȁ Ȃ ȃ Ȅ ȅ Ȇ ȇ Ȉ ȉ Ȋ ȋ Ȍ ȍ Ȏ ȏ
0210 Ȑ ȑ Ȓ ȓ Ȕ ȕ Ȗ ȗ Ș ș Ț ț Ȝ ȝ Ȟ ȟ
0220 Ƞ ȡ Ȣ ȣ Ȥ ȥ Ȧ ȧ Ȩ ȩ Ȫ ȫ Ȭ ȭ Ȯ ȯ
0230 Ȱ ȱ Ȳ ȳ ȴ ȵ ȶ ȷ ȸ ȹ Ⱥ Ȼ ȼ Ƚ Ⱦ ȿ
0240 ɀ Ɂ                            
0250 ɐ ɑ ɒ ɓ ɔ ɕ ɖ ɗ ɘ ə ɚ ɛ ɜ ɝ ɞ ɟ
0260 ɠ ɡ ɢ ɣ ɤ ɥ ɦ ɧ ɨ ɩ ɪ ɫ ɬ ɭ ɮ ɯ
0270 ɰ ɱ ɲ ɳ ɴ ɵ ɶ ɷ ɸ ɹ ɺ ɻ ɼ ɽ ɾ ɿ
0280 ʀ ʁ ʂ ʃ ʄ ʅ ʆ ʇ ʈ ʉ ʊ ʋ ʌ ʍ ʎ ʏ
0290 ʐ ʑ ʒ ʓ ʔ ʕ ʖ ʗ ʘ ʙ ʚ ʛ ʜ ʝ ʞ ʟ
02A0 ʠ ʡ ʢ ʣ ʤ ʥ ʦ ʧ ʨ ʩ ʪ ʫ ʬ ʭ ʮ ʯ
02B0 ʰ ʱ ʲ ʳ ʴ ʵ ʶ ʷ ʸ ʹ ʺ ʻ ʼ ʽ ʾ ʿ
02C0 ˀ ˁ ˂ ˃ ˄ ˅ ˆ ˇ ˈ ˉ ˊ ˋ ˌ ˍ ˎ ˏ
02D0 ː ˑ ˒ ˓ ˔ ˕ ˖ ˗ ˘ ˙ ˚ ˛ ˜ ˝ ˞ ˟
02E0 ˠ ˡ ˢ ˣ ˤ ˥ ˦ ˧ ˨ ˩ ˪ ˫ ˬ ˭ ˮ ˯
02F0 ˰ ˱ ˲ ˳ ˴ ˵ ˶ ˷ ˸ ˹ ˺ ˻ ˼ ˽ ˾ ˿
U+0123456789ABCDEF
0300  ̀  ́  ̂  ̃  ̄  ̅  ̆  ̇  ̈  ̉  ̊  ̋  ̌  ̍  ̎  ̏
0310  ̐  ̑  ̒  ̓  ̔  ̕  ̖  ̗  ̘  ̙  ̚  ̛  ̜  ̝  ̞  ̟
0320  ̠  ̡  ̢  ̣  ̤  ̥  ̦  ̧  ̨  ̩  ̪  ̫  ̬  ̭  ̮  ̯
0330  ̰  ̱  ̲  ̳  ̴  ̵  ̶  ̷  ̸  ̹  ̺  ̻  ̼  ̽  ̾  ̿
0340  ̀  ́  ͂  ̓  ̈́  ͅ  ͆  ͇  ͈  ͉  ͊  ͋  ͌  ͍  ͎ CGJ
0350  ͐  ͑  ͒  ͓  ͔  ͕  ͖  ͗  ͘  ͙  ͚  ͛  ͜  ͝  ͞  ͟
0360  ͠  ͡  ͢  ͣ  ͤ  ͥ  ͦ  ͧ  ͨ  ͩ  ͪ  ͫ  ͬ  ͭ  ͮ  ͯ
0370         ʹ ͵         ͺ       ;  
0380         ΄ ΅ Ά · Έ Ή Ί   Ό   Ύ Ώ
0390 ΐ Α Β Γ Δ Ε Ζ Η Θ Ι Κ Λ Μ Ν Ξ Ο
03A0 Π Ρ   Σ Τ Υ Φ Χ Ψ Ω Ϊ Ϋ ά έ ή ί
03B0 ΰ α β γ δ ε ζ η θ ι κ λ μ ν ξ ο
03C0 π ρ ς σ τ υ φ χ ψ ω ϊ ϋ ό ύ ώ  
03D0 ϐ ϑ ϒ ϓ ϔ ϕ ϖ ϗ Ϙ ϙ Ϛ ϛ Ϝ ϝ Ϟ ϟ
03E0 Ϡ ϡ Ϣ ϣ Ϥ ϥ Ϧ ϧ Ϩ ϩ Ϫ ϫ Ϭ ϭ Ϯ ϯ
03F0 ϰ ϱ ϲ ϳ ϴ ϵ ϶ Ϸ ϸ Ϲ Ϻ ϻ ϼ Ͻ Ͼ Ͽ
U+0123456789ABCDEF
0400 Ѐ Ё Ђ Ѓ Є Ѕ І Ї Ј Љ Њ Ћ Ќ Ѝ Ў Џ
0410 А Б В Г Д Е Ж З И Й К Л М Н О П
0420 Р С Т У Ф Х Ц Ч Ш Щ Ъ Ы Ь Э Ю Я
0430 а б в г д е ж з и й к л м н о п
0440 р с т у ф х ц ч ш щ ъ ы ь э ю я
0450 ѐ ё ђ ѓ є ѕ і ї ј љ њ ћ ќ ѝ ў џ
0460 Ѡ ѡ Ѣ ѣ Ѥ ѥ Ѧ ѧ Ѩ ѩ Ѫ ѫ Ѭ ѭ Ѯ ѯ
0470 Ѱ ѱ Ѳ ѳ Ѵ ѵ Ѷ ѷ Ѹ ѹ Ѻ ѻ Ѽ ѽ Ѿ ѿ
0480 Ҁ ҁ ҂  ҃  ҄  ҅  ҆    ҈  ҉ Ҋ ҋ Ҍ ҍ Ҏ ҏ
0490 Ґ ґ Ғ ғ Ҕ ҕ Җ җ Ҙ ҙ Қ қ Ҝ ҝ Ҟ ҟ
04A0 Ҡ ҡ Ң ң Ҥ ҥ Ҧ ҧ Ҩ ҩ Ҫ ҫ Ҭ ҭ Ү ү
04B0 Ұ ұ Ҳ ҳ Ҵ ҵ Ҷ ҷ Ҹ ҹ Һ һ Ҽ ҽ Ҿ ҿ
04C0 Ӏ Ӂ ӂ Ӄ ӄ Ӆ ӆ Ӈ ӈ Ӊ ӊ Ӌ ӌ Ӎ ӎ  
04D0 Ӑ ӑ Ӓ ӓ Ӕ ӕ Ӗ ӗ Ә ә Ӛ ӛ Ӝ ӝ Ӟ ӟ
04E0 Ӡ ӡ Ӣ ӣ Ӥ ӥ Ӧ ӧ Ө ө Ӫ ӫ Ӭ ӭ Ӯ ӯ
04F0 Ӱ ӱ Ӳ ӳ Ӵ ӵ Ӷ ӷ Ӹ ӹ            
U+0123456789ABCDEF
0500 Ԁ ԁ Ԃ ԃ Ԅ ԅ Ԇ ԇ Ԉ ԉ Ԋ ԋ Ԍ ԍ Ԏ ԏ
0510                                
0520                                
0530   Ա Բ Գ Դ Ե Զ Է Ը Թ Ժ Ի Լ Խ Ծ Կ
0540 Հ Ձ Ղ Ճ Մ Յ Ն Շ Ո Չ Պ Ջ Ռ Ս Վ Տ
0550 Ր Ց Ւ Փ Ք Օ Ֆ     ՙ ՚ ՛ ՜ ՝ ՞ ՟
0560   ա բ գ դ ե զ է ը թ ժ ի լ խ ծ կ
0570 հ ձ ղ ճ մ յ ն շ ո չ պ ջ ռ ս վ տ
0580 ր ց ւ փ ք օ ֆ և   ։ ֊          
0590   ֑ ֒ ֓ ֔ ֕ ֖ ֗ ֘ ֙ ֚ ֛ ֜ ֝ ֞ ֟
05A0 ֠ ֡ ֢ ֣ ֤ ֥ ֦ ֧ ֨ ֩ ֪ ֫ ֬ ֭ ֮ ֯
05B0 ְ ֱ ֲ ֳ ִ ֵ ֶ ַ ָ ֹ   ֻ ּ ֽ ־ ֿ
05C0 ׀ ׁ ׂ ׃ ׄ ׅ ׆ ׇ                
05D0 א ב ג ד ה ו ז ח ט י ך כ ל ם מ ן
05E0 נ ס ע ף פ ץ צ ק ר ש ת          
05F0 װ ױ ײ ׳ ״                      
U+0123456789ABCDEF
0600                       ؋ ، ؍ ؎ ؏
0610 ؐ ؑ ؒ ؓ ؔ ؕ           ؛     ؞ ؟
0620   ء آ أ ؤ إ ئ ا ب ة ت ث ج ح خ د
0630 ذ ر ز س ش ص ض ط ظ ع غ          
0640 ـ ف ق ك ل م ن ه و ى ي ً ٌ ٍ َ ُ
0650 ِ ّ ْ ٓ ٔ ٕ ٖ ٗ ٘ ٙ ٚ ٛ ٜ ٝ ٞ  
0660 ٠ ١ ٢ ٣ ٤ ٥ ٦ ٧ ٨ ٩ ٪ ٫ ٬ ٭ ٮ ٯ
0670 ٰ ٱ ٲ ٳ ٴ ٵ ٶ ٷ ٸ ٹ ٺ ٻ ټ ٽ پ ٿ
0680 ڀ ځ ڂ ڃ ڄ څ چ ڇ ڈ ډ ڊ ڋ ڌ ڍ ڎ ڏ
0690 ڐ ڑ ڒ ړ ڔ ڕ ږ ڗ ژ ڙ ښ ڛ ڜ ڝ ڞ ڟ
06A0 ڠ ڡ ڢ ڣ ڤ ڥ ڦ ڧ ڨ ک ڪ ګ ڬ ڭ ڮ گ
06B0 ڰ ڱ ڲ ڳ ڴ ڵ ڶ ڷ ڸ ڹ ں ڻ ڼ ڽ ھ ڿ
06C0 ۀ ہ ۂ ۃ ۄ ۅ ۆ ۇ ۈ ۉ ۊ ۋ ی ۍ ێ ۏ
06D0 ې ۑ ے ۓ ۔ ە ۖ ۗ ۘ ۙ ۚ ۛ ۜ ۝ ۞ ۟
06E0 ۠ ۡ ۢ ۣ ۤ ۥ ۦ ۧ ۨ ۩ ۪ ۫ ۬ ۭ ۮ ۯ
06F0 ۰ ۱ ۲ ۳ ۴ ۵ ۶ ۷ ۸ ۹ ۺ ۻ ۼ ۽ ۾ ۿ
U+0123456789ABCDEF
0700 ܀ ܁ ܂ ܃ ܄ ܅ ܆ ܇ ܈ ܉ ܊ ܋ ܌ ܍    
0710 ܐ ܑ ܒ ܓ ܔ ܕ ܖ ܗ ܘ ܙ ܚ ܛ ܜ ܝ ܞ ܟ
0720 ܠ ܡ ܢ ܣ ܤ ܥ ܦ ܧ ܨ ܩ ܪ ܫ ܬ ܭ ܮ ܯ
0730 ܰ ܱ ܲ ܳ ܴ ܵ ܶ ܷ ܸ ܹ ܺ ܻ ܼ ܽ ܾ ܿ
0740 ݀ ݁ ݂ ݃ ݄ ݅ ݆ ݇ ݈ ݉ ݊     ݍ ݎ ݏ
0750 ݐ ݑ ݒ ݓ ݔ ݕ ݖ ݗ ݘ ݙ ݚ ݛ ݜ ݝ ݞ ݟ
0760 ݠ ݡ ݢ ݣ ݤ ݥ ݦ ݧ ݨ ݩ ݪ ݫ ݬ ݭ    
0770                                
0780 ހ ށ ނ ރ ބ ޅ ކ އ ވ މ ފ ދ ތ ލ ގ ޏ
0790 ސ ޑ ޒ ޓ ޔ ޕ ޖ ޗ ޘ ޙ ޚ ޛ ޜ ޝ ޞ ޟ
07A0 ޠ ޡ ޢ ޣ ޤ ޥ ަ ާ ި ީ ު ޫ ެ ޭ ޮ ޯ
07B0 ް ޱ                            
07C0                                
07D0                                
07E0                                
07F0                                
U+0123456789ABCDEF
0800                                
0810                                
0820                                
0830                                
0840                                
0850                                
0860                                
0870                                
0880                                
0890                                
08A0                                
08B0                                
08C0                                
08D0                                
08E0                                
08F0                                
U+0123456789ABCDEF
0900  
0910
0920
0930     ि
0940    
0950      
0960
0970                            
0980        
0990    
09A0  
09B0             ি
09C0          
09D0                        
09E0    
09F0          
U+0123456789ABCDEF
0A00            
0A10    
0A20  
0A30             ਿ
0A40                
0A50                      
0A60            
0A70                      
0A80      
0A90  
0AA0  
0AB0         િ
0AC0        
0AD0                              
0AE0    
0AF0                              
U+0123456789ABCDEF
0B00        
0B10    
0B20  
0B30         ି
0B40              
0B50                      
0B60        
0B70                            
0B80            
0B90            
0BA0                  
0BB0         ி
0BC0            
0BD0                              
0BE0            
0BF0          
U+0123456789ABCDEF
0C00      
0C10  
0C20  
0C30           ి
0C40        
0C50                            
0C60        
0C70                                
0C80        
0C90  
0CA0  
0CB0       ಿ
0CC0        
0CD0                          
0CE0        
0CF0                                
U+0123456789ABCDEF
0D00        
0D10  
0D20  
0D30         ി
0D40          
0D50                              
0D60        
0D70                                
0D80      
0D90      
0DA0
0DB0        
0DC0              
0DD0    
0DE0                                
0DF0                          
U+0123456789ABCDEF
0E00  
0E10
0E20
0E30         ฿
0E40
0E50        
0E60                                
0E70                                
0E80                  
0E90          
0EA0            
0EB0      
0EC0        
0ED0        
0EE0                                
0EF0                                
U+0123456789ABCDEF
0F00
0F10
0F20
0F30 ༿
0F40  
0F50
0F60          
0F70   ཿ
0F80        
0F90  
0FA0
0FB0   ྿
0FC0    
0FD0                            
0FE0                                
0FF0                                
 
 
--------------------------------------------------
不可见字符过滤方案
 

public static String replaceUnicode(String sourceStr)
{
String regEx= "["+
"\u0000-\u001F"+//:C0控制符及基本拉丁文 (C0 Control and Basic Latin)
"\u007F-\u00A0" +//:特殊 (Specials);
"]";
Pattern pattern=Pattern.compile(regEx);
Matcher matcher=pattern.matcher(sourceStr);
return matcher.replaceAll("");
}

 

如果都喜欢替换 则修改正则表达式如下:

  1. String regEx= "["+  
  2.                 "\u4E00-\u9FBF"+//:CJK 统一表意符号 (CJK Unified Ideographs)  
  3.                 "\u4DC0-\u4DFF"+//:易经六十四卦符号 (Yijing Hexagrams Symbols)  
  4.                 "\u0000-\u007F"+//:C0控制符及基本拉丁文 (C0 Control and Basic Latin)  
  5.                 "\u0080-\u00FF"+//:C1控制符及拉丁:补充-1 (C1 Control and Latin 1 Supplement)  
  6.                 "\u0100-\u017F"+//:拉丁文扩展-A (Latin Extended-A)  
  7.                 "\u0180-\u024F"+//:拉丁文扩展-B (Latin Extended-B)  
  8.                 "\u0250-\u02AF"+//:国际音标扩展 (IPA Extensions)  
  9.                 "\u02B0-\u02FF"+//:空白修饰字母 (Spacing Modifiers)  
  10.                 "\u0300-\u036F"+//:结合用读音符号 (Combining Diacritics Marks)  
  11.                 "\u0370-\u03FF"+//:希腊文及科普特文 (Greek and Coptic)  
  12.                 "\u0400-\u04FF"+//:西里尔字母 (Cyrillic)  
  13.                 "\u0500-\u052F"+//:西里尔字母补充 (Cyrillic Supplement)  
  14.                 "\u0530-\u058F"+//:亚美尼亚语 (Armenian)  
  15.                 "\u0590-\u05FF"+//:希伯来文 (Hebrew)  
  16.                 "\u0600-\u06FF"+//:阿拉伯文 (Arabic)  
  17.                 "\u0700-\u074F"+//:叙利亚文 (Syriac)  
  18.                 "\u0750-\u077F"+//:阿拉伯文补充 (Arabic Supplement)  
  19.                 "\u0780-\u07BF"+//:马尔代夫语 (Thaana)  
  20.                 //"\u07C0-\u077F"+//:西非书面语言 (N'Ko)  
  21.                 "\u0800-\u085F"+//:阿维斯塔语及巴列维语 (Avestan and Pahlavi)  
  22.                 "\u0860-\u087F"+//:Mandaic  
  23.                 "\u0880-\u08AF"+//:撒马利亚语 (Samaritan)  
  24.                 "\u0900-\u097F"+//:天城文书 (Devanagari)  
  25.                 "\u0980-\u09FF"+//:孟加拉语 (Bengali)  
  26.                 "\u0A00-\u0A7F"+//:锡克教文 (Gurmukhi)  
  27.                 "\u0A80-\u0AFF"+//:古吉拉特文 (Gujarati)  
  28.                 "\u0B00-\u0B7F"+//:奥里亚文 (Oriya)  
  29.                 "\u0B80-\u0BFF"+//:泰米尔文 (Tamil)  
  30.                 "\u0C00-\u0C7F"+//:泰卢固文 (Telugu)  
  31.                 "\u0C80-\u0CFF"+//:卡纳达文 (Kannada)  
  32.                 "\u0D00-\u0D7F"+//:德拉维族语 (Malayalam)  
  33.                 "\u0D80-\u0DFF"+//:僧伽罗语 (Sinhala)  
  34.                 "\u0E00-\u0E7F"+//:泰文 (Thai)  
  35.                 "\u0E80-\u0EFF"+//:老挝文 (Lao)  
  36.                 "\u0F00-\u0FFF"+//:藏文 (Tibetan)  
  37.                 "\u1000-\u109F"+//:缅甸语 (Myanmar)  
  38.                 "\u10A0-\u10FF"+//:格鲁吉亚语 (Georgian)  
  39.                 "\u1100-\u11FF"+//:朝鲜文 (Hangul Jamo)  
  40.                 "\u1200-\u137F"+//:埃塞俄比亚语 (Ethiopic)  
  41.                 "\u1380-\u139F"+//:埃塞俄比亚语补充 (Ethiopic Supplement)  
  42.                 "\u13A0-\u13FF"+//:切罗基语 (Cherokee)  
  43.                 "\u1400-\u167F"+//:统一加拿大土著语音节 (Unified Canadian Aboriginal Syllabics)  
  44.                 "\u1680-\u169F"+//:欧甘字母 (Ogham)  
  45.                 "\u16A0-\u16FF"+//:如尼文 (Runic)  
  46.                 "\u1700-\u171F"+//:塔加拉语 (Tagalog)  
  47.                 "\u1720-\u173F"+//:Hanunóo  
  48.                 "\u1740-\u175F"+//:Buhid  
  49.                 "\u1760-\u177F"+//:Tagbanwa  
  50.                 "\u1780-\u17FF"+//:高棉语 (Khmer)  
  51.                 "\u1800-\u18AF"+//:蒙古文 (Mongolian)  
  52.                 "\u18B0-\u18FF"+//:Cham  
  53.                 "\u1900-\u194F"+//:Limbu  
  54.                 "\u1950-\u197F"+//:德宏泰语 (Tai Le)  
  55.                 "\u1980-\u19DF"+//:新傣仂语 (New Tai Lue)  
  56.                 "\u19E0-\u19FF"+//:高棉语记号 (Kmer Symbols)  
  57.                 "\u1A00-\u1A1F"+//:Buginese  
  58.                 "\u1A20-\u1A5F"+//:Batak  
  59.                 "\u1A80-\u1AEF"+//:Lanna  
  60.                 "\u1B00-\u1B7F"+//:巴厘语 (Balinese)  
  61.                 "\u1B80-\u1BB0"+//:巽他语 (Sundanese)  
  62.                 "\u1BC0-\u1BFF"+//:Pahawh Hmong  
  63.                 "\u1C00-\u1C4F"+//:雷布查语(Lepcha)  
  64.                 "\u1C50-\u1C7F"+//:Ol Chiki  
  65.                 "\u1C80-\u1CDF"+//:曼尼普尔语 (Meithei/Manipuri)  
  66.                 "\u1D00-\u1D7F"+//:语音学扩展 (Phone tic Extensions)  
  67.                 "\u1D80-\u1DBF"+//:语音学扩展补充 (Phonetic Extensions Supplement)  
  68.                 "\u1DC0-\u1DFF"+//结合用读音符号补充 (Combining Diacritics Marks Supplement)  
  69.                 "\u1E00-\u1EFF"+//:拉丁文扩充附加 (Latin Extended Additional)  
  70.                 "\u1F00-\u1FFF"+//:希腊语扩充 (Greek Extended)  
  71.                 "\u2000-\u206F"+//:常用标点 (General Punctuation)  
  72.                 "\u2070-\u209F"+//:上标及下标 (Superscripts and Subscripts)  
  73.                 "\u20A0-\u20CF"+//:货币符号 (Currency Symbols)  
  74.                 "\u20D0-\u20FF"+//:组合用记号 (Combining Diacritics Marks for Symbols)  
  75.                 "\u2100-\u214F"+//:字母式符号 (Letterlike Symbols)  
  76.                 "\u2150-\u218F"+//:数字形式 (Number Form)  
  77.                 "\u2190-\u21FF"+//:箭头 (Arrows)  
  78.                 "\u2200-\u22FF"+//:数学运算符 (Mathematical Operator)  
  79.                 "\u2300-\u23FF"+//:杂项工业符号 (Miscellaneous Technical)  
  80.                 "\u2400-\u243F"+//:控制图片 (Control Pictures)  
  81.                 "\u2440-\u245F"+//:光学识别符 (Optical Character Recognition)  
  82.                 "\u2460-\u24FF"+//:封闭式字母数字 (Enclosed Alphanumerics)  
  83.                 "\u2500-\u257F"+//:制表符 (Box Drawing)  
  84.                 "\u2580-\u259F"+//:方块元素 (Block Element)  
  85.                 "\u25A0-\u25FF"+//:几何图形 (Geometric Shapes)  
  86.                 "\u2600-\u26FF"+//:杂项符号 (Miscellaneous Symbols)  
  87.                 "\u2700-\u27BF"+//:印刷符号 (Dingbats)  
  88.                 "\u27C0-\u27EF"+//:杂项数学符号-A (Miscellaneous Mathematical Symbols-A)  
  89.                 "\u27F0-\u27FF"+//:追加箭头-A (Supplemental Arrows-A)  
  90.                 "\u2800-\u28FF"+//:盲文点字模型 (Braille Patterns)  
  91.                 "\u2900-\u297F"+//:追加箭头-B (Supplemental Arrows-B)  
  92.                 "\u2980-\u29FF"+//:杂项数学符号-B (Miscellaneous Mathematical Symbols-B)  
  93.                 "\u2A00-\u2AFF"+//:追加数学运算符 (Supplemental Mathematical Operator)  
  94.                 "\u2B00-\u2BFF"+//:杂项符号和箭头 (Miscellaneous Symbols and Arrows)  
  95.                 "\u2C00-\u2C5F"+//:格拉哥里字母 (Glagolitic)  
  96.                 "\u2C60-\u2C7F"+//:拉丁文扩展-C (Latin Extended-C)  
  97.                 "\u2C80-\u2CFF"+//:古埃及语 (Coptic)  
  98.                 "\u2D00-\u2D2F"+//:格鲁吉亚语补充 (Georgian Supplement)  
  99.                 "\u2D30-\u2D7F"+//:提非纳文 (Tifinagh)  
  100.                 "\u2D80-\u2DDF"+//:埃塞俄比亚语扩展 (Ethiopic Extended)  
  101.                 "\u2E00-\u2E7F"+//:追加标点 (Supplemental Punctuation)  
  102.                 "\u2E80-\u2EFF"+//:CJK 部首补充 (CJK Radicals Supplement)  
  103.                 "\u2F00-\u2FDF"+//:康熙字典部首 (Kangxi Radicals)  
  104.                 "\u2FF0-\u2FFF"+//:表意文字描述符 (Ideographic Description Characters)  
  105.                 "\u3000-\u303F"+//:CJK 符号和标点 (CJK Symbols and Punctuation)  
  106.                 "\u3040-\u309F"+//:日文平假名 (Hiragana)  
  107.                 "\u30A0-\u30FF"+//:日文片假名 (Katakana)  
  108.                 "\u3100-\u312F"+//:注音字母 (Bopomofo)  
  109.                 "\u3130-\u318F"+//:朝鲜文兼容字母 (Hangul Compatibility Jamo)  
  110.                 "\u3190-\u319F"+//:象形字注释标志 (Kanbun)  
  111.                 "\u31A0-\u31BF"+//:注音字母扩展 (Bopomofo Extended)  
  112.                 "\u31C0-\u31EF"+//:CJK 笔画 (CJK Strokes)  
  113.                 "\u31F0-\u31FF"+//:日文片假名语音扩展 (Katakana Phonetic Extensions)  
  114.                 "\u3200-\u32FF"+//:封闭式 CJK 文字和月份 (Enclosed CJK Letters and Months)  
  115.                 "\u3300-\u33FF"+//:CJK 兼容 (CJK Compatibility)  
  116.                 "\u3400-\u4DBF"+//:CJK 统一表意符号扩展 A (CJK Unified Ideographs Extension A)  
  117.                 "\u4DC0-\u4DFF"+//:易经六十四卦符号 (Yijing Hexagrams Symbols)  
  118.                 "\u4E00-\u9FBF"+//:CJK 统一表意符号 (CJK Unified Ideographs)  
  119.                 "\uA000-\uA48F"+//:彝文音节 (Yi Syllables)  
  120.                 "\uA490-\uA4CF"+//:彝文字根 (Yi Radicals)  
  121.                 "\uA500-\uA61F"+//:Vai  
  122.                 "\uA660-\uA6FF"+//:统一加拿大土著语音节补充 (Unified Canadian Aboriginal Syllabics Supplement)  
  123.                 "\uA700-\uA71F"+//:声调修饰字母 (Modifier Tone Letters)  
  124.                 "\uA720-\uA7FF"+//:拉丁文扩展-D (Latin Extended-D)  
  125.                 "\uA800-\uA82F"+//:Syloti Nagri  
  126.                 "\uA840-\uA87F"+//:八思巴字 (Phags-pa)  
  127.                 "\uA880-\uA8DF"+//:Saurashtra  
  128.                 "\uA900-\uA97F"+//:爪哇语 (Javanese)  
  129.                 "\uA980-\uA9DF"+//:Chakma  
  130.                 "\uAA00-\uAA3F"+//:Varang Kshiti  
  131.                 "\uAA40-\uAA6F"+//:Sorang Sompeng  
  132.                 "\uAA80-\uAADF"+//:Newari  
  133.                 "\uAB00-\uAB5F"+//:越南傣语 (Vi?t Thái)  
  134.                 "\uAB80-\uABA0"+//:Kayah Li  
  135.                 "\uAC00-\uD7AF"+//:朝鲜文音节 (Hangul Syllables)  
  136.                 //"\uD800-\uDBFF"+//:High-half zone of UTF-16  
  137.                 //"\uDC00-\uDFFF"+//:Low-half zone of UTF-16  
  138.                 "\uE000-\uF8FF"+//:自行使用区域 (Private Use Zone)  
  139.                 "\uF900-\uFAFF"+//:CJK 兼容象形文字 (CJK Compatibility Ideographs)  
  140.                 "\uFB00-\uFB4F"+//:字母表达形式 (Alphabetic Presentation Form)  
  141.                 "\uFB50-\uFDFF"+//:阿拉伯表达形式A (Arabic Presentation Form-A)  
  142.                 "\uFE00-\uFE0F"+//:变量选择符 (Variation Selector)  
  143.                 "\uFE10-\uFE1F"+//:竖排形式 (Vertical Forms)  
  144.                 "\uFE20-\uFE2F"+//:组合用半符号 (Combining Half Marks)  
  145.                 "\uFE30-\uFE4F"+//:CJK 兼容形式 (CJK Compatibility Forms)  
  146.                 "\uFE50-\uFE6F"+//:小型变体形式 (Small Form Variants)  
  147.                 "\uFE70-\uFEFF"+//:阿拉伯表达形式B (Arabic Presentation Form-B)  
  148.                 "\uFF00-\uFFEF"+//:半型及全型形式 (Halfwidth and Fullwidth Form)  
  149.                 "\uFFF0-\uFFFF]";//:特殊 (Specials);  
 

posted on 2018-01-02 13:52  范兵  阅读(14235)  评论(0编辑  收藏  举报

导航