VC++ Unicode编码理论 - 随笔分类(第2页) - findumars

Windows 1252和ISO 8859-1之间的区别（ISO 8859-1就是Latin-1，但1252与Latin1略有不同）

摘要：2.6.5.ANSI字符编码和Windows 1252Windows为了支持英语和西欧字符，自己设计了一个编码，对应的在Code Page号是1252，被称为Windows 1252。Windows 1252的设计，是参考了ANSI草案(ANSI Draft)。而ANSI draft后来发展成为正式... 阅读全文

posted @ 2015-10-28 19:18 findumars 阅读(2278) 评论(0) 推荐(0) 编辑

ASCII是指128个字符（不是256个）和ASCII Extended Characters（就是那些奇怪的外文字符）

摘要：ASCII第一次以规范标准的型态发表是在1967年，最后一次更新则是在1986年，至今为止共定义了128个字元；其中33个字元无法显示（一些终端提供了扩展，使得这些字符可显示为诸如笑脸、扑克牌花式等8-bit符号）参考：https://zh.wikipedia.org/wiki/ASCII-----... 阅读全文

posted @ 2015-08-31 22:17 findumars 阅读(1914) 评论(0) 推荐(0) 编辑

曹操成为“变巨”的原因

摘要：小时候玩游戏，好多游戏都是台湾的，印象最深的就是曹操成了“变巨”，这里怀念一下，然后搜索到了这些人名对照列表：变巨曹操愈残袁绍尝古郭嘉尝瓜郭图赋惩董卓地动华雄　化冻赵云奖窜蒋钦　尝生郭汜愈糜袁术龙笑韩遂吵辆陶谦堪称刘备凯乃马腾愈残袁绍蒜炊程普眎狂阅读全文

posted @ 2015-06-20 22:45 findumars 阅读(11123) 评论(0) 推荐(0) 编辑

Windows读取文本文件后的显示过程

摘要：Windows首先将文本数据转换到它内部使用的编码格式：Unicode，然后按照文本的Unicode去字体文件中查找字体图像，最后将图像显示到窗口上。总结一下前面的分析，文字的显示应该是这样的：步骤1：文字首先以某种编码保存在文件中。步骤2：Windows将文件中的文字编码映射到Unicode。步... 阅读全文

posted @ 2015-06-20 22:27 findumars 阅读(694) 评论(0) 推荐(0) 编辑

BOM的来源是不可能出现的字符，GB2312双字节高位都是1，Unicode理论的根本缺陷导致UTF8的诞生

摘要：Unicode字符编码规范http://www.aoxiang.org 2006-4-2 10:48:02Unicode是一种字符编码规范。先从ASCII说起。ASCII是用来表示英文字符的一种编码规范，每个ASCII字符占用1个字节（8bits）因此，ASCII编码可以表示的最大字符数是... 阅读全文

posted @ 2015-06-20 22:16 findumars 阅读(558) 评论(1) 推荐(0) 编辑

UCS-2和UTF8的四个新知识点和新的疑问

摘要：最初的unicode编码是固定长度的，16位，也就是2两个字节代表一个字符，这样一共可以表示65536个字符。显然，这样要表示各种语言中所有的字符是远远不够的。Unicode4.0规范考虑到了这种情况，定义了一组附加字符编码，附加字符编码采用2个16位来表示，这样最多可以定义1048576个附加字符... 阅读全文

posted @ 2015-06-20 21:40 findumars 阅读(1475) 评论(1) 推荐(0) 编辑

简体和繁体加起来有六七万个汉字，所以Unicode只能排除一些几乎不用的汉字，Unicode编码的熟悉与研究过程（内附全部汉字编码列表）

摘要：我有一个问题是：是不是会有个别汉字无法在Unicode下表示，这种情况下就不能完全显示了？各种编码查询表：http://bm.kdd.cc/ Unicode汉字编码表 1 Unicode编码表 Unicode只有一个字符集，中、日、韩的三种文字占用了Unicode中0x3000到0x9FFF的部分阅读全文

posted @ 2015-05-31 23:49 findumars 阅读(13376) 评论(0) 推荐(0) 编辑

对GBK的理解（内附全部字符编码列表）：扩充的2万汉字低字节的高位不等于1，而且还剩许多编码空间没有利用

摘要：各种编码查询表：http://bm.kdd.cc/由于GB 2312-80只收录6763个汉字，有不少汉字，如部分在GB 2312-80推出以后才简化的汉字（如“啰”），部分人名用字（如中国前总理朱镕基的“镕”字），台湾及香港使用的繁体字，日语及朝鲜语汉字等，并未有收录在内。于是厂商微软利用GB 2... 阅读全文

posted @ 2015-05-31 02:40 findumars 阅读(18348) 评论(0) 推荐(0) 编辑

汉字与区位码互转(天天使用Delphi的String存储的是内码，Windows记事本存储的文件也是内码)，几个常见汉字的各种编码，utf8与unicode的编码在线查询，附有读书笔记 good

摘要：汉=BABA(内码)=-A0A0=2626(区位码)字=D7D6(内码)=-A0A0=5554(区位码) 各种编码查询表：http://bm.kdd.cc/ 汉（记住它，以后碰到内存里的数值，就会有敏感性了，会方便测试）utf8 = E6 B1 89unicode = 6C 49 ，在Delphi2 阅读全文

posted @ 2015-05-31 00:49 findumars 阅读(3114) 评论(0) 推荐(0) 编辑

ALT+数字，可输入汉字或拉丁字母 good

摘要：各种编码查询表：http://bm.kdd.cc/输入 ALT + 50385 就出难字了，原因是它的十六进制ANSI编码是C4D1=50385同理：汉=BABA=47802字=D7D6=55254中=D6D0=54992文=CEC4=52932国=B9FA=47610华=BBAA=48042夏... 阅读全文

posted @ 2015-05-29 17:34 findumars 阅读(1635) 评论(0) 推荐(0) 编辑

几个Unicode新知识：扩展ANSI有很多种(256个字符)，Unicode表示ANSI字符时高字节为0，Unicode不包括古代字符

摘要：都是有些模糊的概念，特别是Unicode不包括古代字符让我有点惊讶。看来Unicode只适用于大多数情况，一旦有无法表示的字符，那该怎么办呢？ANSI针对英语设计的，当处理带有音调标号（形如汉语的拼音）的欧洲文字时就会出现问题。因此，创建出了一些包括255个字符的由ASCII扩展的字符集。其中有一种... 阅读全文

posted @ 2014-10-24 23:16 findumars 阅读(1221) 评论(0) 推荐(0) 编辑

C/C++ ASCII码表

摘要：等有空有空补充新的信息或者自己的心得。目前没发现C和C++的两个表有什么区别。C：decocthexchdecocthexchdecocthexchdecocthexch0000NUL(null)324020(space)6410040@9614060`1101SOH(start of header... 阅读全文

posted @ 2014-04-28 20:11 findumars 阅读(4975) 评论(0) 推荐(0) 编辑

UTF8最好不要带BOM，附许多经典评论

摘要：UTF-8 不需要 BOM，尽管 Unicode 标准允许在 UTF-8 中使用 BOM。所以不含 BOM 的 UTF-8 才是标准形式，在 UTF-8 文件中放置 BOM 主要是微软的习惯（顺便提一下：把带有 BOM 的小端序 UTF-16 称作「Unicode」而又不详细说明，这也是微软的习惯）。BOM（byte order mark）是为 UTF-16 和 UTF-32 准备的，用于标记字节序（byte order）。微软在 UTF-8 中使用 BOM 是因为这样可以把 UTF-8 和 ASCII 等编码明确区分开，但这样的文件在 Windows 之外的操作系统里会带来问题。「UTF-8 阅读全文

posted @ 2014-03-24 06:33 findumars 阅读(46231) 评论(9) 推荐(10) 编辑

一些WinAPI 处理字符的函数和连接（GetACP和SetThreadLocale最重要，还有SetConsoleCP）

摘要：虽然东西都是现成的。但是也要脑子里有个概念。// 地区与语言GetACP 取得 ANSI code page，法语XP+设置中文内核 = 936 // ShowMessage(IntToStr(GetACP));GetThreadLocale 法语XP+设置中文内核 = 2052，纯法语 103... 阅读全文

posted @ 2013-11-30 18:36 findumars 阅读(2453) 评论(0) 推荐(0) 编辑

常用代码页与BOM

摘要：常用代码页：CP437 IBM437 OEM United StatesCP1252表示West European LatinCP932 日本CP949 韩国CP936表示GBK中文编码CP54936表示GB18030编码（4 byte）CP950表示BIG5繁体中文WIN-1251 -> OEM-866 (Win2Dos)WIN-1251 -> KOI8-R 1251是斯拉夫语系的编号，什么是斯拉夫语系呢？斯拉夫语系就是前苏联各国家使用的语言，现在就是俄语、乌克兰语、卢森堡语、白俄罗斯语、保加利亚语、塞尔维亚语、马其顿语等KOI8-R 是KOI-8系列的斯拉夫文字8位元编码，供俄阅读全文

posted @ 2013-07-27 04:14 findumars 阅读(2528) 评论(0) 推荐(0) 编辑

云舰队七套件，不信不成功，睥睨天下

互联网思维与中国实际相结合是我朝开国之本，持续输出，不死不休

随笔分类 - VC++ Unicode编码理论

公告