随笔分类 -  VC++ Unicode编码理论

摘要:2.6.5.ANSI字符编码和Windows 1252Windows为了支持英语和西欧字符,自己设计了一个编码,对应的在Code Page号是1252,被称为Windows 1252。Windows 1252的设计,是参考了ANSI草案(ANSI Draft)。而ANSI draft后来发展成为正式... 阅读全文
posted @ 2015-10-28 19:18 findumars 阅读(2278) 评论(0) 推荐(0) 编辑
摘要:ASCII第一次以规范标准的型态发表是在1967年,最后一次更新则是在1986年,至今为止共定义了128个字元;其中33个字元无法显示(一些终端提供了扩展,使得这些字符可显示为诸如笑脸、扑克牌花式等8-bit符号)参考:https://zh.wikipedia.org/wiki/ASCII-----... 阅读全文
posted @ 2015-08-31 22:17 findumars 阅读(1914) 评论(0) 推荐(0) 编辑
摘要:小时候玩游戏,好多游戏都是台湾的,印象最深的就是曹操成了“变巨”,这里怀念一下,然后搜索到了这些人名对照列表: 变巨 曹操 愈残 袁绍 尝古 郭嘉 尝瓜 郭图赋惩 董卓地动 华雄 化冻 赵云奖窜 蒋钦 尝生 郭汜 愈糜 袁术龙笑 韩遂 吵辆 陶谦 堪称 刘备 凯乃 马腾 愈残 袁绍 蒜炊 程普 眎狂 阅读全文
posted @ 2015-06-20 22:45 findumars 阅读(11123) 评论(0) 推荐(0) 编辑
摘要:Windows首先将文本数据转换到它内部使用的编码格式:Unicode,然后按照文本的Unicode去字体文件中查找字体图像,最后将图像显示到窗口上。 总结一下前面的分析,文字的显示应该是这样的:步骤1:文字首先以某种编码保存在文件中。步骤2:Windows将文件中的文字编码映射到Unicode。步... 阅读全文
posted @ 2015-06-20 22:27 findumars 阅读(694) 评论(0) 推荐(0) 编辑
摘要:Unicode字符编码规范http://www.aoxiang.org 2006-4-2 10:48:02Unicode是一种字符编码规范 。 先从ASCII说起。ASCII是用来表示英文字符的一种编码规范,每个ASCII字符占用1个字节(8bits) 因此,ASCII编码可以表示的最大字符数是... 阅读全文
posted @ 2015-06-20 22:16 findumars 阅读(558) 评论(1) 推荐(0) 编辑
摘要:最初的unicode编码是固定长度的,16位,也就是2两个字节代表一个字符,这样一共可以表示65536个字符。显然,这样要表示各种语言中所有的字符是远远不够的。Unicode4.0规范考虑到了这种情况,定义了一组附加字符编码,附加字符编码采用2个16位来表示,这样最多可以定义1048576个附加字符... 阅读全文
posted @ 2015-06-20 21:40 findumars 阅读(1475) 评论(1) 推荐(0) 编辑
摘要:我有一个问题是:是不是会有个别汉字无法在Unicode下表示,这种情况下就不能完全显示了? 各种编码查询表:http://bm.kdd.cc/ Unicode汉字编码表 1 Unicode编码表 Unicode只有一个字符集,中、日、韩的三种文字占用了Unicode中0x3000到0x9FFF的部分 阅读全文
posted @ 2015-05-31 23:49 findumars 阅读(13376) 评论(0) 推荐(0) 编辑
摘要:各种编码查询表:http://bm.kdd.cc/由于GB 2312-80只收录6763个汉字,有不少汉字,如部分在GB 2312-80推出以后才简化的汉字(如“啰”),部分人名用字(如中国前总理朱镕基的“镕”字),台湾及香港使用的繁体字,日语及朝鲜语汉字等,并未有收录在内。于是厂商微软利用GB 2... 阅读全文
posted @ 2015-05-31 02:40 findumars 阅读(18348) 评论(0) 推荐(0) 编辑
摘要:汉=BABA(内码)=-A0A0=2626(区位码)字=D7D6(内码)=-A0A0=5554(区位码) 各种编码查询表:http://bm.kdd.cc/ 汉(记住它,以后碰到内存里的数值,就会有敏感性了,会方便测试)utf8 = E6 B1 89unicode = 6C 49 ,在Delphi2 阅读全文
posted @ 2015-05-31 00:49 findumars 阅读(3114) 评论(0) 推荐(0) 编辑
摘要:各种编码查询表:http://bm.kdd.cc/输入 ALT + 50385 就出 难 字了,原因是它的十六进制ANSI编码是C4D1=50385同理:汉=BABA=47802字=D7D6=55254中=D6D0=54992文=CEC4=52932国=B9FA=47610华=BBAA=48042夏... 阅读全文
posted @ 2015-05-29 17:34 findumars 阅读(1635) 评论(0) 推荐(0) 编辑
摘要:都是有些模糊的概念,特别是Unicode不包括古代字符让我有点惊讶。看来Unicode只适用于大多数情况,一旦有无法表示的字符,那该怎么办呢?ANSI针对英语设计的,当处理带有音调标号(形如汉语的拼音)的欧洲文字时就会出现问题。因此,创建出了一些包括255个字符的由ASCII扩展的字符集。其中有一种... 阅读全文
posted @ 2014-10-24 23:16 findumars 阅读(1221) 评论(0) 推荐(0) 编辑
摘要:等有空有空补充新的信息或者自己的心得。目前没发现C和C++的两个表有什么区别。C:decocthexchdecocthexchdecocthexchdecocthexch0000NUL(null)324020(space)6410040@9614060`1101SOH(start of header... 阅读全文
posted @ 2014-04-28 20:11 findumars 阅读(4975) 评论(0) 推荐(0) 编辑
摘要:UTF-8 不需要 BOM,尽管 Unicode 标准允许在 UTF-8 中使用 BOM。所以不含 BOM 的 UTF-8 才是标准形式,在 UTF-8 文件中放置 BOM 主要是微软的习惯(顺便提一下:把带有 BOM 的小端序 UTF-16 称作「Unicode」而又不详细说明,这也是微软的习惯)。BOM(byte order mark)是为 UTF-16 和 UTF-32 准备的,用于标记字节序(byte order)。微软在 UTF-8 中使用 BOM 是因为这样可以把 UTF-8 和 ASCII 等编码明确区分开,但这样的文件在 Windows 之外的操作系统里会带来问题。「UTF-8 阅读全文
posted @ 2014-03-24 06:33 findumars 阅读(46231) 评论(9) 推荐(10) 编辑
摘要:虽然东西都是现成的。但是也要脑子里有个概念。// 地区与语言GetACP 取得 ANSI code page,法语XP+设置中文内核 = 936 // ShowMessage(IntToStr(GetACP));GetThreadLocale 法语XP+设置中文内核 = 2052,纯法语 103... 阅读全文
posted @ 2013-11-30 18:36 findumars 阅读(2453) 评论(0) 推荐(0) 编辑
摘要:常用代码页:CP437 IBM437 OEM United StatesCP1252表示West European LatinCP932 日本CP949 韩国CP936表示GBK中文编码CP54936表示GB18030编码(4 byte)CP950表示BIG5繁体中文WIN-1251 -> OEM-866 (Win2Dos)WIN-1251 -> KOI8-R 1251是斯拉夫语系的编号,什么是斯拉夫语系呢?斯拉夫语系就是前苏联各国家使用的语言,现在就是俄语、乌克兰语、卢森堡语、白俄罗斯语、保加利亚语、塞尔维亚语、马其顿语等KOI8-R 是KOI-8系列的斯拉夫文字8位元编码,供俄 阅读全文
posted @ 2013-07-27 04:14 findumars 阅读(2528) 评论(0) 推荐(0) 编辑