随笔分类 -  VC++ Unicode编码理论

摘要:1. 当用一个软件(比如Windows记事本或Notepad++)打开一个文本文件时,它要做的第一件事是确定这个文本文件究竟是使用哪种编码方式保存的,以便于该软件对其正确解码,否则将显示为乱码。 一般软件确定文本文件编码方式的方法有如下三种: 检测文件头标识; 提示用户手动选择; 根据一定的规则自行 阅读全文
posted @ 2019-11-03 05:53 findumars 阅读(896) 评论(1) 推荐(2) 编辑
摘要:1. 首先要注意的是,代理Surrogate是专属于UTF-16编码方式的一种机制,UTF-8和UTF-32是不用代理的。 如前文所述,为了让UTF-16能继续编码基本平面后面的增补平面中的码点值,于是扩展了UTF-16编码方式。 具体的扩展方法就是为其增加了代理机制,用两个对应于基本平面码点(即B 阅读全文
posted @ 2019-11-03 05:39 findumars 阅读(1805) 评论(0) 推荐(1) 编辑
摘要:1.不间断空格\u00A0,主要用在office中,让一个单词在结尾处不会换行显示,快捷键ctrl+shift+space ; 2.半角空格(英文符号)\u0020,代码中常用的; 3.全角空格(中文符号)\u3000,中文文章中使用; PS:如果对文章有异议或建议请联系作者,谢谢! https:/ 阅读全文
posted @ 2019-02-13 01:24 findumars 阅读(5103) 评论(0) 推荐(0) 编辑
摘要:大家都知道计算机的存储在物理上是二进制的,所以文本文件与二进制文件的区别并不是物理上的,而是逻辑上的。这两者只是在编码层次上有差异。简单来说,文本文件是基于字符编码的文件,常见的编码有ASCII编码,UNICODE编码等等。二进制文件是基于值编码的文件,你可以根据具体应用,指定某个值是什么意思(这样 阅读全文
posted @ 2017-09-01 22:48 findumars 阅读(475) 评论(0) 推荐(0) 编辑
摘要:https://zh.wikipedia.org/wiki/Unicode 阅读全文
posted @ 2017-08-01 16:54 findumars 阅读(513) 评论(0) 推荐(0) 编辑
摘要:在计算机科学领域中,Unicode(统一码、万国码、单一码、标准万国码)是业界的一种标准,它可以使电脑得以体现世界上数十种文字的系统。Unicode 是基于通用字符集(Universal Character Set)的标准来发展,并且同时也以书本的形式[1]对外发表。Unicode 还不断在扩增, 阅读全文
posted @ 2017-07-06 21:59 findumars 阅读(749) 评论(0) 推荐(0) 编辑
摘要:小端存储的结果是 49 6C UTF-8有点类似于Haffman编码,它将Unicode编码为:0x00-0x7F的字符,用单个字节来表示;0x80-0x7FF的字符用两个字节表示;0x800-0xFFFF的字符用3字节表示; 汉字的unicode范围是:0x4E00~0x9FA5 其实这个范围还包 阅读全文
posted @ 2017-05-10 04:39 findumars 阅读(3727) 评论(1) 推荐(1) 编辑
摘要:ddd 阅读全文
posted @ 2017-04-04 15:00 findumars 阅读(261) 评论(0) 推荐(0) 编辑
摘要:时至今日,字符串使用unicode已经是不需要理由的常识,但对一些有着悠久历史的编程语言来说,这仍然是个头痛的问题。如果抛开第三方库的支持,C++其实并不能实际有效地支持unicode,即使是utf8。(注:本文讨论的是字符串在内存中的编码方案,而不是文件或网络数据流。)STL的string模板诞生 阅读全文
posted @ 2017-01-22 03:43 findumars 阅读(3033) 评论(0) 推荐(0) 编辑
摘要:Windows Locale Codes - Sortable list NOTE: Code page is an outdated method for character encoding, yet it is still in use.It is now preferable to use 阅读全文
posted @ 2017-01-06 23:58 findumars 阅读(550) 评论(0) 推荐(0) 编辑
摘要:UNICODE支持欧洲、非洲、中东、亚洲(包括统一标准的东亚象形汉字和韩国象形文字)。但是,UNICODE并没有提供对诸如Braille, Cherokee, Ethiopic, Khmer, Mongolian, Hmong, Tai Lu, Tai Mau文字的支持。同时它也不支持如Ahom, 阅读全文
posted @ 2016-10-09 22:54 findumars 阅读(229) 评论(0) 推荐(0) 编辑
摘要:很久很久以前,有一群人,他们决定用8个可以开合的晶体管来组合成不同的状态,以表示世界上的万物。他们看到8个开关状态是好的,于是他们把这称为"字节"。 再后来,他们又做了一些可以处理这些字节的机器,机器开动了,可以用字节来组合出很多状态,状态开始变来变去。他们看到这样是好的,于是它们就这机器称为"计算 阅读全文
posted @ 2016-08-26 17:22 findumars 阅读(596) 评论(0) 推荐(0) 编辑
摘要:[C] 纯文本查看 复制代码 01 #include <stdio.h> 02 void main( void ) 03 { 04 FILE *stream; 05 int i,j; 06 stream=fopen("ascii.txt","w+"); 07 //0-128:单个可打印字符,为字母或 阅读全文
posted @ 2016-06-03 18:16 findumars 阅读(5979) 评论(0) 推荐(0) 编辑
摘要:ISO-8859-1 (ISO Latin 1) Character Encoding Contents The characters at a glance Character codes and names Notes for html documents Other notes Additio 阅读全文
posted @ 2016-03-29 18:37 findumars 阅读(5551) 评论(0) 推荐(0) 编辑
摘要:在我们编写程序的时候,使用最多的是字符串的处理,而ANSI和UNICODE的相互转换经常搞的我们头晕眼乱。 应该说UNICODE是一种比较好的编码方式,在我们的程序中应该尽量使用UNICODE编码方式,我们在编写程序的时候,最好能依据下面的准则来进行: 基本准则: 1.将文本字符串想象为字符数组,而 阅读全文
posted @ 2016-03-18 01:51 findumars 阅读(1330) 评论(0) 推荐(0) 编辑
摘要:主要是80到9F的编码被改掉了。从latin1的控制字符,变成了可以输出的可见字符。latin1编码:ISO-8859-1x0x1x2x3x4x5x6x7x8x9xAxBxCxDxExF0xNULSOHSTXETXEOTENQACKBELBSHTLFVTFFCRSOSI1xDLEDC1DC2DC3D... 阅读全文
posted @ 2015-12-22 18:48 findumars 阅读(637) 评论(0) 推荐(0) 编辑
摘要:function GetWindowsLanguage: string; var WinLanguage: array [0..50] of char; begin VerLanguageName(GetSystemDefaultLangID, WinLanguage, 50); Result := StrPas(WinLanguage); e... 阅读全文
posted @ 2015-12-20 22:00 findumars 阅读(918) 评论(0) 推荐(0) 编辑
摘要:一、概念 1,ASCII ASCII(American Standard Code for Information Interchange),中文名称为美国信息交换标准代码。是基于拉丁字母的一套电脑编码系统。它主要用于显示现代英语和其他西欧语言。它是现今最通用的单字节编码系统。ASCII码又分为标准 阅读全文
posted @ 2015-11-30 06:05 findumars 阅读(3664) 评论(1) 推荐(1) 编辑
摘要:ASCII编码ASCII是基于拉丁字母的一套电脑编码系统。它主要用于显示现代英语和其他西欧语言。它是现今最通用的单字节编码系统,并等同于国际标准ISO/IEC 646。请注意,ASCII是American Standard Code for Information Interchange缩写,而不是... 阅读全文
posted @ 2015-10-28 19:24 findumars 阅读(4825) 评论(0) 推荐(0) 编辑

点击右上角即可分享
微信分享提示