几种编码方式
UTF-16是Unicode字符编码五层次模型的第三层,字符编码表(Character Encoding Form,)的一种实现方式。即把Unicode的字符集的抽象码位
映射为16位长的整数(即码元)的序列,用于数据存储或传递。Unicode字符的码位,需要1个或者2个16位长的码元来表示,因此这是一个变长表示。
UTF-16比起UTF-8,好处在于大部分字符都以固定长度的字节 (2字节) 储存,但UTF-16却无法兼容于ASCII编码。
Unicode(统一码、万国码、单一码)是计算机科学领域里的一项业界标准,包括字符集、编码方案等。Unicode 是为了解决传统的字符编码方案的局限而产生的,它为每种语言中的每个字符设定了统一并且唯一的二进制编码,以满足跨语言、跨平台进行文本转换、处理的要求。
GB2312是中国规定的汉字编码,也可以说是简体中文的字符集编码;
GBK是GB2312的扩展,除了兼容GB2312外,它还能显示繁体中文,还有日文的假名。
Unicode(统一码、万国码、单一码)是计算机科学领域里的一项业界标准,包括字符集、编码方案等。Unicode 是为了解决传统的字符编码方案的局限而产生的,它为每种语言中的每个字符设定了统一并且唯一的二进制编码,以满足跨语言、跨平台进行文本转换、处理的要求。
UTF-8和GBK的区别:
字符均使用双字节来表示,只不过区分中文,将其最高位都定成1.
至于UTF-8编码则是用以解决国际上字符的一种多字节编码,它对英文使用8位(即一个字节),中文
使用24位(三个字节)来编码。对于英文字符使用较多的论坛则用UTF-8节省空间。
GBK包括全部中文字符;UTF-8则包含全世界所有国家需要用到的字符。
UTF-8编码的文字可以在各国各种支持UTF-8字符集的浏览器上显示。
大家都使用过Word,Word在打开文本文件的时候,如果其检测不是系统默认编码,就会让用户选择,并且推荐一种编码给用户(有时候不一定对,因为猜,就有几率不对),让用户自己决定要用什么编码显示.
CSV文件:CSV(comma seperated value)即逗号分隔符,用记事本打开的话hi"a","b","c"这种格式,是文本文件。
好处:可以轻松的导入表格和数据库中,一行代表一条数据,这样就可以批量的导入导出数据库中的值,这种文件格式经常用来作为不同程序之间的数据交互的格式。
半角逗号 , 和全角逗号 ,的区别:
二者外观差不多,但是,半角逗号只占半个汉字的位置,而全角逗号占一个汉字的位置,半角逗号用在英文里面。
csv文件的创建:
你有一个TXT文件,并且各项之间以逗号分隔,那么你直接将扩展名改为CSV文件,以EXCEL打开,以逗号分隔的每一列就自动到了EXCEL的每一列中。
你也可以用EXCEL将你的内容存成CSV文件格式。
csv文件的具体文件格式:
1、每条记录占一行;
2、以逗号为分隔符;
3、逗号前后的空格会被忽略;
4、字段中包含有逗号,该字段必须用双引号括起来;
5、字段中包含有换行符,该字段必须用双引号括起来;
6、字段中包含有空格,该字段必须用双引号括起来;
7、字段中的双引号用两个引号来表示,相当于转义字符;
8、字段中如果由双引号,该字段必须用双引号括起来;
9、第一条记录,可以是段名。
文本文件和二进制文件的区别:
对于文本文件来说,每个字节(或每几个字节)的意义相同,你只要一个一个字节的读出来就OK了;而对于二进制文件来说,可能由4个字节保存了一个整型,
接下去有4个字节保存了一个浮点型等等。所以要想打开二进制文件需要了解它的文件格式。
要想知道文件格式,你可以用16进制编辑器打开一个二进制文件,然后猜测它的格式。
注意:不同操作系统的换行符之间的区别:
在windows中:
'/r':回车(Carriage Return),回到当前行的行首,而不会换到下一行;
'/n':换行(Line Feed),换到当前位置的下一行,而不会回到行首。
Unix与Mac系统中,每行结尾只有换行,即:/n,所以:
一个直接后果是,Unix/Mac系统下的文件在Windows里打开的话,所有文件会变成一行;而
Windows里的文件在Unix/Mac下打开的话,在每行的结尾可能会达到多出一个^M符号。