Linux字符集和编码

计算机内部，所有信息最终都是一个二进制值形式存放

字符集

字符集：charset是character set的简写，即二进制和字符的对应关系，不关注最终的存储形式

编码

字符集编码：encoding是charset encoding的简写。实现如何将字符转化为实际的二进制进行存储或相反，编码决定了空间的使用的大小

ASCII码

ASCII码：（American Standard Code for Information Interchange），美国制定的一套编码，，对英语字符与二进制位之间的关系，做了统一规定。
ASCII 码一共规定了128个字符的编码，占用了一个字节的后面7位，最前面的一位统一规定为 0

数字：

0 ---48（十进制）

字母：

A---65
a---97

回车（不可见）：

回车：老式打字机的喷头从右挪到左边来（回来原来的位置）
回车 --- od（十六进制）

换行：

换行：往上挪一行
换行 --- oa（十六进制）

linux和windows文本文件的区别：

linux中用oa（换行）表示回车和换行。
windows用oa 和od表示回车和换行。
出现这个差异的原因：早期unix内存很小，为了节约空间。

以十六进制的形式查看一个文件的内容： hexdump命令
windows文本文件转为linux文本文件： dos2unix工具

Unicode

Unicode：因为每个国家的语言不同，每个国家都有自己的标准，多语言混合的时候就会出现乱码。为了解决这个问题，发明了Unicode字符集

Unicode编码方案：

UTF-8：变长，1到4个字节

兼容ASCII码。用一个字节来表示常用的ASCII码，用2-4个字节表示不同国家的文字。

UTF-16：变长，2或4个字节

UTF-32：固定长度，4个字节

范例：修改LANG变量实现中文语言提示
更改LANG变量的值。
LANG=zh_CN.UTF-8

posted on 2022-06-10 17:35 背对背依靠阅读(462) 评论(0) 编辑收藏举报

刷新页面返回顶部

登录后才能查看或发表评论，立即登录或者逛逛博客园首页

相关博文：

· Linux cat、echo、seq、sort、cut、tr、diff、uniq

· Linux 目录结构

· 字符集与字符编码

· linux 字符集与编码格式相关

· 字符集和编码

阅读排行：
· 全程不用写代码，我用AI程序员写了一个飞机大战
· DeepSeek 开源周回顾「GitHub 热点速览」
· MongoDB 8.0这个新功能碉堡了，比商业数据库还牛
· 记一次.NET内存居高不下排查解决与启示
· 白话解读 Dapr 1.15：你的「微服务管家」又秀新绝活了

背对背依靠

Linux字符集和编码

字符集

编码

ASCII码

数字：

字母：

回车（不可见）：

换行：

linux和windows文本文件的区别：

Unicode

Unicode编码方案：

UTF-8：变长，1到4个字节

UTF-16：变长，2或4个字节

UTF-32：固定长度，4个字节

导航

公告

统计

常用链接

随笔分类

随笔档案

阅读排行榜

评论排行榜

推荐排行榜

最新评论