转换流-文符编码和字符集、编码出现的错误

字符编码

计算机存储的信息都是用二进制数表示的 而我们在屏幕上看到的数字、英文、标点符号、汉字等字符是二进制数转换之后的结果 按照某种规则 将字符存储到计算机中 称为编码

反之 将存储在计算机中的二进制数按照某种规则解析显示处理 称为解码 比如说 按照A规则存储 同样按照A规则解析 那么就能显示正确的文本符号 反之 按照A规则存储 再按照B规则解析 就会导致乱码现象

编码:字符(能看懂的)--->字节(看不懂的)

解码:字节(看不懂的)--->字符(能看懂的)

  • 字符编码:就是一套自然语言的字符与二进制数之间的对应规则 

编码表:生活中文字和计算机中二进制的对应规则

字符集

  • 字符集:也叫编码表 是一个系统支持的所有字符的集合 包括各国家文字、标点符号、图形符号、数字等

计算机要准确的存储和识别各种字符集符号 需要进行字符编码 一套字符集必然至少有一套字符编码 常见字符集有ASCII字符集、GBK字符集、Unicode字符集等

 

 

可见,当指定了编码 它所对应的字符集自然就指定了 所有编码才是我们最终要关心的

  • ASSII字符集:
    • ASCII(American Standard Code for Information Interchange,美国信息交换标准码)是基于拉丁字母的一套电脑编码系统 用于显示现代英语 主要包括控制字符(回车键、退格、换行键等)和可显示字符(英文大小写字符 阿拉伯数字和西文符号)
    • 基本的ASCII字符集 使用7位(bits)表示一个字符 共128字符 ASCII的扩展字符集使用8位(bits)表示一个字符 共256字符 方便支持欧洲常用字符
  • ISO-8859-1字符集:
    • 拉丁码表 别名Latin-1,用于显示欧洲使用的语言 包括荷兰、丹麦、德语、意大利语、西班牙语等
    • ISO-5559-1使用单字节编码 兼容ASCII编码  
  • GBxxx字符集:
    • GB就是国际的意思 是为了显示中文而设计的一套字符集 
    • GB2312:简体中文码表 一个小于127的字符的意义与原来相同 但两个大于127的字符连在一起时,就表示一个汉族 这样大约可以组合了包含7000多个简体汉字 此外数学符号、罗马希腊的字母、日文的假名们都编进去了
    • GBK:最常用的中文编码表 是在GB2312标准基础上的扩展规范 使用了双字节编码方案 共收录了21003个汉字 完全兼容GB2312标准 同时支持繁体汉字以及日韩汉字等
    • GB18030:最新的中文编码表 收录汉字70244个 采用多字节编码 每个字可以由1个、2个或4个字节数组成 支持中国国内少数民族的文字 同时支持繁体汉字以及日韩汉字等
  • Unicode字符集:
    • Unicode编码系统为表达任意语言的任意字符而设计 是业界的一种标椎 也称为统一码 标准万国码
    • 它最多使用4个字节的数字来表达每个字母、符号或者文字 有三种编码方案 UTF-8、UTF-16和UTF-32 最为常用的UTF-8编码
    • UTF-8编码 可以用来表示Unicode标准中任何字符 它是电子邮件 网页及其他存储或者传送文字的应用中 优先采用的编码 互联网工程工作小组(IETF)要求所有互联网协议都必须支持UTF-8编码 所以我们开发Web应用 也要使用UTF-8编码 它使用一到四个字节为每个字符编码 编码规则

      1.128个US-ASCII字符 只需一个字节编码

      2.拉丁文等字符 需要二个字节编码

      3.大部分常用字(含中文)使用三个字节编码  

      4.其他极少使用Unicode辅助字符 使用四字节编码

posted @   baimingze  阅读(117)  评论(0编辑  收藏  举报
相关博文:
阅读排行:
· 被坑几百块钱后,我竟然真的恢复了删除的微信聊天记录!
· 【自荐】一款简洁、开源的在线白板工具 Drawnix
· 没有Manus邀请码?试试免邀请码的MGX或者开源的OpenManus吧
· 园子的第一款AI主题卫衣上架——"HELLO! HOW CAN I ASSIST YOU TODAY
· 无需6万激活码!GitHub神秘组织3小时极速复刻Manus,手把手教你使用OpenManus搭建本
点击右上角即可分享
微信分享提示