随笔- 33 文章- 1 评论- 0 阅读- 6428

万恶之源-再谈编码

目录


    1.is和==区别
        id()内置函数
        ==  判断两边的值
        is  判断内存地址

    回顾编码
        1. ASCII: 英文, 特殊字符, 数字, 8bit, 1byte
        2. GBK: 中文 16bit, 2byte. 兼容ASCII
        3. unicode:　万国码, 32bit 4byte. 兼容ASCII
        4. UTF-8: 长度可变的unicode. 英文:8bit, 欧洲:１６bit, 中文:24bit 3byte

        python只能用ASCII
        Python 有Unicode,默认的编码就是Unicode
        内存里用的是Unicode.硬盘和网络传输用的是UTF-8活着GBK

    2.encode()编码.获取到的是编码之后的结果.bytes
    3.decode()解码.把byes编程我们熟悉的字符串
        编码和解码的时候都需要制定编码格式.

 s = "我是文字"
 bs = s.encode("GBK")   # 我们这样可以获取到GBK的文字
 s = bs.decode("GBK")    # 解码
 bss = s.encode("UTF-8")   # 重新编码
 print(bss)


        # 把GBK转换成UTF-8
        # 首先要把GBK转换成unicode. 也就是需要解码
        # 然后需要进⾏重新编码成UTF-8

作者：静默虚空
欢迎任何形式的转载，但请务必注明出处。
限于本人水平，如果文章和代码有表述不当之处，还请不吝赐教。

posted @ 2018-07-09 15:08 一纸休书阅读(116) 评论(0) 编辑收藏举报

刷新页面返回顶部

登录后才能查看或发表评论，立即登录或者逛逛博客园首页

公告

2025年1月

日

一

二

三

四

五

六

万恶之源-再谈编码

公告

搜索

常用链接

随笔分类

随笔档案

阅读排行榜

推荐排行榜