python基础之小数据池，is和==区别编码问题

主要内容 小数据池，is和==区别 编码问题

小数据池 一种缓存机制，也称为驻留机制，是为了能更快提高一些字符串和整数的处理速度
is 和 == 的区别
    == 主要指对变量值是否相等的判断，只要数值相同一定为真
    is 主要是对变量内存地址是否相同的判断，变量值相同不一定为真，但是变量内存地址相同，则变量一定相同。 tips：可通过id()来查询变量id

why: 1.为什么会存在不同变量共用一个内存地址的情况？
1.前面说到的小数据池，即缓存。一部分字符串会被放在缓存中被公用，以提高处理速度

why: 2.为什么command命令窗口中和在Pycharm中同样输入给a,b赋值，得到的结果不一样？
  1.python程序是由代码块构成的. 一个代码块的文本作为python程序执行的单元.一个模块, 一个函数, 一个类, 甚至每一个command命令都是一个代码块. ⼀个文件也是一个代码块
  2.在command命令窗口，a，b赋值是两个命令，而在Pycharm中认为是执行了一个文件（文件执行时(同⼀个代码块) 会把a, b两个变量量指向同⼀一个对象.）。所以结果会不一样

编码回顾:
1. ASCII : 最早的编码. ⾥面有英文大写字母, 小写字母, 数字, ⼀一些特殊字符. 没有中⽂文,8个01代码, 8个bit, 1个byte
2. GBK: 中⽂文国标码, ⾥面包含了了ASCII编码和中文常⽤用编码. 16个bit, 2个byte
3. UNICODE: 万国码, ⾥面包含了了全世界所有国家文字的编码. 32个bit, 4个byte, 包含了了ASCII
4. UTF-8: 可变⻓长度的万国码. 是unicode的⼀一种实现. 最⼩小字符占8位
        1.英文: 8bit 1byte
        2.欧洲文字:16bit 2byte
        3.中文:24bit 3byte


解码和编码  不同编码之间存在转换的问题  tips：python2程序编码是ASCII 而python3位unicode
编码
a = "呵呵哈哈"
s = a.encode("utf-8")
# s = a.encode("gbk")
print(s)
解码
a = b'\xba\xc7\xba\xc7\xb9\xfe\xb9\xfe'  #gbk
a1 = b'\xe5\x91\xb5\xe5\x91\xb5\xe5\x93\x88\xe5\x93\x88'  #utf-8
s = a.decode("gbk")
s1 = a1.decode("utf-8")
print(s,s1)

why：如何将GBK 转换为 utf-8?  #先转成Unicode再转换为utf-8
a = b'\xba\xc7\xba\xc7\xb9\xfe\xb9\xfe'  #gbk
s = a.decode("gbk")   #转成unicode
b = s.encode("utf-8")  #转成utf-8
print(b)   #得到 utf-8   b'\xe5\x91\xb5\xe5\x91\xb5\xe5\x93\x88\xe5\x93\x88'
posted @ 2018-10-24 16:11 Mixtea 阅读(176) 评论(0) 收藏举报
Mixtea

python基础之小数据池，is和==区别 编码问题

公告

python基础之小数据池，is和==区别编码问题