python运算符和编码初识
1. 运算符
计算机可以进行的运算有很多种,可不只加减乘除这么简单,运算按种类可分为算数运算、比较运算、逻辑运算、赋值运算、成员运算、身份运算、位运算.
-
算数运算
以下假设变量:a=10,b=20
-
比较运算
以下假设变量:a=10,b=20
-
赋值运算
以下假设变量:a=10,b=20
-
逻辑运算
针对逻辑运算的进一步研究:
在没有()的情况下not 优先级高于 and,and优先级高于or,即优先级关系:
( )>not>and>or,同一优先级从左往右计算。
例题:
判断下列逻辑语句的True,False。
x or y , x为真,值就是x,x为假,值是y;
x and y, x为真,值是y,x为假,值是x。
3>4 or 4<3 and 1==1
1 < 2 and 3 < 4 or 1>2
2 > 1 and 3 < 4 or 4 > 5 and 2 < 1
not 2 > 1 and 3 < 4 or 4 > 5 and 2 > 1 and 9 > 8 or 7 < 6
例题:求出下列逻辑语句的值。
8 or 4
0 and 3
0 or 4 and 3 or 7 or 9 and 6
-
成员运算
in not in :
判断子元素是否在原字符串(字典,列表,集合)中:
例如:
#print('喜欢' in 'dkfljadklf喜欢hfjdkas')
#print('a' in 'bcvd')
#print('y' not in 'ofkjdslaf')
2. 编码
咱们的电脑,存储和发送文件,发送的是什么?电脑里面是不是有成千上万个二极管,亮的代表是1,不亮的代表是0,这样实际上电脑的存储和发送是不是都是010101啊
我们发送的内容都是010101010这样写的内容比较多就不知道是什么了,所以我们想要明确的区分出来发送的内容就需要
在某个地方进行分段.计算机中设定的就是8位一断句
- ASCII
计算机:
储存文件,或者是传输文件,实际上是010101010
计算机创建初期,美国,是7位一段,但是发明者说为了拓展,留出一位,这样就是8位一段句。8位有多少种可能 ?256
密码本:
ascii
00000001
01000001 01000010 01000011 ABC
随着计算机的发展. 以及普及率的提高. 流⾏到欧洲和亚洲. 这时ASCII码就不合适了. 比如: 中⽂汉字有几万个. 而ASCII 多也就256个位置. 所以ASCII不行了. 怎么办呢? 这时, 不同的国家就提出了不同的编码用来适用于各自的语言环境. 比如, 中国的GBK, GB2312, BIG5, ISO-8859-1等等.
- GBK
GBK, 国标码占用2个字节. 对应ASCII码 GBK直接兼容. 因为计算机底层是用英文写的. 你不支持英文肯定不行. 而英文已经使用了ASCII码. 所以GBK要兼容ASCII. 这里GBK国标码. 前⾯的ASCII码部分. 由于使⽤两个字节. 所以对于ASCII码⽽言. 前9位都是0
字母A:0100 0001 # ASCII
字母A:0000 0000 0100 0001 # 国标码
随着全球化的普及,发展到欧洲,亚洲等国家,发现这些根本不够用,所以创建了万国码。 因为全球语言很多,ascii不足以存储这么多对应关系,创建了一个超级密码本:万国码unicode
8 位 == 1个字节.
hello h一个字符,e一个字符,he就不是一个字符.
中国:中是一个字符,国是一个字符.
-
unicode
创建之初,16位,2个字节,表示一个字符. 英文: a b c 六个字节 一个英文2个字节 中文 中国 四个字节 一个中文用2个字节
但是这种也不行,这种最多有65535种可能,可是中国文字有9万多,所以改成 32位,4个字节,表示一个字符.
a 01000001 01000010 01000011 00000001 b 01000001 01000010 01100011 00000001 中 01001001 01000010 01100011 00000001 浪费资源.
-
UTF-8
对Unicode进行升级: utf-8 utf-8 用最少用8位数,去表示一个字符. 英文: 8位,1个字节表示. 欧洲文字: 16位,两个字节表示一个字符. 中文,亚洲文字: 24位,三个字节表示.
utf-16 用最少用16位数。
gbk: 国标,只能中国人自己用, 一个中文用16位,两个字节表示。
- 单位转化
8bit = 1byte
1024byte = 1KB
1024KB = 1MB
1024MB = 1GB
1024GB = 1TB
1024TB = 1PB
1024TB = 1EB
1024EB = 1ZB
1024ZB = 1YB
1024YB = 1NB
1024NB = 1DB
常⽤到TB就够了
ASCII码:包含英文字母,数字,特殊字符与01010101对应关系。
[](javascript:void(0)😉
在计算机中,所有的数据在存储和运算时都要使用二进制数表示(因为计算机用高电平和低电平分别表示1和0),例如,像a、b、c、d这样的52个字母(包括大写)以及0、1等数字还有一些常用的符号(例如*、#、@等)在计算机中存储时也要使用二进制数来表示,而具体用哪些二进制数字表示哪个符号,当然每个人都可以约定自己的一套(这就叫编码),而大家如果要想互相通信而不造成混乱,那么大家就必须使用相同的编码规则,于是美国有关的标准化组织就出台了ASCII编码,统一规定了上述常用符号用哪些二进制数来表示。 [2]
美国标准信息交换代码是由美国国家标准学会(American National Standard Institute , ANSI )制定的,标准的单字节字符编码方案,用于基于文本的数据。起始于50年代后期,在1967年定案。它最初是美国国家标准,供不同计算机在相互通信时用作共同遵守的西文字符编码标准,它已被国际标准化组织(International Organization for Standardization, ISO)定为国际标准,称为ISO 646标准。适用于所有拉丁文字字母。
[](javascript:void(0)😉
下面是具体的ASCII码:
Bin(二进制) | Oct(八进制) | Dec(十进制) | Hex(十六进制) | 缩写/字符 | 解释 |
---|---|---|---|---|---|
0000 0000 | 0 | 0 | 00 | NUL(null) | 空字符 |
0000 0001 | 1 | 1 | 01 | SOH(start of headline) | 标题开始 |
0000 0010 | 2 | 2 | 02 | STX (start of text) | 正文开始 |
0000 0011 | 3 | 3 | 03 | ETX (end of text) | 正文结束 |
0000 0100 | 4 | 4 | 04 | EOT (end of transmission) | 传输结束 |
0000 0101 | 5 | 5 | 05 | ENQ (enquiry) | 请求 |
0000 0110 | 6 | 6 | 06 | ACK (acknowledge) | 收到通知 |
0000 0111 | 7 | 7 | 07 | BEL (bell) | 响铃 |
0000 1000 | 10 | 8 | 08 | BS (backspace) | 退格 |
0000 1001 | 11 | 9 | 09 | HT (horizontal tab) | 水平制表符 |
0000 1010 | 12 | 10 | 0A | LF (NL line feed, new line) | 换行键 |
0000 1011 | 13 | 11 | 0B | VT (vertical tab) | 垂直制表符 |
0000 1100 | 14 | 12 | 0C | FF (NP form feed, new page) | 换页键 |
0000 1101 | 15 | 13 | 0D | CR (carriage return) | 回车键 |
0000 1110 | 16 | 14 | 0E | SO (shift out) | 不用切换 |
0000 1111 | 17 | 15 | 0F | SI (shift in) | 启用切换 |
0001 0000 | 20 | 16 | 10 | DLE (data link escape) | 数据链路转义 |
0001 0001 | 21 | 17 | 11 | DC1 (device control 1) | 设备控制1 |
0001 0010 | 22 | 18 | 12 | DC2 (device control 2) | 设备控制2 |
0001 0011 | 23 | 19 | 13 | DC3 (device control 3) | 设备控制3 |
0001 0100 | 24 | 20 | 14 | DC4 (device control 4) | 设备控制4 |
0001 0101 | 25 | 21 | 15 | NAK (negative acknowledge) | 拒绝接收 |
0001 0110 | 26 | 22 | 16 | SYN (synchronous idle) | 同步空闲 |
0001 0111 | 27 | 23 | 17 | ETB (end of trans. block) | 结束传输块 |
0001 1000 | 30 | 24 | 18 | CAN (cancel) | 取消 |
0001 1001 | 31 | 25 | 19 | EM (end of medium) | 媒介结束 |
0001 1010 | 32 | 26 | 1A | SUB (substitute) | 代替 |
0001 1011 | 33 | 27 | 1B | ESC (escape) | 换码(溢出) |
0001 1100 | 34 | 28 | 1C | FS (file separator) | 文件分隔符 |
0001 1101 | 35 | 29 | 1D | GS (group separator) | 分组符 |
0001 1110 | 36 | 30 | 1E | RS (record separator) | 记录分隔符 |
0001 1111 | 37 | 31 | 1F | US (unit separator) | 单元分隔符 |
0010 0000 | 40 | 32 | 20 | (space) | 空格 |
0010 0001 | 41 | 33 | 21 | ! | 叹号 |
0010 0010 | 42 | 34 | 22 | " | 双引号 |
0010 0011 | 43 | 35 | 23 | # | 井号 |
0010 0100 | 44 | 36 | 24 | $ | 美元符 |
0010 0101 | 45 | 37 | 25 | % | 百分号 |
0010 0110 | 46 | 38 | 26 | & | 和号 |
0010 0111 | 47 | 39 | 27 | ' | 闭单引号 |
0010 1000 | 50 | 40 | 28 | ( | 开括号 |
0010 1001 | 51 | 41 | 29 | ) | 闭括号 |
0010 1010 | 52 | 42 | 2A | * | 星号 |
0010 1011 | 53 | 43 | 2B | + | 加号 |
0010 1100 | 54 | 44 | 2C | , | 逗号 |
0010 1101 | 55 | 45 | 2D | - | 减号/破折号 |
0010 1110 | 56 | 46 | 2E | . | 句号 |
00101111 | 57 | 47 | 2F | / | 斜杠 |
00110000 | 60 | 48 | 30 | 0 | 数字0 |
00110001 | 61 | 49 | 31 | 1 | 数字1 |
00110010 | 62 | 50 | 32 | 2 | 数字2 |
00110011 | 63 | 51 | 33 | 3 | 数字3 |
00110100 | 64 | 52 | 34 | 4 | 数字4 |
00110101 | 65 | 53 | 35 | 5 | 数字5 |
00110110 | 66 | 54 | 36 | 6 | 数字6 |
00110111 | 67 | 55 | 37 | 7 | 数字7 |
00111000 | 70 | 56 | 38 | 8 | 数字8 |
00111001 | 71 | 57 | 39 | 9 | 数字9 |
00111010 | 72 | 58 | 3A | : | 冒号 |
00111011 | 73 | 59 | 3B | ; | 分号 |
00111100 | 74 | 60 | 3C | < | 小于 |
00111101 | 75 | 61 | 3D | = | 等号 |
00111110 | 76 | 62 | 3E | > | 大于 |
00111111 | 77 | 63 | 3F | ? | 问号 |
01000000 | 100 | 64 | 40 | @ | 电子邮件符号 |
01000001 | 101 | 65 | 41 | A | 大写字母A |
01000010 | 102 | 66 | 42 | B | 大写字母B |
01000011 | 103 | 67 | 43 | C | 大写字母C |
01000100 | 104 | 68 | 44 | D | 大写字母D |
01000101 | 105 | 69 | 45 | E | 大写字母E |
01000110 | 106 | 70 | 46 | F | 大写字母F |
01000111 | 107 | 71 | 47 | G | 大写字母G |
01001000 | 110 | 72 | 48 | H | 大写字母H |
01001001 | 111 | 73 | 49 | I | 大写字母I |
01001010 | 112 | 74 | 4A | J | 大写字母J |
01001011 | 113 | 75 | 4B | K | 大写字母K |
01001100 | 114 | 76 | 4C | L | 大写字母L |
01001101 | 115 | 77 | 4D | M | 大写字母M |
01001110 | 116 | 78 | 4E | N | 大写字母N |
01001111 | 117 | 79 | 4F | O | 大写字母O |
01010000 | 120 | 80 | 50 | P | 大写字母P |
01010001 | 121 | 81 | 51 | Q | 大写字母Q |
01010010 | 122 | 82 | 52 | R | 大写字母R |
01010011 | 123 | 83 | 53 | S | 大写字母S |
01010100 | 124 | 84 | 54 | T | 大写字母T |
01010101 | 125 | 85 | 55 | U | 大写字母U |
01010110 | 126 | 86 | 56 | V | 大写字母V |
01010111 | 127 | 87 | 57 | W | 大写字母W |
01011000 | 130 | 88 | 58 | X | 大写字母X |
01011001 | 131 | 89 | 59 | Y | 大写字母Y |
01011010 | 132 | 90 | 5A | Z | 大写字母Z |
01011011 | 133 | 91 | 5B | [ | 开方括号 |
01011100 | 134 | 92 | 5C | \ | 反斜杠 |
01011101 | 135 | 93 | 5D | ] | 闭方括号 |
01011110 | 136 | 94 | 5E | ^ | 脱字符 |
01011111 | 137 | 95 | 5F | _ | 下划线 |
01100000 | 140 | 96 | 60 | ` | 开单引号 |
01100001 | 141 | 97 | 61 | a | 小写字母a |
01100010 | 142 | 98 | 62 | b | 小写字母b |
01100011 | 143 | 99 | 63 | c | 小写字母c |
01100100 | 144 | 100 | 64 | d | 小写字母d |
01100101 | 145 | 101 | 65 | e | 小写字母e |
01100110 | 146 | 102 | 66 | f | 小写字母f |
01100111 | 147 | 103 | 67 | g | 小写字母g |
01101000 | 150 | 104 | 68 | h | 小写字母h |
01101001 | 151 | 105 | 69 | i | 小写字母i |
01101010 | 152 | 106 | 6A | j | 小写字母j |
01101011 | 153 | 107 | 6B | k | 小写字母k |
01101100 | 154 | 108 | 6C | l | 小写字母l |
01101101 | 155 | 109 | 6D | m | 小写字母m |
01101110 | 156 | 110 | 6E | n | 小写字母n |
01101111 | 157 | 111 | 6F | o | 小写字母o |
01110000 | 160 | 112 | 70 | p | 小写字母p |
01110001 | 161 | 113 | 71 | q | 小写字母q |
01110010 | 162 | 114 | 72 | r | 小写字母r |
01110011 | 163 | 115 | 73 | s | 小写字母s |
01110100 | 164 | 116 | 74 | t | 小写字母t |
01110101 | 165 | 117 | 75 | u | 小写字母u |
01110110 | 166 | 118 | 76 | v | 小写字母v |
01110111 | 167 | 119 | 77 | w | 小写字母w |
01111000 | 170 | 120 | 78 | x | 小写字母x |
01111001 | 171 | 121 | 79 | y | 小写字母y |
01111010 | 172 | 122 | 7A | z | 小写字母z |
01111011 | 173 | 123 | 7B | { | 开花括号 |
01111100 | 174 | 124 | 7C | | | 垂线 |
01111101 | 175 | 125 | 7D | } | 闭花括号 |
01111110 | 176 | 126 | 7E | ~ | 波浪号 |
01111111 | 177 | 127 | 7F | DEL (delete) | 删除 |
# 思考:python中一个字符串为 'abc',那么如果用ASCII码编码,这个字符串占几个字节?
# ASCII码 一个字符用一个字节表示,所以字符串'abc'占三个字节,'abc'如果存储在磁盘中其实存储的是:0110 0001 0110 0010 0110 0011
编码
s = "alex"
print(s.encode("utf-8")) # 将字符串编码成UTF-8
print(s.encode("GBK")) # 将字符串编码成GBK
结果:
b'alex'
b'alex'
s = "中"
print(s.encode("UTF-8")) # 中⽂编码成UTF-8
print(s.encode("GBK")) # 中⽂编码成GBK
结果:
b'\xe4\xb8\xad'
b'\xd6\xd0'
记住: 英⽂编码之后的结果和源字符串⼀致. 中⽂编码之后的结果根据编码的不同. 编码结果也不同. 我们能看到. ⼀个中⽂的UTF-8编码是3个字节. ⼀个GBK的中⽂编码是2个字节. 编码之后的类型就是bytes类型. 在⽹络传输和存储的时候我们python是发送和存储的bytes 类型. 那么在对⽅接收的时候. 也是接收的bytes类型的数据. 我们可以使⽤decode()来进⾏解码操作. 把bytes类型的数据还原回我们熟悉的字符串:
s = "我叫李嘉诚"
print(s.encode("utf-8")) #
b'\xe6\x88\x91\xe5\x8f\xab\xe6\x9d\x8e\xe5\x98\x89\xe8\xaf\x9a'
print(b'\xe6\x88\x91\xe5\x8f\xab\xe6\x9d\x8e\xe5\x98\x89\xe8\xaf\x9a'.decod
e("utf-8")) # 解码
解码
编码和解码的时候都需要制定编码格式.
s = "我是⽂字" bs = s.encode("GBK")
# 我们这样可以获取到GBK的⽂字
# 把GBK转换成UTF-8
# ⾸先要把GBK转换成unicode. 也就是需要解码
s = bs.decode("GBK") # 解码
# 然后需要进⾏重新编码成UTF-8
bss = s.encode("UTF-8") # 重新编码
print(bss)
unicode就是一个桥梁,可以实现他们之前相互编码,但是我们在编码和解码的时候必须使用同一个密码本.