05-字符串
字符串基础
创建字符串与访问字符串
- 字符串可以使用单引号''或双引号""来表示。
- 只要给变量赋值一个字符串变量就创建了一个字符串。
- python中没有单字符类型,单字符也是使用字符串表示。
- 可以使用索引访问单个字符。
- 可以使用slice访问多个字符。
var1 = 'Hello World!'
var2 = "Python"
var3 = 'H'
print(var1[0])
print(var1[0:3])
print(var1[:])
执行结果:
H
Hel
Hello World!
多行书写字符串
允许一个字符串跨多行,字符串中可以包含换行符、制表符以及其他特殊字符:
para_str = """这是一个多行字符串的实例
多行字符串可以使用制表符
TAB ( \t )。
也可以使用换行符 [ \n ]。
"""
print (para_str)
执行结果:
多行字符串可以使用制表符
TAB ( )。
也可以使用换行符 [
]。
字符串编码
在python3中,所有的字符串都是Unicode字符串。
UTF-8 编码把一个 Unicode 字符根据不同的数字大小编码成 1-6 个字节,常用的英文字母被编码成 1 个字节,汉字通常是 3 个字节,只有很生僻的字符才会被编码成 4-6 个字节。
字符串与 ASCII 码、Unicode 码之间转换
- 字返回指定符的ASCII码或者Unicode码:ord
- 根据输入的ASCII码或者Unicode码返回对应的符号:chr
print(ord('中'))
print(ord('A'))
print(chr(66))
print(chr(25991))
执行结果:
20013
65
B
文
字符串编与 bytes 之间的转换
在计算机内存中,统一使用 Unicode 编码,如果要在网络上传输,或者保存到磁盘上,就需要把str 变为以字节为单位的 bytes。
bytes 类型的数据用带 b 前缀的单引号或双引号表示:
print(b'ABC')
执行结果:
b'ABC'
str与bytes之间的编码与解码:
- 编码:encode
- 解码:decode
print('ABC'.encode('ascii'))
print('中文'.encode('utf-8'))
print(b'ABC'.decode('ascii'))
print(b'\xe4\xb8\xad\xe6\x96\x87'.decode('utf-8'))
执行结果:
b'ABC'
b'\xe4\xb8\xad\xe6\x96\x87'
ABC
中文
转义字符
- 反斜杠:\
- 单引号:\’
- 双引号:\”
- 响铃:\a
- 退格(Backspace):\b
- 空:\000
- 换行:\n
- 纵向制表符:\v
- 横向制表符:\t
- 回车:\r
- 换页:\f
- 十六进制ASCII码形式转义输出:\xyy
print('\x41')
执行结果:
A
字符串运算符
- 字符串连接:+
- 重复输出字符串:*
- 索引形式获取字符串中的字符:[]
- 截取字符串中的一部分,为左闭右开区间:[ : ]
- 判断某个字符是否在字符串中:in
- 判断某个字符是否不在某个字符串中:not in
- 原始字符串输出,即所有的字符串都按照字面意思来使用,没有转义特殊或不能打印的字符:r/R
- 格式化输出:%
#转义与不转义
print('\n 0 \t 1')
print(r'\n 0 \t 1')
执行结果:
0 1
\n 0 \t 1
字符串格式化输出
python格式化输出有两种方式:百分号和format。
百分号方式
格式
%[(name)][flags][width].[precision]typecode
参数说明
(name)
可选,用于选择指定的keyflags
可选,可供选择的值有:+
右对齐;正数前加正好,负数前加负号;-
左对齐;正数前无符号,负数前加负号;空格
右对齐;正数前加空格,负数前加负号;0
右对齐;正数前无符号,负数前加负号;用0填充空白处
width
可选,占有宽度precision
可选,小数点后保留的位数typecode
必选s
,获取传入对象的__str__方法的返回值,并将其格式化到指定位置r
,获取传入对象的__repr__方法的返回值,并将其格式化到指定位置c
,整数:将数字转换成其unicode对应的值,10进制范围为 0 <= i <= 1114111(py27则只支持0-255);字符:将字符添加到指定位置o
,将整数转换成 八 进制表示,并将其格式化到指定位置x
,将整数转换成十六进制表示,并将其格式化到指定位置d
,将整数、浮点数转换成 十 进制表示,并将其格式化到指定位置e
,将整数、浮点数转换成科学计数法,并将其格式化到指定位置(小写e)E
,将整数、浮点数转换成科学计数法,并将其格式化到指定位置(大写E)f
, 将整数、浮点数转换成浮点数表示,并将其格式化到指定位置(默认保留小数点后6位)F
,同上g
,自动调整将整数、浮点数转换成 浮点型或科学计数法表示(超过6位数用科学计数法),并将其格式化到指定位置(如果是科学计数则是e;)G
,自动调整将整数、浮点数转换成 浮点型或科学计数法表示(超过6位数用科学计数法),并将其格式化到指定位置(如果是科学计数则是E;)%
,当字符串中存在格式化标志时,需要用 %%表示一个百分号 注:Python中百分号格式化是不存在自动将整数转换成二进制表示的方式
举例
# 按照位置次序输出
s1 = "i am %s, i am %d years old" % ('jeck',26)
# 自定义key的形式输出
s2 = "i am %(name)s, i am %(age)d years old" % {'age':26 ,'name':'jeck'}
# 定义字宽10 右对齐 ,身高保留两位小数
s3 = "i am %(name)+10s, i am %(age)d years old, i am %(height).2f" % {'name':'jeck','age':26,'height':1.7512} #定义名字宽度为10,并右对齐.定义身高为浮点类型,保留小数点2位
# 八进制、十六进制输出
s4 = "原数: %d, 八进制:%o , 十六进制:%x" % (15,15,15)
# 科学计数法输出
s5 = "原数:%d, 科学计数法e:%e, 科学计数法E:%E,科学计数法g:%g,科学计数法G:%G" %(1000000000,1000000000,1000000000,1000000000,1000000000) #科学计数法表示
# 百分号输出
s6 = "百分比显示:%.2f %%" % 0.75
print(s1)
print(s2)
print(s3)
print(s4)
print(s5)
print(s6)
执行结果:
i am jeck, i am 26 years old
i am jeck, i am 26 years old
i am jeck, i am 26 years old, i am 1.75
原数: 15, 八进制:17 , 十六进制:f
原数:1000000000, 科学计数法e:1.000000e+09, 科学计数法E:1.000000E+09,科学计数法g:1e+09,科学计数法G:1E+09
百分比显示:0.75 %
format方式
格式:
[[fill]align][sign][#][0][width][,][.precision][type]
参数:
fill
【可选】空白处填充的字符align
【可选】对齐方式(需配合width使用)<
,内容左对齐>
,内容右对齐(默认)=
,内容右对齐,将符号放置在填充字符的左侧,且只对数字类型有效。 即使:符号+填充物+数字,
内容居中
sign
【可选】有无符号数字+
,正号加正,负号加负;-
,正号不变,负号加负;空格
,正号空格,负号加负;
#
【可选】对于二进制、八进制、十六进制,如果加上#,会显示 0b/0o/0x,否则不显示,
【可选】为数字添加分隔符,如:1,000,000width
【可选】格式化位所占宽度.precision
【可选】小数位保留精度type
【可选】格式化类型- 传入” 字符串类型 “的参数
s
,格式化字符串类型数据空白
,未指定类型,则默认是None,同s
- 传入“ 整数类型 ”的参数
b
,将10进制整数自动转换成2进制表示然后格式化c
,将10进制整数自动转换为其对应的unicode字符d
,十进制整数o
,将10进制整数自动转换成8进制表示然后格式化;x
,将10进制整数自动转换成16进制表示然后格式化(小写x)X
,将10进制整数自动转换成16进制表示然后格式化(大写X)
- 传入“ 浮点型或小数类型 ”的参数
e
, 转换为科学计数法(小写e)表示,然后格式化;E
, 转换为科学计数法(大写E)表示,然后格式化;f
, 转换为浮点型(默认小数点后保留6位)表示,然后格式化;F
, 转换为浮点型(默认小数点后保留6位)表示,然后格式化;g
, 自动在e和f中切换G
, 自动在E和F中切换%
,显示百分比(默认显示小数点后6位)
- 传入” 字符串类型 “的参数
字符串内建函数
可以通过dir()查看字符串有哪些内建函数:
dir(str)
执行结果:
['__add__', '__class__', '__contains__', '__delattr__', '__dir__', '__doc__', '__eq__', '__format__', '__ge__', '__getattribute__', '__getitem__', '__getnewargs__', '__gt__', '__hash__', '__init__', '__init_subclass__', '__iter__', '__le__', '__len__', '__lt__', '__mod__', '__mul__', '__ne__', '__new__', '__reduce__', '__reduce_ex__', '__repr__', '__rmod__', '__rmul__', '__setattr__', '__sizeof__', '__str__', '__subclasshook__', 'capitalize', 'casefold', 'center', 'count', 'encode', 'endswith', 'expandtabs', 'find', 'format', 'format_map', 'index', 'isalnum', 'isalpha', 'isdecimal', 'isdigit', 'isidentifier', 'islower', 'isnumeric', 'isprintable', 'isspace', 'istitle', 'isupper', 'join', 'ljust', 'lower', 'lstrip', 'maketrans', 'partition', 'replace', 'rfind', 'rindex', 'rjust', 'rpartition', 'rsplit', 'rstrip', 'split', 'splitlines', 'startswith', 'strip', 'swapcase', 'title', 'translate', 'upper', 'zfill']
常用的函数:
- capitalize() : 将字符串的第一个字符转换为大写
- title() : 返回"标题化"的字符串,就是说所有单词都是以大写开始,其余字母均为小写
- lower() : 转换字符串中所有大写字符为小写
- upper() : 转换字符串中的小写字母为大写:
- count(str,beg=0,end=len(string)) : 返回 str 在 string 里面出现的次数,如果 beg 或者 end 指定则返回指定范围内 str 出现的次数
- len(string) : 返回字符串长度
- find(str, beg=0 end=len(string)) : 检测 str 是否包含在字符串中,如果指定范围 beg 和 end,则检查是否包含在指定范围内,如果包含返回开始的索引值,否则返回-1
- strip([chars]) : 移除字符串头尾指定的字符序列,该方法只能删除开头或是结尾的字符,不能删除中间部分的字符
- split(str="", num=string.count(str)) : 通过指定分隔符对字符串进行切片,如果参数 num 有指定值,则分隔 num+1 个子字符串,num -- 分割次数。默认为 -1, 即分隔所有
# strip 只能移除首尾的空格,中间的空格无法移除
str = "000000052100003140000000"
print (str.strip( '0' ))
str2 = " hwllo "
print (str2.strip())
# split的分割
##不指定num,全部分割
str = "abc Lde fg";
print (str.split())
##指定num,分割num+1
print (str.split(' ', 1))
执行结果:
5210000314
hwllo
['abc', 'Lde', 'fg']
['abc', 'Lde fg']