python数据处理
1.数据清洗
1.1 数据格式化
数据格式化是数据清洗常见的形式之一,就是将可读性差的或无法阅读的数据转换成可读性较强的数据格式。
python对字符串和数字都有格式化的方法,如%s, %d分别代表格式化字符串、格式化数字,经常和print一起使用。python还有更高级的方法格式化数据-format
print('你好,{},我是{}'.format('json', 'fight139'))
print('question:{[0]}, \nAnswer:{[0]}'.format(['你是谁?','你多大了'], ['我是fight139', '18岁']))
这里使用格式语法[0]挑出对应索引的数据。
字典:
dic = { 'float_num': 3.1415, 'very_large_num': 54864665745, 'percentage': .29 } str = "float:{float_num:.4f}\n" str += "integer:{very_large_num:,}\n" str += "percentage:{percentage:.2%}" # 29.00% print(str.format(**dic)) # 自动拆包
- 这里用到了字典,利用键访问字典的值,我们用 : 分割键名和格式。 .4f 表示将数字转成浮点数(f),保留4位小数(.4)。
- 数字格式不变,加 , 作为千位分隔符。
- 数字格式不变,加入%百分号,小数点后保留2位
除了格式化字符串和数字,python格式化日期也很容易。python的datetime模块有很多方法,可以格式化python已有或生产的日期。
end