python数据处理
一,数据处理概述
教据外理的基本目的是从大量的、可能是杂乱无章的、难以理解的教据中抽取并推导出对于某些特定的人们来说是有价值、有意义的教据。当下数据外理贯穿于社会生产和社会生活的各个领域。教据处理技术的发展及其应用的广度和深度,极大地影响了人类社会发展的进程。数据处理也是大数据,数据分析等后续科学的基本环节。
基本概念
数据:能够输入到计算机中并被识别处理的信息集合。
大数据:是指无法在一定时间范围内用一定工具进行捕捉、管理和处理的数据集合,是海量、高增长率和多样化的信息资产。
数据存储阶段
人工管理阶段:人为管理,没有固定的格式和存储方法,容易混乱。
文件管理阶段:数据可以长期保存,存储数据量大,使用简单。
数据库管理阶段:高效,可以存储更大量数据,便于管理,更加专业。
二,文件处理
1,什么是文件
文件是保存在持久化存储设备(硬盘、U盘、光盘..)上的一段数据,一个文本,一个py文件,一张图片,一段视频等等这些都是文件。
2,文件分类
• 文本文件:打开后会自动解码为字符,如txt文件,word文件,py程序文件。
• 二进制文件:内部编码为二进制码,无法通过文字编码解析,如压缩包,音频,视频,图片等。
3,字节串类型
• 概念:在python3中引入了字节串的概念,与str不同,字节串以字节序列值表达数据,更方便用来处理二进程数据。
• 字符串与字节串相互转化方法。
- 普通的英文字符字符串常量可以在前面加b转换为字节串,例如: b'hello' such as: b'hello' #英文字符加b前缀转换成字节串
- 变量或者包含非英文字符的字符串转换为字节串方法 : str.encode() such as: '你好'.encode() #将字符串转换成字节串
- 字节串转换为字符串方法: bytes.decode()