爬虫与Python:(四)爬虫进阶扩展之Pandas——5.CSV文件
1. 定义
CSV(Comma-Separated Values,逗号分隔值,有时也称为字符分隔值,因为分隔字符也可以不是逗号),其文件以纯文本形式存储表格数据(数字和文本)。
CSV 是一种通用的、相对简单的文件格式,被用户、商业和科学广泛应用。
Pandas 可以很方便的处理 CSV 文件,本文以 nba.csv 为例,你可以下载 nba.csv 或打开 nba.csv 查看。(接下来的例子,我将csv放在了同名文件夹下)
2. 读取CSV文件
1 df = pd.read_csv('nba.csv') 2 print(df.to_string()) #to_string() 用于返回 DataFrame 类型的数据,如果不使用该函数,则输出结果为数据的前面 5 行和末尾 5 行,中间部分以 ... 代替。
3. 存储CSV文件
我们也可以使用 to_csv() 方法将 DataFrame 存储为 csv 文件。
1 import pandas as pd 2 3 # 三个字段 name, site, age 4 nme = ["Google", "Runoob", "Taobao", "Wiki"] 5 st = ["www.google.com", "www.runoob.com", "www.taobao.com", "www.wikipedia.org"] 6 ag = [90, 40, 80, 98] 7 8 # 字典 9 dict = {'name': nme, 'site': st, 'age': ag} 10 11 df = pd.DataFrame(dict) 12 13 # 保存 dataframe 14 df.to_csv('site.csv')
执行成功后,我们打开 site.csv 文件,显示结果如下:
4. 数据处理
4.1 head()
head( n ) 方法用于读取前面的 n 行,如果不填参数 n ,默认返回 5 行。
1 import pandas as pd 2 3 # head() 读取前5行 4 df = pd.read_csv('nba.csv') 5 print(df.head())
输出结果为:
Name Team Number ... Weight College Salary 0 Avery Bradley Boston Celtics 0.0 ... 180.0 Texas 7730337.0 1 Jae Crowder Boston Celtics 99.0 ... 235.0 Marquette 6796117.0 2 John Holland Boston Celtics 30.0 ... 205.0 Boston University NaN 3 R.J. Hunter Boston Celtics 28.0 ... 185.0 Georgia State 1148640.0 4 Jonas Jerebko Boston Celtics 8.0 ... 231.0 NaN 5000000.0
索引,head()读取前10行的方法为:
1 import pandas as pd 2 3 # head() 读取前10行 4 df = pd.read_csv('nba.csv') 5 print(df.head(10)) # 不填,默认5行
4.2 tail()
tail( n ) 方法用于读取尾部的n行。如果不填参数 n ,默认返回 5 行,空行各个字段的值返回 NaN。
1 import pandas as pd 2 3 # 读取尾部的n行 4 df = pd.read_csv('nba.csv') 5 print(df.tail(10))
4.3 info()
info()方法 返回表的基本信息:
import pandas as pd # 返回表的基本信息 df = pd.read_csv('nba.csv') print(df.info())
输出结果为:
<class 'pandas.core.frame.DataFrame'> RangeIndex: 458 entries, 0 to 457 # 行数,458 行,第一行编号为 0 Data columns (total 9 columns): # 列数,9列 # Column Non-Null Count Dtype # 各列的数据类型 --- ------ -------------- ----- 0 Name 457 non-null object 1 Team 457 non-null object 2 Number 457 non-null float64 3 Position 457 non-null object 4 Age 457 non-null float64 5 Height 457 non-null object 6 Weight 457 non-null float64 7 College 373 non-null object # non-null,意思为非空的数据 8 Salary 446 non-null float64 dtypes: float64(4), object(5) # 类型 memory usage: 23.3+ KB None
5. 参考网址
- Pandas CSV文件:https://www.runoob.com/pandas/pandas-csv-file.html
有志者,事竟成,破釜沉舟,百二秦关终属楚; 苦心人,天不负,卧薪尝胆,三千越甲可吞吴。