pandas基础操作语法
Pandas是一款用于python机器学习中数据分析的常用工具,其中文文档:Pandas中文文档
下面将列出部分常用操作,不做详细解释,可供查阅或温故
# 导入pandas
import pandas as pd
# 设置数据路径
file_path = '../xxx.csv'
# 读取数据为DataFrame
file_data = pd.read_csv(file_path)
查看数据整体信息(注意不是数据)
file_data.describe()
其运行截图如下(图片截自Kaggle):
显示所有列名
file_data.columns
显示数据的前五行
file_data.head()
同理,显示数据的最后五行
file_data.tail()
清除掉file_data中包含空数据的行,其中dropna可理解为:drop not available
file_data = file_data.dropna(axis = 0)
选择file_data中的某一列,直接使用 .
,比如选择价格(Price),单独一列会被存储在Series
中,它就相当于只有一列的DataFrame
price = file_data.Price
而如果要同时选择多列也很简单
# 先将所需选择的列名放入一个List
list_name = ['Rooms', 'Distance', 'Bathroom', 'Car']
# 然后用中括号选取
multi_data = file_data[list_name]
未完待续…