一、实验要求
按要求完成题目,将修改保留到原数据上,在实验报告中应有代码和运行截图以及心得体会
二、实验题目
- 读取群文件“数据分析实验二”中的” planet1.csv”与”planet2.csv”加载为dataframe,命名为df1与df2每一个dataframe都包含三列数据,把第一行映射为列索引
- 使用三种方法(函数)完成两个dataframe按行索引值合并,将合并后的dataframe命名为planet
- 判断各列是否存在缺失值(提示:使用any()函数)
- 删除重复行,保留最后一次出现的重复行
- 删除所有orbital_period列为缺失值的数据行
- 将mass列的缺失值填充为你的学号
- 对各列数据绘制箱形图
- 将mass列数据转换为int类型
- 对planet中的method列采用独热编码(提示:columns参数)
三、实验代码与运行结果:
1 import numpy as np
import pandas as pd
df1=open(r'D:\数据分析\planet1.csv')
df1=pd.read_csv(df1,usecols=(1,2,3))#1.1读取群文件“数据分析实验二”中的” planet1.csv”
df2=open(r'D:\数据分析\planet2.csv')
df2=pd.read_csv(df2,usecols=(1,2,3))#1.2读取群文件“数据分析实验二”中的”planet2.csv”
df1
df2
2 planet=pd.concat([df1,df2],axis=1)
planet #2.1使用三种方法(函数)完成两个dataframe按行索引值合并,将合并后的dataframe命名为planet
2.2
planet=df1.join(df2)
planet #2.2使用三种方法(函数)完成两个dataframe按行索引值合并,将合并后的dataframe命名为planet
2.3 planet=df1.combine_first(df2)
planet #2.3使用三种方法(函数)完成两个dataframe按行索引值合并,将合并后的dataframe命名为planet
3 planet.isnull().any(axis=1)#3.判断各列是否存在缺失值(提示:使用any()函数)
4 planet.duplicated(keep='first')#4.删除重复行,保留最后一次出现的重复行
5 planet.dropna(axis=0,subset=['orbital_period'],inplace=True)
planet #5.删除所有orbital_period列为缺失值的数据行
6 planet.fillna({'mass':'xxxxxx'},inplace=True)
planet #6.将mass列的缺失值填充为你的学号
(截图自己实现)
7 planet.boxplot(column=['distance','number','orbital_period','year'])
#7.对各列数据绘制箱形图
8 planet['mass'].astype(dtype='int') #8.将mass列数据转换为int类型
9 pd.get_dummies(planet,columns=['method']) #9.对planet中的method列采用独热编码(提示:columns参数)
本文来自博客园,作者:一路向北~~,转载请注明原文链接:https://www.cnblogs.com/ylxb2539989915/p/16338679.html