一路向北~~
努力才会有惊喜

一、实验要求

按要求完成题目,将修改保留到原数据上,在实验报告中应有代码和运行截图以及心得体会

二、实验题目

  1. 读取群文件“数据分析实验二”中的” planet1.csv”与”planet2.csv”加载为dataframe,命名为df1df2每一个dataframe都包含三列数据,把第一行映射为列索引
  2. 使用三种方法(函数)完成两个dataframe按行索引值合并,将合并后的dataframe命名为planet
  3. 判断各列是否存在缺失值(提示:使用any()函数)
  4. 删除重复行,保留最后一次出现的重复行
  5. 删除所有orbital_period列为缺失值的数据行
  6. mass列的缺失值填充为你的学号
  7. 对各列数据绘制箱形图
  8. mass列数据转换为int类型
  9. planet中的method列采用独热编码(提示:columns参数)

三、实验代码与运行结果:

1  import numpy as np

import pandas as pd

df1=open(r'D:\数据分析\planet1.csv')

df1=pd.read_csv(df1,usecols=(1,2,3))#1.1读取群文件“数据分析实验二”中的” planet1.csv

df2=open(r'D:\数据分析\planet2.csv')

df2=pd.read_csv(df2,usecols=(1,2,3))#1.2读取群文件“数据分析实验二”中的”planet2.csv

df1

 

 

 df2

 

 

 2  planet=pd.concat([df1,df2],axis=1)

   planet #2.1使用三种方法(函数)完成两个dataframe按行索引值合并,将合并后的dataframe命名为planet

2.2

planet=df1.join(df2)

planet #2.2使用三种方法(函数)完成两个dataframe按行索引值合并,将合并后的dataframe命名为planet

 

 

 2.3  planet=df1.combine_first(df2)

planet #2.3使用三种方法(函数)完成两个dataframe按行索引值合并,将合并后的dataframe命名为planet

 

 

 3  planet.isnull().any(axis=1)#3.判断各列是否存在缺失值(提示:使用any()函数)

 

 

 4  planet.duplicated(keep='first')#4.删除重复行,保留最后一次出现的重复行

 

 

 5   planet.dropna(axis=0,subset=['orbital_period'],inplace=True)

planet    #5.删除所有orbital_period列为缺失值的数据行

 

 

 6    planet.fillna({'mass':'xxxxxx'},inplace=True)

planet   #6.mass列的缺失值填充为你的学号

 

 

 

 

 

 

 

 (截图自己实现)

7  planet.boxplot(column=['distance','number','orbital_period','year'])

#7.对各列数据绘制箱形图

 

 

 8  planet['mass'].astype(dtype='int')  #8.mass列数据转换为int类型

 

 9  pd.get_dummies(planet,columns=['method']) #9.planet中的method列采用独热编码(提示:columns参数)

 

posted on 2022-06-02 17:58  一路向北~~  阅读(935)  评论(0编辑  收藏  举报