京津冀三省的2015年度的科技成果数据数据分析

原始题目要求:

一、 数据结构分析:

1)京津冀三省的2015年度的科技成果数据原始表,为Access数据库,;

 

2)要求将三省的科技成果数据汇总到同一表中(要求结果表为MySql数据表);

3)三个原始数据表结构不一致,要求结果表中包括所有的字段,表达意思相同或相似的字段要进行合并,不允许丢失字段(若只有本表独有字段,在结果表中其他两表数据在该字段填入空值)。

二、 数据同步练习要求采编程实现三个原始表数据同步功能,将三个表的数据同步到一个结果表中。

三、 数据清洗练习:

1)重复记录清洗,分析结果表中是否存在重复的数据记录,主要是地域和成果名称相同即判定为重复记录,保留一条记录,并补充其他重复记录中独有的数据字段内容,再删除其余记录。

2)在结果表中追加年份和地域两个标准维度字段,如果原始表中存在该字段则直接转化成维度字段,若不存在则根据单位名称确定地域字段内容,天津科技成果表中不存在年度字段,则直接将年度维度字段确定为2015年。

四、 数据分析

根据提供已知字段名称,自动将科技成果分类,并且分析京津冀三地的科技优势

五、 最终的MySQL数据表导入,放入源程序,将文件夹命名为为班级学号姓名提交

 

 

# -*- coding: utf-8 -*-
import pandas as pd
import matplotlib.pyplot as plt

# 从CSV文件中读取数据
data = pd.read_csv('zongbiao.csv', encoding='utf-8')

# 设置中文字体
plt.rcParams['font.sans-serif'] = ['SimHei']

# 按地域分别筛选数据
hebei_data = data[data['地域'] == '河北']
tianjin_data = data[data['地域'] == '天津']
beijing_data = data[data['地域'] == '北京']

# 绘制各省份科技成果行业分布柱状图
plt.figure(figsize=(18, 6))
plt.subplot(1, 3, 1)
hebei_counts = hebei_data['行业'].value_counts()
hebei_counts[:10].plot(kind='bar')
plt.title('河北省科技成果行业分布')

plt.subplot(1, 3, 2)
tianjin_counts = tianjin_data['行业'].value_counts()
tianjin_counts[:10].plot(kind='bar')
plt.title('天津市科技成果行业分布')

plt.subplot(1, 3, 3)
beijing_counts = beijing_data['行业'].value_counts()
beijing_counts[:10].plot(kind='bar')
plt.title('北京市科技成果行业分布')

plt.tight_layout()
plt.show()

# 绘制各省份科技成果行业分布饼状图
plt.figure(figsize=(18, 6))
plt.subplot(1, 3, 1)
hebei_counts[:5].plot(kind='pie', autopct='%1.1f%%')
plt.title('河北省科技成果行业分布')

plt.subplot(1, 3, 2)
tianjin_counts[:5].plot(kind='pie', autopct='%1.1f%%')
plt.title('天津市科技成果行业分布')

plt.subplot(1, 3, 3)
beijing_counts[:5].plot(kind='pie', autopct='%1.1f%%')
plt.title('北京市科技成果行业分布')

plt.tight_layout()
plt.show()

 

posted @ 2024-02-28 17:10  小彭先森  阅读(87)  评论(0编辑  收藏  举报