柱状图:
import pandas as pd import matplotlib.pyplot as plt data = pd.read_csv('D:\\myfiles\\study\\python\\analyse\\数据团\\城市数据团_数据分析师_体验课_课程资料\\数据资料\\地市级党委书记数据库(2000-10).csv', encoding='gbk') # 按省份分析市委书记女性比例 # 新建变量data_gender2,字段包括省份、性别 # 去除缺失值 data_gender2 = data[['省级政区名称','性别']] data_gender2_re = data_gender2[data_gender2['性别'].notnull()] # 按照省份统计出男女人数 # crosstab(行,列)用于针对字符串数据的透视(类似excel的数据透视) pt = pd.crosstab(data_gender2_re['省级政区名称'], data_gender2_re['性别']) # 计算出女性占比 # 这里直接在pt数据中添加了一个新的字段“女性占比” # sort_values()排序,ascending = False表示降序 pt['女性占比'] = pt['女'] / (pt['女'] + pt['男']) pt2 = pt.sort_values(by=['女性占比'], ascending=False) # 创建一个图表,大小为8*4 fig_q1_1 = plt.figure(figsize=(10, 5)) index = pt2.index[:10] # 取前十个 plt.bar(range(10), # 横坐标 pt2['女性占比'][:10], # 纵坐标 tick_label=index, # 横轴标签 color='blue') # 颜色 plt.title('不同省份女性市委书记占比') plt.xlabel('省份') plt.ylabel('女性占比') plt.show()
箱型图:
import pandas as pd import matplotlib.pyplot as plt data = pd.read_csv('D:\\myfiles\\study\\python\\analyse\\数据团\\城市数据团_数据分析师_体验课_课程资料\\数据资料\\地市级党委书记数据库(2000-10).csv', encoding='gbk') # 绘制图表2:女性市委书记占比结构 # 创建一个图表,大小为6*6 fig_q1_2 = plt.figure(figsize=(6, 6)) # 创建箱形图:四分位数,上下边缘值(非最大最小值),异常值 plt.boxplot(pt2['女性占比'], # 值 vert=True, # true:纵向,false:横向 showmeans=True) # 显示均值 # 参数添加 plt.title('女性市委书记占比结构') plt.xticks([]) plt.ylabel('女性占比') plt.show()