matplotlib模块 06
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
from matplotlib.font_manager import FontProperties # 修改字体
x = [5,7,2,10]
plt.plot(x) ### 画折线图,传入一个值的话,这个值就是y轴值
x = [5,7,2,10]
y = [3,9,10,5]
plt.plot(x,y) ### 画折线图,传入两个值的话,第一个代表x值,第二个代表y值。
x = [1,3,6,9]
y = [12,5,10,20]
plt.figure(figsize=(10,6)) #### 设置画板大小,第一个值表示宽度,第二个值表示高度。
plt.title('两个参数的折线图',fontproperties=font, fontsize=20, color='red') ### 设置标题
plt.xlabel('x轴', fontproperties=font,fontsize=15, color='red') ### 设置 x轴的说明
plt.ylabel('y轴', fontproperties=font,fontsize=20, color='blue') ### 设置 y 轴的说明
plt.plot(x, y)
#### 存在的问题:1.中文乱码
matplotlib 从配置文件 matplotlibrc 中读取配置,字体相关内容也在其中。查询当前matplotlibrc 所在目录,可以用 get_configdir()函数:
import matplotlib
涉及到字体部分的设置内容为: : sans-serif : normal
#font.variant : normal
#font.weight : normal
#font.stretch : normal
## note that font.size controls default text sizes. To configure
## special text sizes tick labels, axes, labels, title, etc, see the rc
## settings for axes and ticks. Special text sizes can be defined
## relative to font.size, using the following values: xx-small, x-small,
## small, medium, large, x-large, xx-large, larger, or smaller
#font.size : 10.0
#font.serif : DejaVu Serif, Bitstream Vera Serif, Computer Modern Roman, New Century Schoolbook, Century Schoolbook L, Utopia, ITC Bookman, Bookman, Nimbus Roman No9 L, Times New Roman, Times, Palatino, Charter, serif
#font.sans-serif : DejaVu Sans, Bitstream Vera Sans, Computer Modern Sans Serif, Lucida Grande, Verdana, Geneva, Lucid, Arial, Helvetica, Avant Garde, sans-serif
#font.cursive : Apple Chancery, Textile, Zapf Chancery, Sand, Script MT, Felipa, cursive
#font.fantasy : Comic Sans MS, Chicago, Charcoal, ImpactWestern, Humor Sans, xkcd, fantasy
#font.monospace : DejaVu Sans Mono, Bitstream Vera Sans Mono, Computer Modern Typewriter, Andale Mono, Nimbus Mono L, Courier New, Courier, Fixed, Terminal, monospace
matplotlib 默认使用的 是 sans-serif,即无衬线字体,可以看到在font.sans-serif中设置的全部为西文字体,这里的设置和css样式文件中设置差不多,只需要添加系统存在的字体名称即可(需要注意的是,matplotlib:
import matplotlib as plt
plt.rcParams['font.sans-serif'] = ['SimHei']
plt.rcParams['font.serif'] = ['SimHei']
plt.rcParams['axes.unicode_minus'] = False # 解决保存图像是负号'-'显示为方块的问题,或者转换负号为字符串
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
#### windows配置
plt.rcParams['font.sans-serif'] = ['SimHei']
plt.rcParams['axes.unicode_minus'] = False
x = [1,3,6,9]
y = [12,5,10,20]
plt.figure(figsize=(10,6)) #### 设置画板大小
plt.title('标题',fontsize=20, color='red') ### 设置标题
plt.xlabel('x轴',fontsize=15, color='blue') ### 设置 x轴的说明
plt.ylabel('y轴', fontsize=20, color='blue') ### 设置 y 轴的说明
plt.plot(x, y)
import numpy as np
import pylab as pl
import matplotlib.font_manager as fm
myfont = fm.FontProperties(fname=r'C:\Windows\Fonts\simhei.ttf') # 设置字体
t = np.arange(0.0,2.0 * np.pi,0.01) # 自变量取值范围
s = np.sin(t) # 计算正弦函数值
z = np.cos(t) # 计算余弦函数值
pl.xlabel('x-变量',fontproperties=myfont,fontsize=24) #设置标签
pl.title('sin-cos函数图像',fontproperties=myfont,fontsize=32) #图像标题
import pandas as pd
movies = pd.read_csv('./douban_movie.csv') ### 只需要read_csv函数, 将csv中的所有数据读出
名字 | 投票人数 | 类型 | 产地 | 上映时间 | 时长 | 年代 | 评分 | 首映地点 | |
0 | 肖申克的救赎 | 692795.0 | 剧情/犯罪 | 美国 | 1994-09-10 00:00:00 | 142.0 | 1994 | 9.6 | 多伦多电影节 |
1 | 控方证人 | 42995.0 | 剧情/悬疑/犯罪 | 美国 | 1957-12-17 00:00:00 | 116.0 | 1957 | 9.5 | 美国 |
2 | 美丽人生 | 327855.0 | 剧情/喜剧/爱情 | 意大利 | 1997-12-20 00:00:00 | 116.0 | 1997 | 9.5 | 意大利 |
3 | 阿甘正传 | 580897.0 | 剧情/爱情 | 美国 | 1994-06-23 00:00:00 | 142.0 | 1994 | 9.4 | 洛杉矶首映 |
4 | 霸王别姬 | 478523.0 | 剧情/爱情/同性 | 中国大陆 | 1993-01-01 00:00:00 | 171.0 | 1993 | 9.4 | 香港 |
... | ... | ... | ... | ... | ... | ... | ... | ... | ... |
38730 | 神学院 S | 46.0 | Adult | 法国 | 1905-06-05 00:00:00 | 58.0 | 1983 | 8.6 | 美国 |
38731 | 1935年 | 57.0 | 喜剧/歌舞 | 美国 | 1935-03-15 00:00:00 | 98.0 | 1935 | 7.6 | 美国 |
38732 | 血溅画屏 | 95.0 | 剧情/悬疑/犯罪/武侠/古装 | 中国大陆 | 1905-06-08 00:00:00 | 91.0 | 1986 | 7.1 | 美国 |
38733 | 魔窟中的幻想 | 51.0 | 惊悚/恐怖/儿童 | 中国大陆 | 1905-06-08 00:00:00 | 78.0 | 1986 | 8.0 | 美国 |
38734 | 列宁格勒围困之星火战役 Блокада: Фильм 2: Ленинградский ме... | 32.0 | 剧情/战争 | 苏联 | 1905-05-30 00:00:00 | 97.0 | 1977 | 6.6 | 美国 |
38735 rows × 9 columns
<div class="prompt output_prompt">Out[21]:</div>
{'USA': Int64Index([ 704, 883, 1010, 1167, 2046, 2342, 2411, 2626, 2771, 3095, ... 33005, 33248, 34457, 34695, 34721, 34733, 35081, 35778, 36994, 37662], dtype='int64', length=113), '中国台湾': Int64Index([ 153, 185, 222, 333, 345, 385, 389, 391, 442, 588, ... 37902, 37939, 37947, 37995, 38024, 38049, 38470, 38489, 38624, 38722], dtype='int64', length=618), '中国大陆': Int64Index([ 4, 21, 29, 38, 45, 49, 62, 67, 119, 132, ... 38680, 38695, 38699, 38701, 38714, 38724, 38726, 38728, 38732, 38733], dtype='int64', length=3802), '中国香港': Int64Index([ 53, 92, 121, 182, 184, 187, 198, 202, 208, 209, ... 38357, 38421, 38495, 38497, 38498, 38554, 38571, 38691, 38697, 38709], dtype='int64', length=2852), '丹麦': Int64Index([ 266, 428, 1275, 1567, 1664, 1710, 2118, 2318, 2391, 2480, ... 37452, 37628, 37762, 37852, 37889, 38167, 38273, 38292, 38316, 38607], dtype='int64', length=198), '俄罗斯': Int64Index([ 152, 161, 414, 548, 803, 953, 1342, 1795, 1910, 2338, ... 37173, 37347, 37408, 37740, 38006, 38007, 38174, 38563, 38566, 38698], dtype='int64', length=221), '其他': Int64Index([ 116, 128, 169, 170, 190, 216, 218, 263, 288, 301, ... 38375, 38392, 38395, 38396, 38401, 38517, 38575, 38586, 38647, 38653], dtype='int64', length=1920), '加拿大': Int64Index([ 117, 141, 227, 232, 398, 409, 420, 478, 496, 529, ... 38019, 38133, 38180, 38225, 38328, 38522, 38601, 38636, 38679, 38684], dtype='int64', length=723), '印度': Int64Index([ 99, 142, 166, 289, 1036, 1532, 1544, 1680, 1681, 1811, ... 37772, 37773, 37775, 37776, 37936, 38022, 38115, 38346, 38465, 38623], dtype='int64', length=357), '墨西哥': Int64Index([ 763, 1618, 1709, 2269, 2301, 2317, 3051, 3489, 4114, 4238, ... 36949, 36976, 37693, 37777, 38079, 38458, 38599, 38600, 38646, 38681], dtype='int64', length=119), '巴西': Int64Index([ 776, 1568, 1866, 1948, 2711, 2727, 2784, 2892, 3296, 3498, ... 36690, 36756, 36929, 37159, 37273, 37653, 37734, 37779, 37780, 38299], dtype='int64', length=101), '德国': Int64Index([ 97, 148, 234, 261, 306, 344, 558, 561, 845, 960, ... 38296, 38297, 38311, 38518, 38556, 38560, 38578, 38592, 38606, 38608], dtype='int64', length=902), '意大利': Int64Index([ 2, 10, 24, 54, 56, 75, 89, 111, 135, 221, ... 38441, 38448, 38469, 38472, 38506, 38513, 38534, 38651, 38692, 38711], dtype='int64', length=749), '日本': Int64Index([ 7, 8, 12, 14, 28, 34, 35, 40, 41, 42, ... 38656, 38660, 38666, 38668, 38670, 38686, 38688, 38689, 38690, 38712], dtype='int64', length=5053), '比利时': Int64Index([ 503, 620, 1012, 1068, 1564, 1634, 2321, 2336, 2537, 3179, ... 35831, 35918, 35998, 36099, 36211, 36829, 37268, 37726, 37879, 38200], dtype='int64', length=139), '法国': Int64Index([ 9, 23, 25, 33, 39, 51, 55, 96, 112, 127, ... 38595, 38597, 38602, 38657, 38658, 38676, 38678, 38694, 38703, 38730], dtype='int64', length=2817), '波兰': Int64Index([ 120, 614, 1100, 1558, 1815, 2084, 2291, 2566, 2994, 3031, ... 36842, 36894, 37081, 37715, 37733, 37910, 37988, 38459, 38480, 38713], dtype='int64', length=181), '泰国': Int64Index([ 131, 183, 274, 305, 310, 330, 370, 439, 450, 472, ... 36330, 36791, 36922, 37198, 37215, 37506, 37691, 37692, 37745, 38182], dtype='int64', length=294), '澳大利亚': Int64Index([ 139, 171, 470, 583, 730, 810, 830, 925, 934, 969, ... 37786, 37963, 37992, 38045, 38108, 38326, 38373, 38397, 38696, 38700], dtype='int64', length=300), '瑞典': Int64Index([ 836, 1264, 1619, 1825, 1867, 1900, 1971, 2387, 2501, 2907, ... 37425, 37434, 37435, 37497, 37622, 37945, 37946, 37986, 38088, 38727], dtype='int64', length=193), '美国': Int64Index([ 0, 1, 3, 5, 6, 11, 13, 15, 16, 17, ... 38708, 38710, 38716, 38719, 38720, 38721, 38723, 38725, 38729, 38731], dtype='int64', length=11866), '苏联': Int64Index([ 756, 1203, 1278, 1384, 1576, 2077, 2349, 2374, 2379, 2512, ... 37421, 37610, 37629, 38060, 38228, 38371, 38417, 38467, 38717, 38734], dtype='int64', length=256), '英国': Int64Index([ 18, 31, 37, 44, 46, 68, 69, 70, 71, 72, ... 38523, 38537, 38555, 38564, 38638, 38671, 38682, 38706, 38707, 38718], dtype='int64', length=2762), '荷兰': Int64Index([ 205, 448, 833, 875, 1003, 1046, 1276, 1291, 1410, 1610, ... 36831, 36927, 36953, 37141, 37409, 37415, 37875, 38419, 38515, 38533], dtype='int64', length=155), '西德': Int64Index([ 1283, 1670, 1877, 2014, 2381, 2755, 2833, 2908, 2979, 3128, ... 38064, 38068, 38084, 38142, 38149, 38194, 38219, 38411, 38487, 38536], dtype='int64', length=130), '西班牙': Int64Index([ 147, 155, 348, 353, 355, 378, 387, 395, 1235, 1266, ... 37813, 37826, 37978, 38020, 38047, 38132, 38147, 38290, 38609, 38677], dtype='int64', length=447), '阿根廷': Int64Index([ 66, 654, 1376, 1979, 2369, 2655, 2723, 2852, 3056, 3094, ... 37118, 37172, 37197, 37295, 37502, 37542, 37707, 37876, 37997, 38588], dtype='int64', length=116), '韩国': Int64Index([ 48, 50, 98, 100, 102, 105, 113, 154, 158, 215, ... 38293, 38324, 38408, 38423, 38438, 38582, 38593, 38594, 38641, 38715], dtype='int64', length=1351)}
res = movies.groupby('产地').size().sort_values(ascending=False)
<div class="prompt output_prompt">Out[22]:</div>
产地 美国 11866 日本 5053 中国大陆 3802 中国香港 2852 法国 2817 英国 2762 其他 1920 韩国 1351 德国 902 意大利 749 加拿大 723 中国台湾 618 西班牙 447 印度 357 澳大利亚 300 泰国 294 苏联 256 俄罗斯 221 丹麦 198 瑞典 193 波兰 181 荷兰 155 比利时 139 西德 130 墨西哥 119 阿根廷 116 USA 113 巴西 101 dtype: int64
<div class="prompt output_prompt">Out[23]:</div>
array([11866, 5053, 3802, 2852, 2817, 2762, 1920, 1351, 902, 749, 723, 618, 447, 357, 300, 294, 256, 221, 198, 193, 181, 155, 139, 130, 119, 116, 113, 101], dtype=int64)
Index(['美国', '日本', '中国大陆', '中国香港', '法国', '英国', '其他', '韩国', '德国', '意大利', '加拿大', '中国台湾', '西班牙', '印度', '澳大利亚', '泰国', '苏联', '俄罗斯', '丹麦', '瑞典', '波兰', '荷兰', '比利时', '西德', '墨西哥', '阿根廷', 'USA', '巴西'], dtype='object', name='产地')
import matplotlib.pyplot as plt
from matplotlib.font_manager import FontProperties # 修改字体
font=FontProperties(fname='C:\Windows\Fonts\simfang.ttf')'ggplot') # 设置条形图的背景
movies_count = res.values
plt.xticks(fontproperties=font, size=18, rotation=90) ### 对坐标轴上的刻度进行设置 rotation控制字体旋转
for a,b in zip(Product_origin,movies_count):
plt.text(a,b+100,b,ha='center') #### 参数1控制x轴文本,参数2控制柱上的数字,+100是柱子和数字之间的距离,参数3控制文本在柱子上居中,参数4控制字体大小,movies_count,color='darkgreen')
# plt.savefig('./a.png') #### 保存图片
<div class="prompt output_prompt">Out[48]:</div>
res = movies.groupby('年代').size().sort_index()[:-2] #### 按照年代分组,用size统计每年对应的数量,再以年代为索引排序,[:-2]删除最后两个无效数据
<div class="prompt output_prompt">Out[62]:</div>
年代 1888 2 1890 1 1892 1 1894 3 1895 8 ... 2012 2042 2013 2001 2014 1887 2015 1592 2016 257 Length: 126, dtype: int64
x = res.index
y = res.values
<div class="prompt"></div>
根据电影时长 画出一个饼图分布¶
#### 分布的范围:0-70 70-100 100-130 130-----
t = pd.cut([10,5,20,15,8], (2,10,15,50)) ### 第一个参数是待分割的数据 第二个参数是分割的范围
<div class="prompt output_prompt">Out[66]:</div>
[(2, 10], (2, 10], (15, 50], (10, 15], (2, 10]] Categories (3, interval[int64]): [(2, 10] < (10, 15] < (15, 50]]
res = t.value_counts() ### 将值相同的进行分组并且计算个数
<div class="prompt output_prompt">Out[72]:</div>
(2, 10] 3 (10, 15] 1 (15, 50] 1 dtype: int64
<div class="prompt output_prompt">Out[73]:</div>
CategoricalIndex([(2, 10], (10, 15], (15, 50]], categories=[(2, 10], (10, 15], (15, 50]], ordered=True, dtype='category')
<div class="prompt output_prompt">Out[74]:</div>
array([3, 1, 1], dtype=int64)
movie_time = movies['时长']
<div class="prompt output_prompt">Out[76]:</div>
0 142.0 1 116.0 2 116.0 3 142.0 4 171.0 ... 38730 58.0 38731 98.0 38732 91.0 38733 78.0 38734 97.0 Name: 时长, Length: 38735, dtype: float64
res_time = pd.cut(movie_time,(0,70,100,130,1000)).value_counts()
<div class="prompt output_prompt">Out[79]:</div>
(70, 100] 15079 (0, 70] 10838 (100, 130] 10517 (130, 1000] 2299 Name: 时长, dtype: int64
x = res_time.index
y = res_time.values
plt.title('电影时长分布图', FontProperties=font, color='red', size=20)
patchs, l_text, p_text = plt.pie(y,labels=x, autopct='%.2f%%')
for l in l_text: ### l_text 就是一个lable的列表
for p in p_text: #### p_text: 就是百分比值
<div class="prompt"></div>
matplotlib模块第二部分:matplotlib模块 07