[学习记录]intel-ML课程记录01

 

找了一份intel提供给AI爱好者的学习资料,官网上可以找到。传送门

1.pandas介绍


 

pandas中一维变量转换为series,二维数组转换为dataframe

还可以给series添加日期,以及输出指定日期的值

支持对非法数据一键赋值


2.dataframe

dataframe可以从列表、字典、以及series中转化过来

可以为列添加标签,增加索引

有多种方式选中数据

还可以这样?????

从CSV文件中读取数据

统计特性展示

更多统计描述函数参考该博客https://blog.csdn.net/claroja/article/details/65445063

pandas还支持随机取样

 

关于pandas就先到这里


1.matplotlib

普通绘图,声明好xy轴

图形叠加

 

画直方图

定制功能?(不是太懂)

利用pandas直接绘图


3.seaborn

比matplotlib更加厉害的可视化接口

还有更厉害的。。。。

第一节主要就介绍了这些工具。关于这些工具库更加详细的使用以后有空专门研究一下

 


习题时间:

在官网获得的资料里每一节课都一个ipynb文件作业,这里做一下然后加一点解释

Q1

题目一只是简单地检查数据,这里注意data.head()是输出前五行

data.shape是以元组形式输出行与列

Q2

问题二要求移除列名中的Iris前缀,通过data.species.str获取名字字符串对象,通过replace方法消除。

Q3

 

问题三要求(1)确定每种物种的数量(2)确定每个花瓣和萼片测量的平均值、中位数、分位数以及范围。

 

Q4

问题四:在单独数据框中计算不同物种的各项平均值与中值。

出人意料非常简单(我是指官方提供的方法,我自己可能还要绕半天)

还有比较魔法的方法,agg为aggregate缩写,意为汇总。

关于汇总再做两个小测试方便解释

Q5

使用Matplotlib制作sepal_length与sepal_width的散点图。 标记轴并为绘图指定标题。

 

 然后通过三个例子展示一下先前plot方法中几个参数的含义

默认是直接连线

ls=''即不连线,但是怎么什么都没有了呢?

加入了marker='o',发现不仅有连线,点也被突出了,难道说。。。

没错!这样就变成散点图了。

Q6

制作四种特征的任意一个直方图,并且标记坐标轴以及标题

Q7

问题7:创建一个直方图群,包括每一个特征的直方图。(尽量不要让它们叠加起来)

Q8

问题8:制作每个花瓣与萼片的箱线图

百科上找了下箱线图的含义

Q9

问题9:现在制作一个箱形图,其中特征在x轴上分开,物种用不同的色调着色。提示:您可能需要查看Seaborn箱图的文档。另请注意,Seaborn对数据格式非常挑剔 - 要使此图工作,需要操作输入数据帧,以便每行包含单个数据点(物种,测量类型和测量值)

首先要整理数据

输出plot_data可以看到,其实是相当于把每个样例的四个特征压缩到一起了

 

然后绘图(这里sns为seaborn的别名)

 seaborn太难了,不会用不会用,虽然看着非常舒服。

Q10

问题10:与Seaborn制作一个配对图,以检查每个测量值之间的相关性。提示:这个图可能看起来很复杂,但实际上只有一行代码。 这是Seaborn和数据帧感知绘图的强大功能! 请参阅讲义以供参考。

 没错。。。一行。。。。就是最后那一行。。。。

 

注意把size改成height

 

 完成

 

posted @ 2018-07-21 00:45  冷血无情康纳酱  阅读(344)  评论(0编辑  收藏  举报