Python经典机器学习的四大常用的第三方库
Python编程中,几乎都离不开第三方库。更何况是入门人工智能工作,Python是入门必备,第三方库特别是科学计算机器学习库就是入门中的入门。我们这里既然说机器学习,当然和深度学习是不一样的。所以机智客的意思是,对同一项工作任务,深度学习和机器学习两种方法不同库都能做的时候,我们侧重于机器学习角度,所以这里我们肯定不介绍Tensorflow之类的库。Python机器学习离不开第三方库,而我们常用的库,往往就那么几种。这里只介绍四个常用的第三方库。
Pandas库,数据处理数据清洗的专用库。做机器学习或者深度学习,就是和数据打交道。那么首先数据处理是首当其冲不可或缺的。那么,就需要import基本的数据处理库。比如我们在做机器学习中会看到很多数据集格式是csv,这个就可以用Pandas来处理。Pandas这个也是Python编程中常用得不能再常用的软件包了。
Numpy库。数据分析必备,也是数据计算的基础。换言之,也是机器学习深度学习的前辈基石。这个基本不用介绍了吧,即便不做机器学习,如果接触计算机视觉的朋友,也知道这个大名鼎鼎的库。Numpy属于够底层够灵活够简单的强大机器学习库,或者叫矩阵计算库,甚至深度学习框架都以它对张量进行操作,从某种意义上讲,可能深度学习优于Numpy库的一个明显特点就是支持利用GPU硬件加速了吧。
sk-learn库,基于上述的numpy和Scipy的库。包含大量用于传统机器学习和数据挖掘相关的算法,集成了常见的机器学习功能。从名字也能看出来,这是科学计算学习库,而且这个库还被评为用于处理复杂数据的最优秀机器学习库之一呢。我们在机器学习工作中几个常见的训练算法比如逻辑回归,KNN等它都有。这个库,常用的功能就是对数据集的加载、下载或创建生成,要知道它本身也自带一些小的数据集,我们可以拿来就用。
Matplotlib库。Python编程语言中最常用的数据可视化第三方库。它是绘图领域广泛使用的软件,类似 MATLAB 的绘图工具,而到了机器学习领域,则成了我们观察训练情况、输出数据结果、数据可视化的好帮手。做好了前面的数据处理,开始了数据训练,如果没有个进度或可视化展现,我们就往往难以把控进展,无法看到过程变化、验证和看到输出结果。