pandas速成笔记(1)-环境搭建及excel读取

工作中经常会遇到一些excel的数据分析工作,虽然本身excel本身有非常强大的功能,但如果需要将一些数据分析结果集成在自己的项目中,excel就显示有些不方便了(总不能每次在excel里做好图表,再截图贴进来吧),幸好python的生态圈足够强大,有pandas这种利器,能以编程的方式,方便快捷的分析excel/csv电子表格。

 

一、环境搭建

1.1 anaconda

最简单的办法就是安装Anaconda ,它已经集成了很多数据分析的工具包(包括pandas),download后一路next安装即可。

安装完后,mac终端上输入conda --help,可以查看帮助信息。(windows环境也是类似的)

 

1.2 查看python虚拟环境

python与其它语言不同的地方,它可以在机器上创建不同的所谓『环境』,不同的环境之间相互隔离(即:本环境下安装的软件及版本,跟另1个环境没任何关系),比如:环境A用于运行python 2.x,环境B用于运行python 3.x。

安装好anaconda后,默认会创建1个名为base的环境,也可以用以下命令查看当前所有环境:

conda info --env

如上图,我本机有2个环境:base, pytorch

环境之间也可以切换,比如我想切换到pytorch环境,可以用

conda activate pytorch

如果在mac上,切换完成后,提示符会有所变化:

另外还有一些关于环境的常用命令:

conda info --env 列出所有环境
conda remove -n myenv -all 删除指定环境myenv
conda create -n myenv1 python=3.6 创建环境myenv1,且指定该环境使用python 3.6版本

另外,如果是mac,还有一个很有用的命令where python,查看python程序所在目录(后面配置pycharm运行环境时会用到)

 

1.3 安装pycharm

虽然conda安装后,自带了jupyter notebook,也能做一些简单的交互式编程。比如,在命令行输入:

jupyter notebook

会在本机启用1个webserver,同时终端窗口也会有一些日志:

在浏览器里打开http://127.0.0.1:8888/ 后就能写代码了:

但真正实际工作中,开发人员更多会使用pycharm,编程体验会更好,而且社区版也不要钱,何乐不为呢?但很多新手可能会发现,pycharm安装好以后不识别conda环境

pycharm中创建python项目时,如果象上图一样,interpreter里是空的,点击最右侧的...按钮,

在Add Python Interpreter界面,继续点最右侧的...按钮,这时候会让你选择python所在的目录,还记得前面讲到的where python命令吗?用它找到anaconda安装后,python所在的目录(这个很重要!不要选择mac系统自带的python目录/usr/bin/python,那个没有pandas等工具库)

如果你经常要使用pandas处理数据,建议把Make available to all projects勾上

 

二、excel读写测试

pycharm里随便创建1个python项目,验证下pandas开发环境是否正常。

然后创建一个python文件,比如:001.py,输入以下代码(先不用管什么意思)

import pandas as pd

df = pd.DataFrame({"id": [1, 2, 3, 4, 5, 6], "name": ["A", "B", "C", "D", "E", 'F']}).set_index('id')
df.to_excel("data/001.xlsx")

df2 = pd.read_excel("data/001.xlsx").set_index("id")
print(df2)

如果能类似输出类似上图的结果 ,就说明环境ok。再来回过头看看这几行代码的意思:

行1:导入pandas类库,同时取个别名叫pd

行3-4:创建几行数据,然后写入到excel文件

行6-7:把刚才写入的excel,重新读出来,并打印

posted @ 2022-03-13 16:35  菩提树下的杨过  阅读(530)  评论(0编辑  收藏  举报