XX学Python·数据分析工具

Anaconda管理虚拟环境
- 界面创建虚拟环境：Environment>Create>弹出对话框
- 命令创建虚拟环境：点击CMD.exe Prompt这图标下的Launch进入cmd命令行终端

conda env list  # 查看当前有多少个虚拟环境,前面有*代表正位于的虚拟环境
conda create -n 虚拟环境名 python=3.8  # 创建虚拟环境,python=3.8指定python版本
conda activate 虚拟环境名  # 进入虚拟环境
conda deactivate  # 退出虚拟环境
conda remove -n 虚拟环境名 --all  # 删除虚拟环境

Anaconda包管理功能
- 通过界面安装包：进入到环境管理界面，通过搜索要安装的包，会是最新版本
- 命令进行包的安装：可指定包的版本，更推荐。注:先切换到要安装包的虚拟环境

conda install 包名字  # 安装包
pip install 包名字  # 安装包(推荐)，如pip install pandas==1.1.3
pip freeze  # 可查看有哪些包

# 安装其他包速度慢可以指定国内镜像
 # 阿里云：https://mirrors.aliyun.com/pypi/simple/
 # 豆瓣：https://pypi.douban.com/simple/
 # 清华大学：https://pypi.tuna.tsinghua.edu.cn/simple/
 # 中国科学技术大学 http://pypi.mirrors.ustc.edu.cn/simple/

# 例如：通过阿里云镜像安装
pip install 包名 -i https://mirrors.aliyun.com/pypi/simple/

知道 Python 数据分析常用开源库
- Pandas、Numpy、Matplotlib、Seaborn、SKlearn、Jupyter Notebook

Jupyter Notebook使用

启动Jupyter Notebook
- 通过界面Launch启动(注:此方式直接启动Jupyter notebook,无法打开当前所在磁盘以外的其他磁盘上的文件)，启动后自动跳转到Jupyter网页界面
- 推荐通过终端启动 Jupyter Notebook(注:此方式先启动cmd,通过切换虚拟环境和磁盘位置，再启动Jupyter notebook)

在启动Anaconda提供的CMD后，输入命令如下：

# 切换虚拟环境,可选操作
conda activate 虚拟环境名字 

# 切换磁盘位置,可选操作
cd C:\Users\Xuanxuan\Desktop\Bigdata

# 启动jupyter notebook
jupyter notebook

常用快捷键
- Shift+Enter：执行本单元代码，并跳转到下一单元
- Ctrl+Enter：执行本单元代码，留在本单元

pandas快速入门

pandas最基本的两种数据结构：DataFrame，Series
加载数据集(csv和tsv)：csv文件每一列的列元素间以逗号进行分割，tsv文件每一行的列元素间以\t进行分割。

# 在 ipynb 文件中导入 pandas
import pandas as pd

# 加载csv数据,省略sep参数，因为默认是逗号
tips = pd.read_csv('./data/tips.csv')

# 加载tsv数据,sep参数指定tsv文件的列元素分隔符为\t，默认sep参数是逗号
gapminder = pd.read_csv('./data/gapminder.tsv',sep='\t')

DataFrame 的行标签和列标签(行标签和列标签是可以重复的)

gapminder.index  # 获取行标签
gapminder.columns  # 获取列标签

# DataFrame设置行标签时，不会改变原来的DataFrame，而是返回的数据副本
gapminder_year_columns = gapminder.set_index('year')

loc函数、iloc函数获取指定行列的数据

# loc函数，根据行标签和列标签获取
# 写全的写法，还有省略的写法看讲义
df.loc[[行标签1, ...], [列标签1, ...]]

# iloc函数，根据行位置编号和列位置编号获取(类似于索引，从0开始)
df.iloc[[行位置1, ...], [列位置1, ...]]

loc和iloc的切片操作
- df.loc[起始行标签:结束行标签, 起始列标签:结束列标签],包含起始行列标签和结束行列标签
- df.iloc[起始行位置:结束行位置, 起始列位置:结束列位置],包含起始行列位置，但不包含结束行列位置
[] 语法获取指定行列的数据
- df[['列标签1', '列标签2', ...]]，根据列标签获取所有行的对应列的数据
- df[起始行位置:结束行位置:步长]，根据指定范围获取对应行的所有列的数据，不包括结束行

posted @ 2022-10-04 23:11 PORTB 阅读(63) 评论(0) 收藏举报

刷新页面返回顶部