XX学Python·数据分析工具
-
Anaconda管理虚拟环境
-
界面创建虚拟环境:Environment>Create>弹出对话框
-
命令创建虚拟环境:点击CMD.exe Prompt这图标下的Launch进入cmd命令行终端
-
conda env list # 查看当前有多少个虚拟环境,前面有*代表正位于的虚拟环境 conda create -n 虚拟环境名 python=3.8 # 创建虚拟环境,python=3.8指定python版本 conda activate 虚拟环境名 # 进入虚拟环境 conda deactivate # 退出虚拟环境 conda remove -n 虚拟环境名 --all # 删除虚拟环境
-
Anaconda包管理功能
-
通过界面安装包:进入到环境管理界面,通过搜索要安装的包,会是最新版本
-
命令进行包的安装:可指定包的版本,更推荐。注:先切换到要安装包的虚拟环境
-
conda install 包名字 # 安装包 pip install 包名字 # 安装包(推荐),如pip install pandas==1.1.3 pip freeze # 可查看有哪些包 # 安装其他包速度慢可以指定国内镜像 # 阿里云:https://mirrors.aliyun.com/pypi/simple/ # 豆瓣:https://pypi.douban.com/simple/ # 清华大学:https://pypi.tuna.tsinghua.edu.cn/simple/ # 中国科学技术大学 http://pypi.mirrors.ustc.edu.cn/simple/ # 例如:通过阿里云镜像安装 pip install 包名 -i https://mirrors.aliyun.com/pypi/simple/
-
知道 Python 数据分析常用开源库
- Pandas、Numpy、Matplotlib、Seaborn、SKlearn、Jupyter Notebook
Jupyter Notebook使用
-
启动Jupyter Notebook
-
通过界面Launch启动(注:此方式直接启动Jupyter notebook,无法打开当前所在磁盘以外的其他磁盘上的文件),启动后自动跳转到Jupyter网页界面
-
推荐通过终端启动 Jupyter Notebook(注:此方式先启动cmd,通过切换虚拟环境和磁盘位置,再启动Jupyter notebook)
-
在启动Anaconda提供的CMD后,输入命令如下: # 切换虚拟环境,可选操作 conda activate 虚拟环境名字 # 切换磁盘位置,可选操作 cd C:\Users\Xuanxuan\Desktop\Bigdata # 启动jupyter notebook jupyter notebook
-
常用快捷键
-
Shift+Enter:执行本单元代码,并跳转到下一单元
-
Ctrl+Enter:执行本单元代码,留在本单元
-
pandas快速入门
-
pandas最基本的两种数据结构:DataFrame,Series
-
加载数据集(csv和tsv):csv文件每一列的列元素间以逗号进行分割,tsv文件每一行的列元素间以\t进行分割。
# 在 ipynb 文件中导入 pandas import pandas as pd # 加载csv数据,省略sep参数,因为默认是逗号 tips = pd.read_csv('./data/tips.csv') # 加载tsv数据,sep参数指定tsv文件的列元素分隔符为\t,默认sep参数是逗号 gapminder = pd.read_csv('./data/gapminder.tsv',sep='\t')
- DataFrame 的行标签和列标签(行标签和列标签是可以重复的)
gapminder.index # 获取行标签 gapminder.columns # 获取列标签 # DataFrame设置行标签时,不会改变原来的DataFrame,而是返回的数据副本 gapminder_year_columns = gapminder.set_index('year')
- loc函数、iloc函数获取指定行列的数据
# loc函数,根据行标签和列标签获取 # 写全的写法,还有省略的写法看讲义 df.loc[[行标签1, ...], [列标签1, ...]] # iloc函数,根据行位置编号和列位置编号获取(类似于索引,从0开始) df.iloc[[行位置1, ...], [列位置1, ...]]
-
loc和iloc的切片操作
-
df.loc[起始行标签:结束行标签, 起始列标签:结束列标签]
,包含起始行列标签和结束行列标签 -
df.iloc[起始行位置:结束行位置, 起始列位置:结束列位置]
,包含起始行列位置,但不包含结束行列位置
-
-
[] 语法获取指定行列的数据
-
df[['列标签1', '列标签2', ...]]
,根据列标签获取所有行的对应列的数据 -
df[起始行位置:结束行位置:步长]
,根据指定范围获取对应行的所有列的数据,不包括结束行
-
【推荐】国内首个AI IDE,深度理解中文开发场景,立即下载体验Trae
【推荐】编程新体验,更懂你的AI,立即体验豆包MarsCode编程助手
【推荐】抖音旗下AI助手豆包,你的智能百科全书,全免费不限次数
【推荐】轻量又高性能的 SSH 工具 IShell:AI 加持,快人一步
· winform 绘制太阳,地球,月球 运作规律
· AI与.NET技术实操系列(五):向量存储与相似性搜索在 .NET 中的实现
· 超详细:普通电脑也行Windows部署deepseek R1训练数据并当服务器共享给他人
· 上周热点回顾(3.3-3.9)
· AI 智能体引爆开源社区「GitHub 热点速览」