python 08-机器学习入门-Anaconda‌安装


一、机器学习中常用的包


  • NumPy‌:‌用于数值计算的包,‌提供了多维数组对象和一系列数学函数

  • Matplotlib‌:‌用于绘制图表的库,‌可以创建各种静态、‌动态和交互式的图表

  • Pandas: 提供了高性能、‌易于使用的数据结构和数据分析工具

  • Scikit-learn: 是Python重要的机器学习库。其包括分类、回归、降维和聚类四大机器学习算法,还包括了特征提取、数据处理和模型评估三大模块




二、Anaconda‌安装


(1)为什么选择Anaconda‌?

  • Anaconda‌是一个开源的‌Python发行版本,其最大的特点在于集成了大量的科学计算包及其依赖项,总计超过180个,涵盖了数据分析、机器学习、深度学习、数据可视化等多个领域,为科研人员提供了强大的支持。此外,Ana‌conda还包含了一个名为conda的包管理器,使得用户可以轻松地安装、更新和管理这些包。Anaconda还可以创建和管理多个独立的Python环境,使得在不同项目中使用不同版本的Python和库变得简单。

  • Miniconda是Anaconda的一个轻量级版本,只包含conda和Python本身,但同样可以通过conda安装和管理其他包。

  • PyCharm‌是一款由‌JetBrains开发的Python集成开发环境(IDE),提供了代码编辑、调试、项目管理、版本控制等多种功能,是一个功能强大的工具,特别适合专业开发人员使用。PyCharm适合那些需要强大IDE支持的专业开发者,它提供了丰富的功能,包括代码自动完成、调试器、单元测试工具等,使得代码开发高效和便捷。

  • Anaconda‌自带python解释器,而PyCharm‌不含python解释器,需要另外下载安装。


(2)安装

官网下载地址:https://www.anaconda.com/download/success


  • Add Anaconda to my PATH environment variable:
    意思是将Anaconda添加到系统的环境变量中,这样你就可以在任何目录下使用Anaconda提供的命令,比如conda、jupyter等

  • Register Anaconda as my default Python:
    意思是将Anaconda的Python设置为系统默认的Python解释器

  • clean the package cache upon completion:
    在Anaconda安装过程中,可以选择在安装完成后清除包缓存。其作用是在安装过程结束后删除下载的临时包文件,以释放磁盘空间。

因为我之前已经下载过python解释器,并且配置过环境变量,因此想要把Anaconda的Python设置为默认的解释器,就需要手动的把原来的环境变量配置改成Anaconda的Python的地址,如下

原来:

修改后(记得保存):




三、Anaconda‌具体使用


(1)Jupyter Notebook

安装完后运行命令jupyter notebook

Jupyter Notebook提供了丰富的命令和操作,以便用户可以更加高效地创建、编辑和运行代码。
.ipynb文件不仅包括了代码,也包括了代码结构以及输出,而.py文件只有源代码



接着自动弹出这样一个网页:


创建一个文件夹用于编写python代码:

改名字为HelloWorld:

可以在里面编写代码:


(2)导入数据集合dataset

‌Kaggle:是一个国际知名的数据科学竞赛平台,‌现为Google Cloud的一部分‌。‌该平台主要为开发商和数据科学家提供举办机器学习竞赛、‌托管数据库、‌编写和分享代码的环境


注册一个kaggle账号,出现验证码加载不出来的提示,解决办法参考:https://blog.csdn.net/qq_41835735/article/details/131413062?spm=1001.2014.3001.5502


接着找到一个数据集并下载:


解压后将数据文件和HelloWorld文件放在一起:

接着导入pandas包,用其中的方法来读取这个数据集文件:


(3)pandas的一些用法

  • 数据集.shape:
    对于 DataFrame,‌shape 属性会返回一个元组,‌其中第一个元素是行数,‌第二个元素是列数。‌
    对于 Series,‌shape 属性会返回一个元组,‌其中只有一个元素,‌即序列的长度。‌


  • 数据集.describe() :
    用于生成 DataFrame 或 Series 的描述性统计摘要。‌这个方法默认会计算数值型列的一些常用统计量,‌包括计数(‌非空值数量)‌、‌平均值、‌标准差、‌最小值、‌四分位数(‌25%、‌50%、‌75%)‌和最大值。‌
    如果 DataFrame 中包含非数值型数据,‌这些列将被默认忽略,‌但可以通过设置include参数来包含它们,‌或者使用exclude参数来排除某些类型的列。‌


(4)jupyter notebook快捷键

选中某一个编辑框,按escape键,就会从edit模式转换到comand模式


不同模式下的快捷键不同

查看快捷键:

比较常用的Jupyter Notebook shortcuts for Windows

  • Command Mode Shortcuts (press Esc to enter)

Enter: Switch to Edit mode.
A: Insert a new cell above.
B: Insert a new cell below.
双击D: Delete the selected cell.
Z: Undo the last cell deletion.
Y: Change the cell type to Code.
M: Change the cell type to Markdown.
Ctrl + Shift + H: Show keyboard shortcuts.

  • Edit Mode Shortcuts (press Enter to enter)

Ctrl + Enter: Run the current cell.
Shift + Enter: Run the current cell and move to the next cell.
Alt + Enter: Run the current cell and insert a new cell below.
Ctrl + Z: Undo the last action.
Ctrl + Y: Redo the last undone action.
Tab: Code completion or indent.代码补全或缩进
Shift + Tab: Tooltip for the object under the cursor.显示当前光标所在位置对象的工具提示,‌这通常用于快速查看对象的
类型、‌方法、‌属性等信息

  • 其他

Ctrl + S: Save the notebook.
Ctrl + Shift + -: Split the current cell into two at the cursor position.




四、一个机器学习的例子


主题:通过已有的用户常听的歌的数据,猜测用户推荐ta可能会购买的音乐


步骤:


1.Import The Data

mosh老师提供的数据music.csv:(只是一个假设,不代表真实情况)


2. Clean the Data
3. Split the Data into Training/Test Sets

前两列是输入,genre时输出,需要我们预测的对象,所以拆分原表,得到一个只有输入信息的表x和输出信息的表y:


4. Create a Model
5. Train the Model
6. Make Predictions

接下来利用机器学习的算法建一个模型,这里需要用到决策树的方法。


7. Evaluate and lmprove


再运行一次,精确度变成了0.5:

实际上精确度不一定有这么大,因为数据过小,还会有可能更低。


每一次需要用到这个预测功能时,都得重新训练模型,做重复性的工作。因此可以进行模型的持久化,将训练好的模型存起来,要用的时候再调出即可:

下次使用时调用即可:












posted @   卡卡发  阅读(91)  评论(0编辑  收藏  举报
相关博文:
阅读排行:
· 分享4款.NET开源、免费、实用的商城系统
· 全程不用写代码,我用AI程序员写了一个飞机大战
· MongoDB 8.0这个新功能碉堡了,比商业数据库还牛
· 白话解读 Dapr 1.15:你的「微服务管家」又秀新绝活了
· 上周热点回顾(2.24-3.2)
点击右上角即可分享
微信分享提示