自学利用Python进行数据分析(一)本人想法以及 库的简介
1、关于本人的各种癖好以及想说的话
因为我在之前一直就想从事相关互联网相关的工作,此类随笔仅仅为在工作或学习之外,自己通过书籍以及提升自己的软实力而想要去学习的内容,因为我个人是属于干什么事情都不服的人,所以我想要通过该随笔来证明我的学习能力,以及我对我喜欢的东西想要去钻研的态度
因为利用Python进行数据分析 对于我本人来说是一个特别特别高深的东西并且对于数学知识很薄弱的我来说是一个特别特别难的过程,但对于我来说我特别享受这种学习的过程,一方面能够真正的提升自己,二方面就是能够希望通过自学(交流,以及自己查阅资料)真正的靠通过自己来达成某一目标,我深刻的明白一点,学习该内容需要很高的专业壁垒,所以我也做好了最坏的打算,总之对于我来说 学习新鲜事物并没有什么坏处
2、关于今后的想法
因为我一直想从事的是互联网的行业,而且近几年的互联网行业一直在发展 已经到了现在的5G时代 刚刚起步 对于我来说 我想要去抓住这个机遇,趁着自己还比较年轻,(能学就学一点),因为我的学习能力很差 所以我只能通过博客园来记录我所有学习过的 或者看到过的 以记录的方式 来呈现(主要还是担心看过的东西就会忘 所以会通过这种方式),对于我来说 我更注重的是学习的态度,我相信这方面的知识 我通过1年或者3年的不断吸收总结,总会让自己在工作方面得到提升,出于现实的考虑 我只能每天晚上以笔记的形式来记录我所看到的 和学到的新知识
因为所有的知识对于我来说都是最新的知识,所以我会把所有我不明白的点 全部以点或者参数含义等方式 来进行记录 力求做到最细致的学习笔记
3、为什么要利用Python进行数据分析?
本人的想法:
1、因为python现在已经成为了最流行的解释形语言,而且可以基于很多web框架 比如Django(python)进行网站搭建。此类语言通常被称为脚本语言
2、因为他们可以用于快速编写小型程序、脚本或其他任务进行自动化,而且对于测试相关岗位来说 尤其像大数据公司 往往更看重的是你的数据分析能力(更直白的来说是数学逻辑思维)
3、python已经从一个最前沿的科学计算语言,称为数据科学、机器学习和学术/工业界通用软件开发等领域重要的语言之一
4、在数据科学,交互式计算以及数据可视化等领域,python经常被拿来和其他开源或商业编程语言(业界很多人用python来进行数据分析)、工具来做对比python在通用的软件工程上的总体实力强
3.1关于python的弊端
众所周知没有任何一门语言是十全十美的 python也是如此
1、python作为一个解释形语言,在大多数的时候 代码运行的效率是不如java或者C++等编译类语言,
举例说明:比如我们需要一个经常高频率交易的系统 它需要一款低延迟,高资源利用的应用 ,这个时候往往用C++来进行编写会更值得
2、对于搭建高并发,多线程的应用,使用python来进行编写往往就变得比较困难(但并不是不可以)
4、什么类型的数据可以用来数据分析?
所谓什么类型的数据,其实主要的关注点就是结构化的数据,这个有意义的术语包含了众多常见的数据形式,例如:
1、表格型的数据:每一列可能会包含不同的类型(字符串,数值,日期或其他)。这类数据包含了大部分类型的数据,他们通常储存在关系型数据库或者由制表符,都好分隔的文本文件中
举例:比如表格类程序 Excel 大部分人对这类数据并不陌生
2、多为数组(矩阵)
向量为一维 例如
[1] 1 2 3 4 5 6 7 8 9 10 11 12
矩阵为二维数组
,1 | ,2 |
,3 |
,4 | |
1, | 1 | 4 | 7 | 10 |
2, | 2 | 5 | 8 | 11 |
3, | 3 | 6 | 9 | 12 |
3、由键位列关联的多张数据表(对于SQL用户来说就是主键或外键)
4、均匀或非均匀的时间序列 (随机事件)
5、数据分析需要的重要Python数据库
5.1NumPy库
NumPy是Numerical Python的简写,是Python数值计算的基石库,该库提供了多种数据结构,算法以及大部分设计Python数值计算所需要的接口
5.2pandas库
pandas库提供了高级数据结构和函数,让这些数据结构和函数的设计使得李永波机构化。表格化数据的工作快速、简单、有表现力
主要应用于表格化,面向列标签的数据结构
5.3matplotlib库
matplotlib库是最流行的用于制图及其他二维数据可视化的Python库 业界一般在可视化工具当中 一般选择此库 因为安全系数高
5.4IPython以及Jupyter库
IPython 是一个 python 的交互式 shell,比默认的python shell 好用得多,支持变量自动补全,自动缩进,支持 bash shell命令,内置了许多很有用的功能和函数,其内核为Jupyter
Ipython的命令行和Jupyter notebook对于数据碳素和可视化非常有用。
5.5SciPy库
SciPy是科学计算领域针对不同标准问题域的包集合。和NumPy一起为很多传统科学计算应用提供了一个合理,完整,成熟的计算过程
5.6scikit-learn项目
用于机器学习的工具包,
5.7statsmodels包
是一个统计分析包,主要应用于推理统计,提供不确定性评价和P值参数 相反 scikit-learn更注重的是预测
包含模型有 回归模型 力差分析 时间序列分析 非参数方法 统计模型结果可视化
6、Anaconda的安装
6.1什么是Anaconda?
Anaconda指的是一个开源的Python发行版本,其包含了conda、Python等180多个科学包及其依赖项。 因为包含了大量的科学包
Conda是一个开源的包、环境管理器,可以用于在同一个机器上安装不同版本的软件包及其依赖,并能够在不同的环境之间切换
6.2Anaconda的下载
下载地址:https://www.anaconda.com/products/individual
本人应用的版本是windows11版本
选择红框下载完成即可
6.3Anaconda的安装
1、将下载好的程序 右键选择管理员程序运行 进行打开点击next
点击 I Agree
Install for:
Just me:只有你一个用户使用 我们就选择just me
All Users:如果有多用户使用 我们就算则ALL Users 为了防止以后电脑有其他用户使用导致麻烦 这里我直接选择的是ALL Users
点击Next
这里是选择安装的路径 这个路径默认是安装在C:\ProgramData\Anaconda2 处,我自己这时候选在了我专属的工具存文件夹内 点击Next
这个时候弹出来两个选项 第一个选项为 添加环境变量 第二个为默认的3.9 版本的python 这里我选择的是 第二个 点击Install进行安装
当安装完成后点击next
点击finish
6.4配置windows环境变量
windows的话需要去 控制面板\系统和安全\系统\高级系统设置\环境变量\用户变量\PATH 中添加 anaconda的安装目录的Scripts文件夹 如下图所示
检查环境是否搭建成功
WIN+R 输入cmd打开控制台 输入conda --version 如果出现版本号 则证明环境搭建成功 如图所示
为了确保可能会发生的错误 我们需要事先将包进行升级
升级conda包错误解决方法
错误描述
An HTTP error occurred when trying to retrieve this URL.
如果出现此提示的话 则证明并没有找到 是因为默认更新是用的国外源 国外源提取不到
我们需要找到文件 更改为清华源 即可解决该问题 具体操作步骤如下
找到c:\user\用户名 目录下的 .condarc 文件 右键笔记本方式打开
输入下列代码
channels: - defaults show_channel_urls: true default_channels: - http://mirrors.tuna.tsinghua.edu.cn/anaconda/pkgs/main - http://mirrors.tuna.tsinghua.edu.cn/anaconda/pkgs/r - http://mirrors.tuna.tsinghua.edu.cn/anaconda/pkgs/msys2 custom_channels: conda-forge: http://mirrors.tuna.tsinghua.edu.cn/anaconda/cloud msys2: http://mirrors.tuna.tsinghua.edu.cn/anaconda/cloud bioconda: http://mirrors.tuna.tsinghua.edu.cn/anaconda/cloud menpo: http://mirrors.tuna.tsinghua.edu.cn/anaconda/cloud pytorch: http://mirrors.tuna.tsinghua.edu.cn/anaconda/cloud pytorch-lts: http://mirrors.tuna.tsinghua.edu.cn/anaconda/cloud simpleitk: http://mirrors.tuna.tsinghua.edu.cn/anaconda/cloud
保存即可 解决http000的问题