08 2019 档案
摘要:在《用pandas进行数据清洗(一)(Data Analysis Pandas Data Munging/Wrangling)》中,我们介绍了数据清洗经常用到的一些pandas命令。 接下来看看这份数据的具体清洗步骤: Transaction_ID Transaction_Date Product_
阅读全文
摘要:探索性数据分析(Exploratory Data Analysis,EDA)主要的工作是:对数据进行清洗,对数据进行描述(描述统计量,图表),查看数据的分布,比较数据之间的关系,培养对数据的直觉,对数据进行总结等。 探索性数据分析(EDA)与传统统计分析(Classical Analysis)的区别
阅读全文
摘要:什么是缺失值? 缺失值指数据集中某些变量的值有缺少的情况,缺失值也被称为NA(not available)值。在pandas里使用浮点值NaN(Not a Number)表示浮点数和非浮点数中的缺失值,用NaT表示时间序列中的缺失值,此外python内置的None值也会被当作是缺失值。需要注意的是,
阅读全文
摘要:数据分析师(Data Analyst):负责从数据中提取出有用的信息,以帮助公司形成业务决策。工作内容包括:对数据进行提取,清洗,分析(用描述统计量,趋势分析,多维度分析,假设检验等统计常用方法对数据进行分析),总结结论并提出建议。数据分析师通常从业务团队那里获取需要分析的具体问题,并提供相应的解决
阅读全文
摘要:特征缩放的几种方法: (1)最大最小值归一化(min-max normalization):将数值范围缩放到 [0, 1] 区间里 (2)均值归一化(mean normalization):将数值范围缩放到 [-1, 1] 区间里,且数据的均值变为0 (3)标准化 / z值归一化(standardi
阅读全文
摘要:在《定量变量和定性变量的转换(Transform of Quantitative & Qualitative Variables)》一文中,我们可以看到虚拟变量(Dummy Variable)与独热编码( One Hot Encoding)非常相似,其不同之处在于:在虚拟编码方案中,当特征具有 m
阅读全文
摘要:虚拟变量陷阱(Dummy Variable Trap):指当原特征有m个类别时,如果将其转换成m个虚拟变量,就会导致变量间出现完全共线性的情况。 假设我们有一个特征“性别”,包含男性和女性两个类别,如果将此特征转换为2个虚拟变量,就是:男x1=[1,0],女x2=[0,1],意思就是:变量x1,当性
阅读全文
摘要:定量变量(Quantitative Variables):也称为数值型变量(Numerical Variables),可以用连续值或离散值表示。比如:气温(连续值),学生人数(离散值)。 为什么要对定量变量进行转换?大多数情况下,我们可以直接使用定量变量。但是有时候,特征和目标之间不呈线性关系。比如
阅读全文
摘要:数据分析经常要用SQL(Structured Query Language)在数据库中查询所需的数据。以下是经常用到的SQL查询语句(适用于MySQL): SELECT 选择需要查询的内容 SELECT column_name(s) FROM table_name WHERE 给查询结果加上过滤条件
阅读全文
摘要:用python来操作MySQL,首先需要安装PyMySQL库(pip install pymysql)。 连接MySQL: import pymysql connect=pymysql.connect(host='localhost',user='root',password='xxxx',port
阅读全文