随笔分类 - Python数据分析
摘要:数据预处理 1、明确有多少特征,哪些是连续的,哪些是类别的。2、检查有没有缺失值,对确实的特征选择恰当方式进行弥补,使数据完整。3、对连续的数值型特征进行标准化,使得均值为0,方差为1。4、对类别型的特征进行one-hot编码。5、将需要转换成类别型数据的连续型数据进行二值化。6、为防止过拟合或者其
阅读全文
摘要:在一些数据分析业务中,数据缺失是我们经常遇见的问题,缺失值会导致数据质量的下降,从而影响模型预测的准确性,这对于机器学习和数据挖掘影响尤为严重。因此妥善的处理缺失值能够使模型预测更为准确和有效。 缺失值处理 构建数据集 import pandas as pd import numpy as np d
阅读全文
摘要:随机抽样,是统计学中常用的一种方法,它可以帮助我们从大量的数据中快速地构建出一组数据分析模型。在 Pandas 中,如果想要对数据集进行随机抽样,需要使用 sample() 函数。sample() 函数的语法格式如下: DataFrame.sample(n=None, frac=None, repl
阅读全文
摘要:Pandas 在数据分析、数据可视化方面有着较为广泛的应用,Pandas 对 Matplotlib 绘图软件包的基础上单独封装了一个plot()接口,通过调用该接口可以实现常用的绘图操作。本节我们深入讲解一下 Pandas 的绘图操作。Pandas 之所以能够实现了数据可视化,主要利用了 Matpl
阅读全文
摘要:“去重”通过字面意思不难理解,就是删除重复的数据。在一个数据集中,找出重复的数据删并将其删除,最终只保存一个唯一存在的数据项,这就是数据去重的整个过程。删除重复数据是数据分析中经常会遇到的一个问题。通过数据去重,不仅可以节省内存空间,提高写入性能,还可以提升数据集的精确度,使得数据集不受重复数据的影
阅读全文
摘要:如果想要应用自定义的函数,或者把其他库中的函数应用到 Pandas 对象中,有以下三种方法: 1) 操作整个 DataFrame 的函数:pipe() 2) 操作行或者列的函数:apply() 3) 操作单一元素的函数:applymap() 如何从上述函数中选择适合的函数,这取决于函数的操作对象。下
阅读全文
摘要:1、读取数据 import pandas as pd import numpy as np import os import shutil import dateutil wd = os.getcwd() os.listdir(wd) path='/Users/xiaoli.zhang/Docume
阅读全文
摘要:DataFrame(2):DataFrame常用属性说明 1、常用属性如下 ndim 返回DataFrame的维数; shape 返回DataFrame的形状; dtypes 返回DataFrame中每一列元素的数据类型; size 返回DataFrame中元素的个数; T 返回DataFrame的
阅读全文
摘要:DataFrame的排序与排名问题 1、说明 DataFrame中的排序分为两种,一种是对索引排序,一种是对值进行排序。 索引排序:sort_index(); 值排序:sort_values(); 值排名:rank() 对于索引排序,涉及到对行索引、列索引的排序,并且还涉及到是升序还是降序。函数df
阅读全文
摘要:构造数据集 import pandas as pd df ={'姓名':[' 黄同学','黄至尊','黄老邪 ','陈大美','孙尚香'], '英文名':['Huang tong_xue','huang zhi_zun','Huang Lao_xie','Chen Da_mei','sun shan
阅读全文
摘要:DataFrame之合并组合 在Pandas的实践过程中,我们经常需要将两个DataFrame合并组合在一起再进行处理,比如将不同来源的数据合并在一起,或者将不同日期的DataFrame合并在一起。 DataFrame的合并组合从方向上分,大体上分为两种情况:横向的,纵向的。 看下如下的图示(图片来
阅读全文
摘要:认识DataFrame结构 DataFrame 一个表格型的数据结构,既有行标签(index),又有列标签(columns),它也被称异构数据表,所谓异构,指的是表格中每列的数据类型可以不同,比如可以是字符串、整型或者浮点型等。其结构图示意图,如下所示: 表格中展示了某个销售团队个人信息和绩效评级(
阅读全文