随笔分类 - python 数据分析
摘要:pd.date_range('20161213', periods=2) Python工具包numpy,其中的random模块包含了很多产生随机数和随机数组的函数也能产生特定分布的随机数,如正态分布、泊松分布等 常用函数 randint函数,产生指定范围的随机整数,前两个参数表示范围,最后一个参数是
阅读全文
摘要:aroundnp.around 返回四舍五入后的值,可指定精度。 around(a, decimals=0, out=None) a 输入数组 decimals 要舍入的小数位数。 默认值为0。 如果为负,整数将四舍五入到小数点左侧的位置 · # -*- coding: utf-8 -*-"""@a
阅读全文
摘要:多级索引:在一个轴上有多个(两个以上)的索引,能够以低维度形式来表示高维度的数据。单级索引是Index对象,多级索引是MultiIndex对象。 一、创建多级索引 方法一:隐式创建,即给DataFrame的index或columns参数传递两个或更多的数组。 df1 = pd.DataFrame(n
阅读全文
摘要:Numpy 精通面向数组编程和思维方式是成为Python科学计算大牛的一大关键步骤。——《利用Python进行数据分析》 Numpy(Numerical Python)是Python科学计算的基础包。具有以下功能: 快速高效的多维数组对象ndarray ndarray表示的是N维数组对象。 ndar
阅读全文
摘要:1. pandas时间序列:时间索引 2. pandas时间序列数据结构 2.1 定期序列 3. 频率和偏移 4. 重采样,转移,加窗口 4.1 重采样及频率转换 4.2 时间移动 4.3 滚动窗口 5. 更多操作 1. pandas时间序列:时间索引 2. pandas时间序列数据结构 2.1 定
阅读全文
摘要:1.创建带有缺失值的数据库: 查看数据内容: 2.通常情况下删除行,使用参数axis = 0,删除列的参数axis = 1,通常不会这么做,那样会删除一个变量。 删除后结果:
阅读全文
摘要:Series 是pandas两大数据结构中(DataFrame,Series)的一种。使用pandas 前需要将pandas 模块引入,因为Series和DataFrame用的次数非常多,所以将其引入本地命名空间中会更方便。 from pandas import Series, DataFrame
阅读全文
摘要:先看一个非常简单的例子: 有什么方法可以将列转换为适当的类型?例如,上面的例子,如何将列2和3转为浮点数?有没有办法将数据转换为DataFrame格式时指定类型?或者是创建DataFrame,然后通过某种方法更改每列的类型?理想情况下,希望以动态的方式做到这一点,因为可以有数百个列,明确指定哪些列是
阅读全文
摘要:pd.concat(objs, axis=0, join='outer', join_axes=None, ignore_index=False, keys=None, levels=None, names=None, verify_integrity=False, copy=True) 参数含义
阅读全文
摘要:使用dtype查看dataframe字段类型 print df.dtypes 使用astype实现dataframe字段类型转换 # -*- coding: UTF-8 -*- import pandas as pd df = pd.DataFrame([{'col1':'a', 'col2':'1
阅读全文
摘要:总括 pandas的索引函数主要有三种: loc 标签索引,行和列的名称 iloc 整型索引(绝对位置索引),绝对意义上的几行几列,起始索引为0 ix 是 iloc 和 loc的合体 at是loc的快捷方式 iat是iloc的快捷方式 建立测试数据集: 行操作 选择某一行 选择多行 条件筛选 普通条
阅读全文
摘要:oc与iloc函数 loc函数 1:根据列中的元素,选取对应元素的数据集 2:根据元素的选取条件来选取对应的数据集 3:根据元素的选取条件来来选取对应的数据集,并在符合条件的数据行添加flage标签 4:isin函数是series用来判断值是否在目标值是否在series 5:query函数中用来判断
阅读全文
摘要:pandas.read_csv 作为常用的读取数据的常用API,使用频率非常高,但是API中可选的参数有哪些呢? pandas项目代码 答案是: .read_csv(filepath_or_buffer, sep=’, ‘, delimiter=None, header=’infer’, names
阅读全文
摘要:对数据集进行分组并对各分组应用函数是数据分析中的重要环节。 group by技术 pandas对象中的数据会根据你所提供的一个或多个键被拆分为多组,拆分操作是在对象的特定轴上执行的,然后将一个函数应用到各个分组并产生一个新值,最后所有这些函数的执行结果会被合并到最终的结果对象中。 >>> from
阅读全文
摘要:matplotlib API入门 使用matplotlib的办法最常用的方式是pylab的ipython,pylab模式还会向ipython引入一大堆模块和函数提供一种更接近与matlab的界面,matplotlib API函数位于matplotlib.pyplot模块中,其通常的引入约定是:imp
阅读全文