《利用Python进行数据分析： Python for Data Analysis 》学习随笔

NoteBook of 《Data Analysis with Python》

3.IPython基础

Tab自动补齐

变量名
变量方法
路径

解释

？解释，
？？显示函数源码
？搜索命名空间

%run命令

%run 执行所有文件
%run -i 访问变量
Ctrl-C中断执行
%paste可以粘贴剪切板的一切文本
一般使用%cpaste因为可以改

键盘快捷键

魔术命令

%timeit 检测任意语句的执行时间
%magic显示魔术命令的详细文档
%xdel v 删除变量，并清除其一切引用
注册超能云（SuperVessel Cloud）（注册网址：http://www.ptopenlab.com）

4.Numpy基础：数组和矢量计算

ndarray：多维数组对象

创建ndarray

np.array() #将输入数据转换成ndarray
np.asarray() #将输入转换成ndarray
np.zeros() zeros_like #全零数组
np.ones()ones_like #全一数组
np.empty()empty_like #创建数组只分配内存不赋值
np.arange() #返回 range版的ndarray
eye、identify #N*N单位矩阵

ndarray类型

int、uint8 16 32 64
float 16 32 64 128
complex 64 128 256 浮点数表示的复数
bool
object python对象类型
string_ 固定长度的字符串
unicode_ 固定长度的Unicode类型
astype可以显示转换成其他类型

数组和标量之间的计算

批量计算

基本的索引和切片

数组切片是原始数据，对切片的任何修改都会直接修改原始数据
若需要复制一个副本就需要显示的复制.copy()
访问单个元素arr[0][2]=arr[0,2]
注意区分1和:1 #前者表示第二行，后者表示到第一行
and or 在布尔型数据中无效

花式索引

花式索引就是将数据复制到新数组中
转置 .T transpose swapaxes

通用函数ufunc：元素级数组函数

一元ufunc
- abs、fabs
- sqrt平方根
- square平方
- exp指数
- log、log10、log2、log1p对数
- sign正负号
- ceil大于等于该值的最小整数
- floor小于等于该值的最大整数
- rint四舍五入到最接近的整数
- modf小数和整数部分分别返回
- isnan布尔型数组返回NaN非数字
- isfinite、isinf布尔型返回有穷和无穷
- cos、sosh、sin、sinh、tan、tanh双曲线三角函数
- arc cos、sosh、sin、sinh、tan、tanh反三角
- logical_not 计算not x的真值
二元ufunc
- add相加
- subtract数组一减二
- multiply相乘
- divide、floor_divide除法，向下取整
- power A B 计算A^B
- maximum、fmax fmax会忽略NaN
- minimum、fmin
- mod求模
- copysign将二数组的值的符号复制给第一个数组的值
- greater、greater_equal、less、less_equal、equal、not_equal比较运算，产生布尔型，相当于>,>=
- logical_and,logical_or,logical_xor & | ^

利用数组进行数据处理

用数组表达式代替循环叫矢量化
numpy.where=x if condition else y
[(x if c else y)for x,y,z in zip(x,y,c)]=np.where(c,x,y)

数学和统计方法

基本数组统计方法
- sum 对数组中全部元素或某轴向的元素求和
- mean 算术平均值
- std、var 标准差和方差
- min、max最大值和最小值
- argmin、argmax最大最小元素的索引
- cumsum所有元素的累计和
- cumprod所有元素的累计积
用于布尔型数组的方法
- sum计算true的个数
- any测试是否存在一个或多个true
- all 检测数组中是否所有值都是true
排序
- sort
- np.sort返回是已排序的副本
数组的结合运算
- np.unique找出数组中的唯一值并返回已排序的结果
- intersect1d(x,y)返回有序的公共元素结果
- union1d(x,y)返回并集的有序结果
- in1d(x,y)返回x的元素是否包含于y的布尔型数组
- setdiff1d(x,y)返回集合的差，x中不在y中
- setxor1d(x,y)异或存在某一但是不同时存在2者

数组文件的输入和输出

二进制读写
- np.save
- np.load
- np.savez将多个数组保存到一个压缩文件中
读取文本文件
- np.loadtxt
- np.genfromtxt
- np.savetxt

线性代数

矩阵乘法
- np.dot(x,y)=x.dot(y)
常用函数
- diag 返回矩阵的对角线元素，或将一维数组转换成矩阵
- cot矩阵乘法
- trace对角线元素和
- det 矩阵行列式值
- eig特征值和特征向量
- inv求逆
- pinv计算矩阵的伪逆
- qrQR分解
- svd奇异值分解
- solve Ax=b的解
- lstsq Ax=b的最小二乘解
随机数生成
- numpy.random
- seed确定随记生成数的种子
- permutation返回一个序列的随记排列或一个随记排列的范围
- shuffle对一个序列直接随记排列
- rand产生均匀分布的样本值
- randint从给定的范围内随机选取整数
- randn产生标准状态分布的随机值
- binomial产生二项分布的样本值
- normal产生高斯分布的样本值
- beta产生B分布的样本值
- chisquare产生卡方分布的样本值
- gamma产生gamma分布的样本值
- uniform产生[0,1)均匀分布的样本值

5.pandas入门

pandas数据结构介绍

Series (data,index=v)
- 一组数据和一组索引组成的一维数组
- 看成是一个定长的有序字典
- 可以直接通过字典创建
- 在数值运算中会自动对齐
- 索引可以通过直接赋值的方式修改
DataFrame
- 表格型的数据结构
- 直接传入由等长列表或np数组组成的字典
- 可以指定列序列columns
- 通过类似字典标记da.date或属性da['date']的方式获取一个列为Series(拥有原来df相同的索引)
- 为不存在的列赋值时会创建一个新列
- 嵌套字典的外层键作为列，内层作为行索引
- 可以穿给DF的数据[二维ndarray、数组元组列表组成的字典、np的结构化数组、Series组成的字典、字典组成的字典、字典或Series组成的列表、列表或元组组成的列表、DF、np的MaskedArray]
- index对象不可修改
index的方法和属性：
- append链接另外一个index产生新的index
- diff计算差集得到一个index
- intersection计算交集
- union\isin计算是否包含在参数集合中的布尔型数组
- delete删除索引i出的元素并得到新的index
- drop、insert、is_monotonic、is_unique、unique

基本功能

重新索引reindex：创建一个适应新索引的新对象
reindex的method选项
- ffill pad前向填充
- bfill backfill后向填充
reindex函数的参数
- index索引的新序列
- method插值方式
- fill_value替代缺失值的
- limit向前向后的最大填充量
- level、copy
drop删除指定行或列data.drop（'two'）
索引、选取、过滤
- 利用标签的索引和普通的索引不同
- obj[val]选取单列或者多列(布尔型、切片、布尔型df有奇效)
- obj.ix[val]选取单个行或者一组行
- obj.ix[:,val]选取单个列或列子集
- obj.ix[val1,val2] 同时选取行和列
- xs方法根据标签选取单行或者单列，并返回一个Series
- icol、irow根据整数位置选取单行或者单列，并返回一个Series
- get_value、set _value根据标签选取设置单个值
算术运算和数据对齐
- 不重叠标签NA
- 算术方法中可以填充值
- DF和Series可以运算，沿行进行广播
- apply方法可以将函数运用到列或行形成的一维数组上
- applymap，Series.map
排序
- sort_index默认是行索引升序(axis=1)列索引升序ascending=False降序
- 按值对Series进行排序order，缺失值都在末尾
- 给sort_index的by传名称即可按照相应的名字排
排名.rank()
- 与排序对比会增设一个排名值
- 相同名次以method解决
- average默认平均化
- min、max、first
索引也可以是重复的

汇总和计算描述统计

规约方法
- axis df行用0，列用1
- skipna跳过na值，默认是True
- level层次化索引就根据level分组规约
- describe返回多个列汇总信息

count、describe、min、max、argmin、argmax、idxmin、idxmax、quantile、sum、mean、median、mad、var、std、skew、kurt、cumsum、cummin、cummax、cumprod、diff、pct_change

相关系数和协方差
- 3.x只保留了一个 items() 方法
- Series中corr用于计算相关系数[重叠、非NA、索引对齐]
- cov计算协方差
- df的cov、corr会返回完整的矩阵
- df的corrwith计算其列或行和另一个Series或df
- unique.sort()返回一组唯一值有序数组
- value_counts()返回一个Series各值出现的频率，pd.

处理缺失数据

NA处理方法
- dropna、fillna
- isnull、notnull
过滤缺失数据
- dropna返回一仅含非空数据和索引值的Series=data.notnull()；对于df会丢弃任何含有na的行，传入how='all'只丢弃全为NA的行；丢弃列则传入axis=1
- thresh参数
填充缺失数据
- fillna方法参数
  - value用于填充的值或字典对象
  - method填充方法，默认ffill
  - axis默认0即行，axis=1为列
  - inplace是否产生副本
  - limit填充最大连续数量

层次化索引

能以低维度形式处理高维度数据
可以通过unstack方法重新排到一个df中[stack逆运算]
还可以为轴标签指定名称
重排分层排序
- swaplevel可以交换两个层级并返回新的
- sortlevel
df将一个列或多个当做行索引
- set_index(['c','d'),drop=False)
- reset_index()

pandas的其他话题

整数索引
- Series的iget_value
- df的irow和icol
Panel数据
- Panel中的每一项都是一个df
- df有to_ panel方法[逆运算是to_frame]

6.数据加载存储和文件格式

读取文本格式的数据

pandas解析函数
- read_csv从文件、url、文件型对象加载带分隔符的对象，默认分隔符是逗号，
- read_table同上，默认分隔符是制表符\t；指定分隔符sep=','=read_csv
- read_fwf读取定宽列格式数据
- read_clipboard读取剪切板数据
read_csv/read_table
- 可以指定索引和列名，也可传入列名列表做成多层索引
- 当处理不固定分隔符时使用正则表达式来作为分隔符
- skiprows跳行
- na_values接收用于表示缺失值的字符串

函数参数：path、sep|delimiter、header、index_col、names、skiprows、na_values、comment、parse_dates、keep_date_col、converters、dayfirst、date_parser、nrows、iterator、chunksize、skip_footer、verbose、encoding、squeeze、thousands

逐块读取文本文件
- nrows指定读取几行
- chunksize指定逐块读取的大小
将数据写出到文本文件
- to_csv可以指定分隔符[from_csv]
- 缺失值默认是空字符串，可以通过na_rep指定标记值
- 默认会输出行列索引，可以通过index=False，header=False禁用
- 也可以只输出部分列
手动处理分隔符格式
- csv
JSON 数据
- json.load加载json数据
- json.dump转换为json对象
- pandas.to_json[from_json]
XML、HTML
- findall和XPath
- py2.x中的urllib2 =py3.x 中的urllib.request
- The StringIO and cStringIO modules are gone. Instead, import the io module and use io.StringIO or io.BytesIO for text and data respectively.
- ixml.objectify解析xml

二进制数据格式

pandas.save和pandas.load 读写pickle形式数据
HDF5格式(hierarchical data format层次数据格式)
- python中有两个接口PyTables&h5py
- 处理海量数据要好好研究这两个接口
- pd.ExcelFile读取Excel文件

使用HTML和Web API

json、request
df便于分析

使用数据库

In python 2, zip returned a list. In python 3, it returns an iterable object. But you can make it into a list just by calling list on it.
list(zip(*ngram))[0]=zip(*nagram)[0]

存取MongoDB的数据

7.数据规整化：清洗、转换、合并、重塑

合并数据集

pandas内置方法合并
- pandas.merge根据一个或多个键连接不同的df，实现数据库的连接操作
- pandas.concat沿一条轴合并多个对象
- combine_first将重复数据接在一起
pd.merge(df1，df2，on='key')
- 不指定哪个列进行连接，默认是重叠的列名进行连接
- 两个对象的列名不同可以分别指定
- 默认情况merge是how='inner'结果中的键是交集，outer是并集，还有left、right
- 多对多连接产生的是行的笛卡尔积
- 要对多个键进行合并传入一个键的列表即可
- merge函数参数
  - left、right、how、on、left_on、right_on
  - left_index、right_index、sort、suffixes、copy
索引上的合并
- 层次索引必须以列表的形式指明用作合并键的多个列
- df.join按索引实现合并并且合并多个带有相同或相似的df对象；还可以传入一组df
轴向连接
- concat默认在axis=0工作，将值和索引连接到一起
- 如果传入axis=1则结果会变成一个df
- concat函数参数
  - objs参与连接的pd对象的列表或字典，唯一必须参数
  - axis、join、join_axes、keys、levels
  - names、verify_integrity、ignore_index
合并重叠数据
- np.where&pd.combine_first

重塑reshape和轴向旋转pivot

重塑层次化索引
- stack 列-->行 df-->Series 默认滤除缺失值
- unstack 行-->列 Series-->df
将长格式转换成宽格式
- pivot

数据转换

移除重复数据
- df.duplicated()返回一个布尔型Series表示是否重复行
- drop_duplicates返回一个移除了重复行的df；默认是判断全部列，也可以指定列；默认保留第一个值，也可以保留最后一个
利用匿名函数或映射进行数据转换
- map&lambda
替换值
- replace
重命名轴索引
- map直接修改原始数据，rename创建数据集的转换版[可以结合字典实现对部分轴索引的修改]，也可inplace=True修改原数据
离散化和面元划分
- 离散化函数pd.cut&pd.qcut
检测和过滤离群值
- np.random.permutation
- df.take
计算指标/哑变量
- 将分类变量转换为虚拟矩阵或指标矩阵
- pd.get_dummies(prefix加前缀)结合cut

字符串操作

字符串对象方法
- split()结合strip(修剪空白符，换行符)
- '::'.join()
- find[找不到返回-1]和index[找不到会引发异常]
- count返回子字符串出现的次数
- replace将指定字符替换成指定字符，删除就替换空字符
- 内置字符串方法
  - count、endswith、startswith、join、index、find、rfind、replace、strip、rstrip、lstrip、split、lower、upper、ljust、rjust
正则表达式
- 通过re.compile创建regex对象可以节省大量时间如果对许多字符串应用同一个正则表达式
- findall返回所有匹配项的列表，finditer逐个迭代返回
- search返回第一个匹配项
- match从字符串起始位置开始匹配，返回第一个，否则None
- sub将匹配到的替换成指定字符串，并返回新的字符串subn前n个
- re.IGNORECASE忽略大小写
- split将匹配到的拆分成数段
pandas中矢量化的字符串函数
- 获取矢量化的元操作:str.get;str[]
- 矢量化的字符串方法
  - cat、contains、count、endswith、startswith、findall、get、join、len、lower、upper、match、pad、center、repeat、replace、slice、split、strip、rstrip、lstrip

8.绘图和可视化

matplotlib入门

matplotlib的实例库和文档是成为绘图高手的最佳资源
Figure & Subplot
- matplotlib的图像都位于Figure对象中
- pyplot.subplots的参数
  - nrows、ncols、sharex、sharey、subplot_kw、 **fig_wk
  - subplots_adjust调整图像间距
颜色、标记和线型
- plot(linestyle=、color=)常用颜色有缩写，任意RGB
- 转折点的标记marker=o；drawstyle插值绘图方式
刻度、标签和图例
- 设置刻度和刻度标签
  - set_xticks选择要设置刻度的位置
  - ser_xticklables就是设置刻度的标签
  - set_xlable设置轴标签
  - set_title设置标题
- 添加图例
  - 在添加subplot的时候传入lable
  - ax.legend|plt.legend(loc='best')自动选一个最好的地方
注解或在Subplot上绘图
- 注解可以通过text、arrow、annotate添加
- text可以文本绘制在指定坐标
- 在图表上添加一个图形，需要先创建一个块对象shp然后通过ax.add_oatch(shp)将其添加到subplot中
图片保持Figure.savefig
- fname、dpi、facecolor、edgecolor、format、bbox_inches
matplotlib配置
- plt.rc函数配置，第一个参数是要配置的对象

pandas中的绘图函数

线形图
- Series.plot方法默认就是线形图
  - label、ax、style、alpha、kind、logy、use_index、rot、xticks、yticks、xlim、ylim、grid
- df.plot会在一个subplot中为各列绘制一条线并自动创建图例
  - subplots、sharex、sharey、figsize、title、legend、sort_columns
- 要更深入需要多学matplotlib API
柱状图
- kind='bar'垂直|kind='barh'水平
- Series索引会被用作刻度=df.行索引，列索引会作分组
- stacked=True堆积柱状图
直方图和密度图
- hist生成直方图
- plot kind='kde'生成密度图
- 二者通常一起使用
散布图
- plt.scatter观察两个一维数据序列之间的关系
- pd.scatter_matrix散布图矩阵
- basemap地图插件
- 图形库mayavi

9.数据聚合与分组运算

GroupBy分组

split-apply-combine
分组键中的缺失值可以使结果包含在NA组了吧
对分组进行迭代
选取一个或一组列
通过字典或Series分组，索引和分组轴要对齐
通过函数进行分组
将函数、数组、列表、字典、Series混合使用进行分组
根据索引级别分组[层次化索引]

数据聚合：从数组产生标量值的数据转换过程

如果要使用自己的聚合函数，传入aggregate和agg方法
非聚合运算的describe方法也可用
优化过的GroupBy方法
- count、sum、mean、median、std、var、min、max、prod、first、last
面向列的多函数应用
- 不同的列使用不同的函数或一次应用多个函数
- 如果传入的是函数或者函数名，相应的列就会以函数名命名
- 如果传入的是元组(name,function)就会以第一个参数名命名
- 如果要对不同的列使用不同的函数，那么就向agg传入一个从列名映射到函数的字典
as_index=False结果返回是无索引的

数组运算和转换

groupby的transform方法，会将一个函数运用到各个分组
apply：一般性的'拆分-应用-合并'
group_keys=False禁止分组键
分位数quantile和桶bucket分析

透视表和交叉表

透视表pivot table根据一个或多个键并根据行、列键将数据分配到各个举行区域里
- pd.pivot_table|df.pivot_table参数
  - margins=True aggfunc= 、values、index、columns、fill_value
交叉表crosstab：用于计算分组频率的特殊透视表
- crosstab前两参数可以是数组、Series、数组列表

关于basemap的种种问题

geos始终无法安装好
basemap无法直接安装whl也安装不了
win10 64 py3.5

时间序列

日期和时间数据类型及工具

datetime、time、calendar
date.timedelta表示两个datetime对象之间的时间差
字符串和datetime之间的相互转换
- str和strftime可以将datetime转换成字符串
- datetime.strptime可以将格式化字符串装换成datetime对象；解析已知格式
- dateutil包的parser.parse方法解析所有格式；实用但不完美
- datetime格式定义
  - %Y 四位数年 %y %m %d 两位数
  - %H 24H制 %I 12H制 %M %S
  - %w 星期几[0,6] %U 每年的第几周，星期天为界，%W，星期一为界
  - %z UTC时区偏移量 %F Y-m-d %D m/d/y
- 特定于当前环境的
  - %a 星期几简称、%A星期全称
  - %b月份简称 %B
  - %c完整日期和时间 %p am，pm
  - %x适合于当前地区的日期格式，%X时间格式

时间序列基础

pd最基本的时间序列就是以时间戳为索引的Series
索引、选取、子集构造
- 传入可以被解析成日期的字符串
- 传入年、月即可选取数据切片
- 可以使用字符串日、datetime、Timestamp
- 对非唯一时间戳进行聚合使用groupby

日期的范围、频率、移动

resample将时间序列转换成一个具有固定频率的时间序列
pd.date_range会生成指定长度的daretimeindex
时间序列的基础频率
- D日历日 B工作日 H T分 S WOM每月的星期几
移动数据 pd.shift

时区处理

pytz包
本地化和转换
- tz_localize、tz_convert转换到别的时区
- Timestamp对象的转换
- 不同时区之间的运算
时期及其算术运算
- 时期的频率转换
- 按季度计算的时期频率
  - to_timestamp
- 将Timestamp转换成Period[or相反]
  - to_period方法
- 通过数组创建PeriodIndex

重采样和频率转换

重采样resample是指将时间序列从一个频率转换到另外一个频率
- 降采样、升采样，非降非升采样
- 方法参数
  - freq、how、axis、fill_method、closed、label、loffset、limit、kind、convention
  - OHLC重采样，open、high、low、close
  - 通过groupby进行重采样
- 升采样和插值
- 通过时期进行重采样

时间序列绘图

pd时间序列的绘图功能比mt好
移动窗口函数rolling_mean
用户自定义移动窗口函数rolling_apply，能从片段中产生单个值

性能和内存使用的注意事项

pandas对数据对齐和重采样进行了高度优化
规则频率之间的转换优化

金融和经济数据应用

数据规整方面

时间序列以及截面对齐
- pandas可以在算术运算中自动对齐数据
- 通过一组不同索引的Series构建df
频率不同的时间序列的运算
- 频率转换resample和重对齐reindex
- 使用Period索引的两个不同频率的时间序列之间的运算必须进行显示转换
时间和当前数据选取
- at_time、between_time
- 将Timestamp传入asof可以得到时间点最近的值(若是na的话)
拼接多个数据源
- pd.concat
- df.combine_first

分组变换和分析

分组因子暴露
- 因子分析是投资组合定量管理的一种技术
十分位和十分位分析
- 基于样本分位数的分析

NumPy高级应用

ndarray对象的内部机制

numpy数据类型体系

高级数组操作

向数组的reshape传入一个表示新形状的元组即可
- 扁平化|散开
C[行优先&内存相邻]和Fortran[列优先&内存相邻]顺序
order='C' || order='F'
数组的拆分和合并
- np.concatenate可以指定轴将一个数组序列(元组或列表等)连接到一起
- 比较方便的是np.vstack|np.hstack
- np.split将数组沿指定轴拆分为多个数组
- concatenate、vstack、row_stack、hstack、column_stack、dstack、split、hsplit、vsplit、dsplit
- r_、c_
元素的重复操作tile&repeat
花式索引的等价函数take&put
- take可以使用axis put只能按C顺序

广播

后缘维度的轴长相符，其中一方长度为1
沿其他轴向广播
利用广播机制设置数组的值

ufunc高级应用

ufunc实例方法
- reduce、accumulate、reduceat、outer
自定义ufunc
- np.frompyfunc接收一数组个函数及参数

结构化和记录式数组

定义结构化dtype，使用元组列表，字典式访问
嵌套dtype和多维字段

和排序有关的话题

ndarray的sort实例方法是直接排序，原始数据会消失
而np.sort会创建一个已排序的副本，还可以指定排序轴
- 二者都无法设置为降序
间接排序：argsort、lexsort
python对象数组只能用快排排序
np.searchsorted在有序数组中查找元素，返回位置坐标
Numpy的Matrix类

高级输入输出

内存映像文件可以处理内存放不下的大文件
np.memmap会将大文件分成小段来读写

性能建议

将python的循环和逻辑转换成数组运算和布尔数组运算
多用广播
多使用数组切片避免复制数据
使用ufunc
考虑Cython
连续内存

posted @ 2016-04-06 23:48 cutd 阅读(12272) 评论(0) 收藏举报

刷新页面返回顶部

cutd

《利用Python进行数据分析： Python for Data Analysis 》学习随笔

NoteBook of 《Data Analysis with Python》

3.IPython基础

Tab自动补齐

解释

%run命令

键盘快捷键

魔术命令

4.Numpy基础：数组和矢量计算

ndarray：多维数组对象

创建ndarray

ndarray类型

数组和标量之间的计算

基本的索引和切片

花式索引

通用函数ufunc：元素级数组函数

利用数组进行数据处理

数学和统计方法

数组文件的输入和输出

线性代数

5.pandas入门

pandas数据结构介绍

基本功能

汇总和计算描述统计

处理缺失数据

层次化索引

pandas的其他话题

6.数据加载存储和文件格式

读取文本格式的数据

二进制数据格式

使用HTML和Web API

使用数据库

存取MongoDB的数据

7.数据规整化：清洗、转换、合并、重塑

合并数据集

重塑reshape和轴向旋转pivot

数据转换

字符串操作

8.绘图和可视化

matplotlib入门

pandas中的绘图函数

9.数据聚合与分组运算

GroupBy分组

数据聚合：从数组产生标量值的数据转换过程

数组运算和转换

透视表和交叉表

关于basemap的种种问题

时间序列

日期和时间数据类型及工具

时间序列基础

日期的范围、频率、移动

时区处理

重采样和频率转换

时间序列绘图

性能和内存使用的注意事项

金融和经济数据应用

数据规整方面

分组变换和分析

NumPy高级应用

ndarray对象的内部机制

高级数组操作

广播

ufunc高级应用

结构化和记录式数组

和排序有关的话题

高级输入输出

性能建议

公告