1.6 Navigating This Book（本书导航）

如果之前没有接触过Python，那么你应该在第2章和第3章多花一些时间。这两章介绍了Python语言的特性和IPython shell以及Jupyter notebooks。这些东西是本书的基本知识。如果已经有了相关经验，可以直接跳过这些章节。

在第4章，会介绍一些Numpy的关键用法，高级用法的部分会放在附录A。

第5章，介绍pandas。在剩余的章节，会使用pandas、numpy和matplotlib（可视化）。

本书的章节尽可能以递增的形式组织，当然，有些知识是会跨章节的。

通常来说，一些任务可以归为下面几类：

读取和写入各种文件格式，存储数据

数据清洗和处理，方便之后的建模或分析

对不同的数据进行分组，并使用一些数学或模型，来产生新的数据集（比如对一个大表格进行聚合操作）

把数据喂给统计模型，机器学习算法，或其他工具

制作可交互的，或静态的图形可视化，或一些文本摘要

1 代码范例

本书的大部分代码由input和output组成，用IPython shell或Jupyter notebook呈现：

#code example
s='I love Python'

#output
s
'I love Python'

可以看到上面一个cell左侧有in和out的标识。

本书中的数据可以从GitHub上下载（可以在datasets文件夹中找到）

import numpy as np 
import matplotlib.pyplot as plt 
import pandas as pd 
import seaborn as sns 
import statsmodels as sm

Munge/munging/wrangling

这个是用来描述把不结构化或乱七八糟的数据，变为结构化，干净形式的过程。

这个过程我基本使用数据清洗，数据处理来指代。

Pseudocode（伪代码）

Syntactic sugar(语法糖)

在不添加新特征的前提下，让代码更方便易用的编程语法。

posted @ 2018-11-11 16:27 hank-li 阅读(280) 评论(0) 收藏举报

刷新页面返回顶部