摘要:
数据分析和建模的大量编程工作都是在数据准备上的(深表同意):加载、清理、转换以及重塑。pandas和Python标准库提供了一组高级的、灵活的、高效的核心函数和算法,他们能够轻松地将数据规整化为正确的形式。1、合并数据集pandas对象中的数据可以通过一些内置的方式进行合并pandas.merge可... 阅读全文
摘要:
输入输出一般分为下面几类:读取文本文件和其他更高效的磁盘存储格式,加载数据库中的数据。利用Web API操作网络资源。1、读写文本格式的数据自己感觉读写文件有时候“需要运气”,经常需要手工调整。因为其简单的文件交互语法、直观的数据结构,以及诸如元组打包解包之类的便利功能,Python在文本和文件处理... 阅读全文
摘要:
本章的课后题看一下即可,比较平凡。 3.1渐近记号 引用一下别人的答案,非常感谢: 原文地址:http://www.cnblogs.com/timebug/archive/2010/03/25/1694286.html |概念回顾| 当输入规模大到使只有运行时间的增长量级有关时,就使在研究算法的渐进效率。 几个重要渐进记号的定义: Θ(g(n))={ f(n): 存在正常数c1,c2和n0,使对... 阅读全文
摘要:
pandas是本书后续内容的首选库。pandas可以满足以下需求: 具备按轴自动或显式数据对齐功能的数据结构。这可以防止许多由于数据未对齐以及来自不同数据源(索引方式不同)的数据而导致的常见错误。. 集成时间序列功能 既能处理时间序列数据也能处理非时间序列数据的数据结构 数学运算和简约(比如对某个轴求和)可以根据不同的元数据(轴编号)执行 灵活处理缺失数据 合并及其他出现在常见数据库... 阅读全文
摘要:
第四章 Numpy基础:数组和矢量计算第一部分:numpy的ndarray:一种多维数组对象实话说,用numpy的主要目的在于应用矢量化运算。Numpy并没有多么高级的数据分析功能,理解Numpy和面向数组的计算能有助于理解后面的pandas.按照课本的说法,作者关心的功能主要集中于:用于数据整理和... 阅读全文
摘要:
暂略。 阅读全文
摘要:
好长时间了,继续算法导论。当输入规模足够大时,并不计算精确的运行时间,倍增常量和低阶项被舍去。我们要研究的是算法的渐近效率,即在输入规模无限量时,在极限中,算法的运行时间如何随着输入规模的变大而增加。通常,渐近的更有效的某个算法除对很小得到输入外都是最好的选择。3.1渐近符号用渐近符号来刻画算法的运... 阅读全文
摘要:
第一章 准备工作 今天开始码这本书--《利用python进行数据分析》。R和python都得会用才行,这是码这本书的原因。首先按照书上说的进行安装,google下载了epd_free-7.3-1-win-x86.msi,译者建议按照作者的版本安装,EPDFree包括了Numpy,Scipy,matp 阅读全文
摘要:
从张丹的日志(http://blog.fens.me/rhadoop-r-basic/)中第九条对象看到R对象的几个总结:1、内在属性mode length 所有对象都有的属性2、外部属性attributes() 函数可以查看外部属性;attr(x,“a”) a b f outer(a,b,f... 阅读全文
摘要:
在导入数据并且将数据进行组织和初步可视化以后,需要对数据进行分布探索和两两关系分析等。主要内容有描述性统计分析、频数表和列联表、相关系数和协方差、t检验、非参数统计。7.1描述性统计分析7.1.1方法云集书上说,R中的描述性统计量函数“多的尴尬”。summary函数返回最大值、最小值、上下四分位数、... 阅读全文