摘要:
开始的时候,就是利用规则,但是有瓶颈,后来就有了基于统计学的方向,建立模型,让机器基于模型的规则,进行数据的拟合,模型里有很多参数,有可变化的东西,是机器自己学习的,效果有超过规则的可能,两个学派,基于规则,基于数学(统计学),后来机器学习慢慢后来居上,机器学习慢慢发展出很多的算法,逻辑树、决策树很 阅读全文
摘要:
引言 全局的概览+八个案例+窜一下 抽象的一般具有连续的性质,分类变量的小数位是没有意义的。抽象的变量,它的0往往是没有意义的,比如说幸福感。同样是连续性变量,有的0是有意义的,比如说订单量,如果0是有意义的,可以进行加减乘除运算,0没有意义,加减是可以的。标度可以分:间距(抽象的)和比率(0是有意 阅读全文
摘要:
导入Matplotlib库 (上方代码块是自动绘图(省略show的方法)) 1.查看都有什么风格style 2.设置绘图风格 3.设置支持中文字体显示 4.绘制折线图 plot 折线图接口 color 颜色 linewidth 线宽 markersize 点大小 fontsize 字体 marker 阅读全文
摘要:
我们经常需要对某些标签或索引的局部进行累计分析, 这时就需要用到 groupby 了. 实际上,我们可以把 groupby 理解成一个分割(split),应用(apply),组合(combine)的过程. 我们经常需要对某些标签或索引的局部进行累计分析, 这时就需要用到 groupby 了. 实际上 阅读全文
摘要:
文本数据也就是我们常说的字符串,Pandas 为 Series 提供了 str 属性,通过它可以方便的对每个元素进行操作。str 字符串向量化,可以提高处理字符串的效率。 使用 str 方法将数据字符串向量化映射: 一、和 python 原生字符串区别不大的方法 len、lower、upper、is 阅读全文
摘要:
在了解缺失值如何处理之前,首先要知道的就是什么是缺失值?直观上理解,缺失值表示的是“缺失的数据”。 可以思考一个问题:是什么原因造成的缺失值呢?其实有很多原因,实际生活中可能由于有的数据不全所以导致数据缺失,也有可能由于误操作导致数据缺失,又或者人为地造成数据缺失。 一、寻找缺失值 这些缺失值,可以 阅读全文
摘要:
一、描述与统计 1.查看基本统计值 有时候我们获取到数据之后,想要查看下数据的简单统计指标(最大值、最小值、平均值、中位数等),比如想要查看年龄的最大值,如何实现呢? 直接对 age 这一列调用 max方法即可。类似的,通过调用 min、mean、quantile、sum 方法可以实现最小值、平均值 阅读全文
摘要:
Pandas通常是用于数据分析过程中, 数据的清洗, 数据预处理, 数据的描述性分析等过程中。在整个Python数据分析的生态环境中, Pandas的地位非常重要, 利用Pandas可以快速便捷的对数据进行各种各样的处理与操作。可以说是升级版的Excel。Pandas是基于Numpy的一个数据分析包 阅读全文
摘要:
引言:回顾和概览 Numpy是一个科学计算包。如果你做数据清洗、整合的时候,不一定用到,直接用Pandas就好,Numpy是一个科学计算包,这个包里面的数据类型一种,就是ndarray,所有的计算都是基于这个数据类型,首先就是把其他的数据类型转换为ndarray。在数据类型里,整数32,浮点型32/ 阅读全文
摘要:
简单来说,Numpy 是 Python 的一个科学计算包,包含了多维数组以及多维数组的操作。Numpy 的核心是 ndarray 对象,这个对象封装了同质数据类型的n维数组。起名 ndarray 的原因就是因为是 n-dimension-array 的简写。ndarray中的每个元素在内存中使用相同 阅读全文