02 2020 档案
摘要:[toc] 分组统计groupby功能: 根据某些条件,将数据拆成组 对每个组独立应用函数 将结果合并到一个数据结构中 1.语法 2.基础分组 输出结果: 2.分组后可迭代对象操作 输出结果: 3.按照轴类型进行分组 输出结果: 4.通过字典或者Series进行分组 输出结果: 5.通过函数分组 输
阅读全文
摘要:[toc] 1.去重复:duplicated 输出结果: 2.替换:replace 输出结果:
阅读全文
摘要:[toc] 1.Merge Pandas具有全功能的,高性能内存中连接操作,与关系型数据库中的连接操作类似。 语法: 1.1 简单关联:left_on与right_on 下面是Merge的一些实战案例: (1)创建测试数组 (2)使用Merge,找出每个学生对应的班级名字 输出结果: 1.2 使用h
阅读全文
摘要:[toc] 在pandas中针对字符串配备了一套方法,使其容易对数组的每个元素进行操作。 1.字符串调用属性:str 输出结果: 2.字符串常用方法:lower,upper,len,startswith,endswith lower:字母转化为小写 upper:字母转化为大写 len:求每个字符串的
阅读全文
摘要:[toc] 1.axis与skipna参数的使用 注意: 表示空值 输出结果: 2.常用统计方法 其他随机方法列表如下: count:统计非Na值的数量 min:统计最小值 max:统计最大值 quantile:统计分位数,参数q确定位置,例如:quantile(q=0.75) sum:求和 med
阅读全文
摘要:[toc] 聚合(Aggregation)是基于数据处理的聚合管道,每个文档通过一个由多个阶段(stage)组成的管道,可以对每个阶段的管道进行分组、过滤等功能,然后经过一系列的处理,输出相应的结果。MongoDB提供了3中方式来执行聚合命令: 聚合管道方法 map reduce方法 单一目标聚合方
阅读全文
摘要:[toc] 1.索引简介 MongoDB是基于集合建立索引(index),建立索引的目的是为了提高查询速度。MongoDB的索引基于B tree数结构及对应算法形成的。 默认情况下,在建立集合的同时,MongoDB数据库自动为 ,可以避免重复插入同一_id值的文档记录。 2.索引种类 2.1 单一字
阅读全文
摘要:[toc] 1.插入文档:insert 语法: 1.1 插入一条文档 (1) 此处的db为数据库名,如果在程序中往数据库插入值的话,则应该写成:fruitsdb.fruitsInfo.insert({"name":"apple",price:10}) (2) insert命令,会自动产生一个ID (
阅读全文
摘要:[toc] 1.数据库操作 1.1 创建或切换数据库:use dbname 1.2 查看当前数据库:db 1.3 查看所有数据库:show dbs 1.4 查看某数据库信息:db.stats() 1.5 删除数据库:db.dropdatabase() 1.6 查看当前数据库下的集合名称:db.get
阅读全文
摘要:[toc] 1.MongoDB与传统关系型数据库(TRDB)的对比 |MongoDB|TRDB|比较说明| | | | | |数据库DB|数据库DB|都有数据库的概念。需要使用命令建立| |集合|表|集合对应TRDB中的表。不同的是表需要事先定义结构,但集合不需要定义| |文档|行|每个文档都有一个
阅读全文
摘要:[toc] 1.环境说明 Centos版本信息:CentOS Linux release 7.4.1708 (Core) MongoDB数据库版本:4.2.3(current release) 2.下载安装 2.1 下载数据库 进入到MongoDB的官网地址下载:MongoDB下载地址 下载完毕后上
阅读全文
摘要:[toc] 1.xargs简介 在我们日常使用Linux的过程中,经常使用到管道命令,类似 ,该命令是查看Java进程的命令,其原理就是:将一个命令的标准输出(stdout)重新定向到另外一个命令的标准输入(stdin)。 但是,有时候我们有些特殊的操作,例如需要获取 文件的绝对路径: pwd ,这
阅读全文
摘要:[toc] 1.时间序列 重采样 将时间序列从一个频率转换为另一个频率的过程,且会有数据的结合。 降采样:高频数据 → 低频数据,例如:以月为频率的数据转为以年为频率的数据 升采样:低频数据 → 高频数据,例如:以年为频率的数据转为以月为频率的数据 1.1 重采样 1.2 降采样 1.3 升采样及插
阅读全文
摘要:[toc] 1.时间序列的索引与切片 1.1 索引 1.2 切片 2.重复索引的时间序列
阅读全文
摘要:[toc] 1.pandas模块之period 1.1 period创建时期 1.2 period_range创建时期范围 1.3 asfreq频率转换 1.4 时间戳与日期之间转换
阅读全文
摘要:[toc] 1.date_range 1.1 按频率生成时间段 1.2 按复合频率生成时间段 1.3 asfreq频率转换 1.4 生成超前 滞后的数据范围 2.时间戳索引DatetimeIndex 以下是一个生成时间戳索引的案例
阅读全文
摘要:[toc] 所谓的时刻数据代表时间点,是pandas的数据类型,是将值与时间点相关联的最基本类型的时间序列数据。 1.Timestamp 是将数据类型转化为pandas的Timestamp类型 2.to_datetime 也是将数据类转化为pandas的Timestamp类型,但是如果是多个时间,则
阅读全文
摘要:[toc] 时间模块主要有: ,`datetime.datetime() datetime.timedelta()` 1.时间模块datetime 1.1 date 主要用于获取日期,例如获取当前日期或者特定日期,获取的日期可以由str方法直接转化为字符串格式 1.2 datetime 主要用于获取
阅读全文
摘要:[toc] 1.什么是Pandas Pandas是基于Numpy构建,专门为数据分析而存在的! 一维数组Series + 二维数组DataFrame 可以直接读取数据并处理(简单高效) 支持多种数据库 支持多种分析算法 2.数据结构Series 2.1 基本概念与创建 2.1.1 基本概念 是带有数
阅读全文