随笔分类 -  pandas库

初学pandas库,学习笔记,用于复习与快速查找
摘要:pandas和fit_generator配合使用时,不想将数据全部读入内存,因为实际上也读入不了,数据量太大了。以下是如何按batch_size大小读取: 1、准备数据: 1 a = pd.DataFrame(a) 2 a = [ 3 [1, 1, 1, 1], 4 [2, 2, 2, 2], 5 阅读全文
posted @ 2019-12-23 15:49 巴蜀秀才 阅读(8246) 评论(0) 推荐(0) 编辑
摘要:数据聚合(GroupBy) 输出结果: 令x = group.sum(), 则可以取值为: x.values x.values Out[20]: array([2.75, 1.3 , 0.56, 4.2 , 5.56]) 等级分组 输出结果: 组迭代 链式转换 输出结果: 阅读全文
posted @ 2018-08-03 16:23 巴蜀秀才 阅读(2057) 评论(0) 推荐(0) 编辑
摘要:数据转换 删除重复元素 DataFrame对象的duplicated()函数可用来检测重复的行,返回元素为布尔型的Series对象。 每个元素对 应一行,如果该行与其他行重复(也就是说该行不是第一次出现),则元素为True; 如果跟前面不重复,则元 素就为False。 返回元素为布尔值的Series 阅读全文
posted @ 2018-08-03 11:32 巴蜀秀才 阅读(4210) 评论(0) 推荐(0) 编辑
摘要:对于合并操作,熟悉SQL的读者可以将其理解为JOIN操作,它使用一个或多个键把多行数据 结合在一起. 事实上,跟关系型数据库打交道的开发人员通常使用SQL的JOIN查询,用几个表共有的引用 值(键)从不同 的表获取数据。以这些键为基础,我们能够获取到列表形式的新数据,这些数据是对几个表中的数据进行组 阅读全文
posted @ 2018-08-02 23:16 巴蜀秀才 阅读(1298) 评论(0) 推荐(0) 编辑
摘要:pandas 的读写函数简表 1、多年以来,人们已习惯于文本文件的读写,特别是列表形式的数据。如果文件每一行的多 个元素是用逗号隔开的, 则这种格式叫作CSV,这可能是最广为人知和最受欢迎的格式。 2、其他由空格或制表符分隔的列表数据通常存储在各种类型的文本文件中(扩展名一般 为.txt )。 3、 阅读全文
posted @ 2018-07-31 22:58 巴蜀秀才 阅读(16890) 评论(0) 推荐(0) 编辑
摘要:DataFrame的定义 使用index参数可以设置index信息 选取元素 一般我们常需要按列取值,那么DataFrame提供了 loc 和 iloc 供大家选择,但是两者之间是由区别的。 一般取值操作 元素的赋值 赋值补充 Index对象 注意上面的 Series 用 reindex 改变了in 阅读全文
posted @ 2018-07-31 11:27 巴蜀秀才 阅读(1245) 评论(0) 推荐(0) 编辑
摘要:pandas在python中的使用: 在python中默认用 import pandas as pd 导入pandas库,你可以用 pd.__version__ 查看你安装的版本。 pandas中主要有两种数据结构:Series 和 DataFrame。下面我们将介绍 Series 。 Series 阅读全文
posted @ 2018-07-31 10:23 巴蜀秀才 阅读(6769) 评论(0) 推荐(0) 编辑

点击右上角即可分享
微信分享提示