随笔分类 -  Pandas

摘要:需求:从hive下拉数据,要合并多个数据(每组数据类别不同),如果要在构造数据集最终阶段随机打乱,可以使用pyspark的orderBy随机打乱 from pyspark.sql.functions import rand sql = "select * from abc.table1 limit 阅读全文
posted @ 2022-07-20 14:36 今夜无风 阅读(1120) 评论(0) 推荐(0) 编辑
摘要:为了便于观察两种情况下的类别出现情况,可以通过合并索引观察: 比较: 阅读全文
posted @ 2022-01-21 14:43 今夜无风 阅读(224) 评论(0) 推荐(0) 编辑
摘要:如果我们要找dataFrame数据中某列中特有的行数据,可以结合re: 1)pandas.series.str.contains(): 包含查找 2) pandas.series.str.match(): 完全匹配查找 示例: df[df["一级code"].astype(str).str.matc 阅读全文
posted @ 2021-09-28 10:22 今夜无风 阅读(751) 评论(0) 推荐(0) 编辑
摘要:例如,查找包含有“hello"关键词的行: cat file.txt | grep hello #实现查看关键字的所有行 cat file.txt | grep hello head -n 100 #实现查看关键字的前100行 cat file.txt | grep hello | tail -n 阅读全文
posted @ 2020-12-02 10:26 今夜无风 阅读(2316) 评论(0) 推荐(0) 编辑
摘要:使用pandas在做“与”操作时,居然要将各自的条件使用括号🔗起来,不知是何原因 x = new_df[(new_df['query_position'].isin(job_list)) & (new_df['job_position'].isin(job_list)) & (new_df['pa 阅读全文
posted @ 2020-12-01 10:52 今夜无风 阅读(74) 评论(0) 推荐(0) 编辑
摘要:当你读取到DataFrame的数据时,想去定位某一个数据项,可以使用loc方法进行查找,之后你可以赋值给他。 阅读全文
posted @ 2018-09-13 11:04 今夜无风 阅读(2512) 评论(0) 推荐(0) 编辑
摘要:我们在统计数据的长度或者个数,不用统计去专门获取数值,而是用index这个数据获取即可,DataFrame的index直接就是最前面的索引号,如果要统计列的个数,使用DataFrame.colums获取列的索引号。举例如下: 阅读全文
posted @ 2018-09-12 18:34 今夜无风 阅读(11647) 评论(1) 推荐(0) 编辑
摘要:在此我用的concat作用是加入新的记录,存储数据来用过的,不知道数据量大时候,效率会怎样 注意:要有ignore_index=True,要不然你的DataFrame的索引一直都会是零! 阅读全文
posted @ 2018-09-12 15:15 今夜无风 阅读(721) 评论(0) 推荐(0) 编辑
摘要:我们在使用Pandas时候,前提需要一个新的DataFrame,需要首先初始化一个: 那么可以根据字典形式初始化: 必须包含index,不然会报错 阅读全文
posted @ 2018-09-12 15:12 今夜无风 阅读(2846) 评论(0) 推荐(0) 编辑
摘要:相当于添加一行记录,这个方法也是比较管用的: 阅读全文
posted @ 2018-09-12 14:04 今夜无风 阅读(11849) 评论(0) 推荐(1) 编辑
摘要:关于这个问题还是困扰了很久,我生成了一些样本数据,打算保存到csv文件,之后用pandas的命令: 这样的方式保存后,你用自己的exel打开该文件,一堆乱码,怎么办?使用如下方式解决 以后只要保存含有中文字符的这样存就可以了 阅读全文
posted @ 2018-09-11 09:04 今夜无风 阅读(908) 评论(0) 推荐(0) 编辑
摘要:用来生成DataFrame数据 1.说明: class pandas.DataFrame(data=None, index=None, columns=None, dtype=None, copy=False) Two-dimensional size-mutable, potentially he 阅读全文
posted @ 2018-09-09 18:19 今夜无风 阅读(1263) 评论(0) 推荐(0) 编辑
摘要:对于数据样本的标签,如果我们事先不知道这个样本有多少类别,那么可以对数据集的类别列进行统计,这时我们用pandas的Categorical方法就非常快的实现。 1.说明: 你的数据最好是一个series,之后,pd.Categorical(series),得到分类的对象,使用categories或者 阅读全文
posted @ 2018-09-09 17:48 今夜无风 阅读(1035) 评论(0) 推荐(0) 编辑
摘要:就是将一个值替换为另一个值,以前我用的是赋值方式,这里应该效率会高。 1.说明: 语法:replace(self, to_replace=None, value=None, inplace=False, limit=None, regex=False, method='pad', axis=None 阅读全文
posted @ 2018-09-08 18:11 今夜无风 阅读(1606) 评论(0) 推荐(0) 编辑
摘要:数据合并时可以使用merge方法,对两个dataFrame根据某一个series合并,这个方法非常好用,只要找到了合并的标准,新的数据就可以重构出来。 1.命令: pd.merge() on:列名,join用来对齐的那一列的名字,用到这个参数的时候一定要保证左表和右表用来对齐的那一列都有相同的列名。 阅读全文
posted @ 2018-09-08 17:38 今夜无风 阅读(1417) 评论(0) 推荐(0) 编辑
摘要:当你要删除某一行或者某一列时,用drop函数,它不改变原有的df中的数据,而是返回另一个dataframe来存放删除后的数据。 1.命令: df.drop() 删除行:df.drop('apps') 删除列:df.dorp('col', axis=1),删除列要加axis=1,默认是删除行的 2.使 阅读全文
posted @ 2018-09-08 17:32 今夜无风 阅读(14574) 评论(0) 推荐(0) 编辑
摘要:将本人使用过的一些操作记录下来 1.读取数据,使用:data = pd.read_csv('./data/file.csv') 2.数据处理,如果你要修改某一个数据,其实把DATAFRAME数据看做是一个二维数组,先找到第一维数据,再找到第二维数据,赋值修改即可。要用到一个函数:loc,定位 如: 阅读全文
posted @ 2018-09-08 14:51 今夜无风 阅读(4496) 评论(0) 推荐(0) 编辑

点击右上角即可分享
微信分享提示