随笔分类 -  Pandas

pandas 存入excel报错:openpyxl.utils.exceptions.IllegalCharacterError
摘要:报错如下 Traceback (most recent call last): File "<stdin>", line 1, in <module> File "D:\Users\Admin\Anaconda3\envs\tf2\lib\site-packages\pandas\core\gene 阅读全文
posted @ 2021-08-03 18:09 jaysonteng 阅读(2876) 评论(0) 推荐(0) 编辑
sklearn:决策分类树_泰坦尼克号_网格扫描
摘要:import pandas as pd from sklearn.tree import DecisionTreeClassifier import matplotlib.pyplot as plt from sklearn.model_selection import GridSearchCV # 阅读全文
posted @ 2021-01-02 00:36 jaysonteng 阅读(304) 评论(0) 推荐(0) 编辑
dataframe apply函数多个结果拆分给多列
摘要:有两个方法: 法一: df['c'], df['d'] = zip(*df.apply(lambda x: func_main(x['a'], x['b']), axis=1)) 法二: 推荐使用法二 df[['c', 'd']] = df.apply(lambda x: func_main(x[' 阅读全文
posted @ 2020-09-01 15:24 jaysonteng 阅读(1198) 评论(0) 推荐(1) 编辑
pandas DataFrame中agg聚合后重命名列标题
摘要:使用 rename 方法即可 # 注意添加axis=1 df.agg({'g_name': lambda x: len(x.tolist())}).rename({'g_name': 'g_num'}, axis=1) 参考链接 阅读全文
posted @ 2020-08-28 10:47 jaysonteng 阅读(2347) 评论(0) 推荐(0) 编辑
pandas dataframe多层索引取值
摘要:import pandas as pd import numpy as np # 新建df数据 df = pd.DataFrame(np.random.randint(50, 100, size=(4, 4)), columns=pd.MultiIndex.from_product( [['math 阅读全文
posted @ 2020-08-11 14:59 jaysonteng 阅读(8542) 评论(0) 推荐(1) 编辑
pandas中的 where 和mask方法
摘要:where 表示不满足条件的,被设置为指定值 mask 与where相反,满足条件的数据,被设置为指定值 示例代码: import pandas as pd import numpy as np # 生成数据: df = pd.DataFrame(np.arange(15).reshape((5, 阅读全文
posted @ 2020-07-16 11:50 jaysonteng 阅读(2265) 评论(0) 推荐(0) 编辑
pandas对角线值修改
摘要:思路: 1、先将DataFrame数据转换为numpy 2、通过numpy来修改对角线值 3、再将数据转换为DataFrame 代码: import pandas as pd import numpy as np # 数据 df = pd.DataFrame(np.arange(16).reshap 阅读全文
posted @ 2020-05-12 10:58 jaysonteng 阅读(1865) 评论(0) 推荐(0) 编辑
pandas的DataFrame与python的dict字典之间的相互转换
摘要:一、dict生成DataFrame 1、如果只有一个dict,即一行dataframe数据 # 注:dict的形式必须是如下2种,不然会报错 # 1、dict外面加一层list【】 dict_a = [{'a': 0, 'b': 1, 'c': 2}] # 2、dict内部的数据至少有1个或多个是l 阅读全文
posted @ 2020-04-29 11:14 jaysonteng 阅读(33821) 评论(0) 推荐(3) 编辑
pandas 连接合并merge、join、concat
摘要:三者都可以进行数据合并和拼接,但具体连接方式不同: 1、merge 2、join 3、concat 一、merge 默认是根据列标题进行合并 1、在一个字段上的连接 import numpy as np from pandas import Series, DataFrame dframe1 = D 阅读全文
posted @ 2020-04-13 17:47 jaysonteng 阅读(1611) 评论(0) 推荐(0) 编辑
pandas dataframe取差集:删掉已存在的数据,保留未插入的数据
摘要:适用场景: 插入数据到mysql中,中途中断,导致部分数据未插入成功。避免下次插入时插入了重复的数据。 思路: 1、读取已插入的数据, 2、读取全部数据(包含已插入和未插入的), 3、将已插入的数据添加到全部数据中,产生重复数据, 4、删除所有重复的数据。 示例代码: import pandas a 阅读全文
posted @ 2020-02-25 11:09 jaysonteng 阅读(1004) 评论(0) 推荐(1) 编辑
pandas中DataFrame重置设置索引
摘要:在pandas中,经常对数据进行处理 而导致数据索引顺序混乱,从而影响数据读取、插入等。 小笔总结了以下几种重置索引的方法: import pandas as pd import numpy as np df = pd.DataFrame(np.arange(20).reshape((5, 4)), 阅读全文
posted @ 2020-02-21 15:16 jaysonteng 阅读(47660) 评论(0) 推荐(3) 编辑
pandas读取和写入excel多个sheet表单
摘要:一、读取多个表单 import pandas as pdexcel_reader=pd.ExcelFile('文件.xlsx') # 指定文件 sheet_names = excel_reader.sheet_names # 读取文件的所有表单名,得到列表 df_data = excel_reade 阅读全文
posted @ 2020-01-29 17:23 jaysonteng 阅读(13797) 评论(0) 推荐(2) 编辑
pandas在指定列插入数据
摘要:import pandas as pd import numpy as np df = pd.DataFrame(np.arange(15).reshape(5, 3), columns=['a', 'b', 'c']) # 输出df: a b c 0 0 1 2 1 3 4 5 2 6 7 8 3 阅读全文
posted @ 2020-01-04 15:56 jaysonteng 阅读(9243) 评论(0) 推荐(0) 编辑