pandas的str矢量化字符串处理
摘要:总结: 我们在建模时,总要做数据清洗,包括数值型和字符串型数据,下面就介绍16种str矢量化后处理字符串字段的函数 ① cat函数:用于字符串的拼接② contains:判断某个字符串是否包含给定字符③ startswith/endswith:判断某个字符串是否以…开头/结尾④ count:计算给定
阅读全文
posted @
2021-03-30 15:11
小小喽啰
阅读(865)
推荐(0) 编辑
pandas_profiling 探索性数据分析(EDA)工具
摘要:网上看到一个做EDA非常方便的模块pandas_profiling,使用该函数可以快速了解我们的数据构成以及分布,下面看看具体的实现 import seaborn as sns import pandas as pd import pandas_profiling import matplotlib
阅读全文
posted @
2021-03-29 10:50
小小喽啰
阅读(420)
推荐(0) 编辑
plotly.express可视化神器详解
摘要:首先我们看看API以及官网教程: https://plotly.com/python-api-reference/plotly.express.html https://plotly.com/python/plotly-express/ https://www.jianshu.com/p/41735
阅读全文
posted @
2021-03-29 09:55
小小喽啰
阅读(554)
推荐(0) 编辑
pd.read_html 获取网页上的表格数据
摘要:一、pd.read_html 参数 函数参数 pandas.read_html(io, match='.+', flavor=None, header=None, index_col=None, skiprows=None, attrs=None, parse_dates=False, thousa
阅读全文
posted @
2021-03-26 18:12
小小喽啰
阅读(4440)
推荐(1) 编辑
xgboost 原理补充说明
摘要:1. 树该怎么长 很有意思的一个事是,我们从头到尾了解了xgboost如何优化、如何计算,但树到底长啥样,我们却一直没看到。很显然,一棵树的生成是由一个节点一分为二,然后不断分裂最终形成为整棵树。那么树怎么分裂的就成为了接下来我们要探讨的关键。对于一个叶子节点如何进行分裂,XGBoost作者在其原始
阅读全文
posted @
2021-03-15 10:59
小小喽啰
阅读(393)
推荐(0) 编辑
LightGBM.cv时,feature_pre_filter和min_data_in_leaf相互矛盾
摘要:当LightGBM.cv时,如果min_data_in_leaf设置的值比默认值(20)小的时候,就会报错: LightGBMError: Reducing `min_data_in_leaf` with `feature_pre_filter=true` may cause unexpected
阅读全文
posted @
2021-03-12 16:45
小小喽啰
阅读(2143)
推荐(0) 编辑
pd.pivot不做聚合运算,可以保留作为values那一列的原值
摘要:有时候我们做透视表不需要做聚合运算,或者是作为value哪一列的值有多种形式,比如说里面有数值型还有日期类型,如果做聚合,那么就不能运算成功,又或者是values值是中文,我们想保留中文,那么可以使用pd.pivot() tmp = pd.pivot(data=hd_data,index=['app
阅读全文
posted @
2021-03-12 11:30
小小喽啰
阅读(498)
推荐(0) 编辑
xgboost如何画决策树
摘要:暂时还没有搞清楚xgboost中每一个树的权重是怎么样的,以及每个树的结果和最终的结果之间的关系是怎么样的?后面再补上, 下面如何xgboost中的决策树 # -*- coding: utf-8 -*- """ Created on Tue Mar 9 16:16:56 2021 @author:
阅读全文
posted @
2021-03-09 20:22
小小喽啰
阅读(687)
推荐(0) 编辑
df找出每行最大值所在的列名是什么
摘要:我们想要按照每行去找出TOPn个值,比如说,每个列名是每个学科的名字,每一行代表一个学生,我们想找出每个学生前3高分数是多少,又或者是前3高分数的学科是什么,那么就可以这样去是实现 #找出分数 x=chedai_copy[tree_col].iloc[0:1,:].values x[0,np.arg
阅读全文
posted @
2021-03-09 15:45
小小喽啰
阅读(427)
推荐(0) 编辑