随笔档案「2021年3月」 - 小小喽啰

pandas的str矢量化字符串处理

摘要：总结：我们在建模时，总要做数据清洗，包括数值型和字符串型数据，下面就介绍16种str矢量化后处理字符串字段的函数 ① cat函数：用于字符串的拼接② contains：判断某个字符串是否包含给定字符③ startswith/endswith：判断某个字符串是否以…开头/结尾④ count：计算给定阅读全文

posted @ 2021-03-30 15:11 小小喽啰阅读(995) 评论(0) 推荐(0)

pandas_profiling 探索性数据分析（EDA）工具

摘要：网上看到一个做EDA非常方便的模块pandas_profiling，使用该函数可以快速了解我们的数据构成以及分布，下面看看具体的实现 import seaborn as sns import pandas as pd import pandas_profiling import matplotlib 阅读全文

posted @ 2021-03-29 10:50 小小喽啰阅读(461) 评论(0) 推荐(0)

plotly.express可视化神器详解

摘要：首先我们看看API以及官网教程： https://plotly.com/python-api-reference/plotly.express.html https://plotly.com/python/plotly-express/ https://www.jianshu.com/p/41735 阅读全文

posted @ 2021-03-29 09:55 小小喽啰阅读(601) 评论(0) 推荐(0)

pd.read_html 获取网页上的表格数据

摘要：一、pd.read_html 参数函数参数 pandas.read_html(io, match='.+', flavor=None, header=None, index_col=None, skiprows=None, attrs=None, parse_dates=False, thousa 阅读全文

posted @ 2021-03-26 18:12 小小喽啰阅读(4638) 评论(0) 推荐(1)

xgboost 原理补充说明

摘要：1. 树该怎么长很有意思的一个事是，我们从头到尾了解了xgboost如何优化、如何计算，但树到底长啥样，我们却一直没看到。很显然，一棵树的生成是由一个节点一分为二，然后不断分裂最终形成为整棵树。那么树怎么分裂的就成为了接下来我们要探讨的关键。对于一个叶子节点如何进行分裂，XGBoost作者在其原始阅读全文

posted @ 2021-03-15 10:59 小小喽啰阅读(508) 评论(0) 推荐(0)

xgboost调参（纯理论）

摘要：阅读全文

posted @ 2021-03-12 17:47 小小喽啰阅读(138) 评论(0) 推荐(0)

LightGBM.cv时，feature_pre_filter和min_data_in_leaf相互矛盾

摘要：当LightGBM.cv时，如果min_data_in_leaf设置的值比默认值（20）小的时候，就会报错： LightGBMError: Reducing `min_data_in_leaf` with `feature_pre_filter=true` may cause unexpected 阅读全文

posted @ 2021-03-12 16:45 小小喽啰阅读(2329) 评论(2) 推荐(0)

pd.pivot不做聚合运算，可以保留作为values那一列的原值

摘要：有时候我们做透视表不需要做聚合运算，或者是作为value哪一列的值有多种形式，比如说里面有数值型还有日期类型，如果做聚合，那么就不能运算成功，又或者是values值是中文，我们想保留中文，那么可以使用pd.pivot() tmp = pd.pivot(data=hd_data,index=['app 阅读全文

posted @ 2021-03-12 11:30 小小喽啰阅读(541) 评论(0) 推荐(0)

xgboost如何画决策树

摘要：暂时还没有搞清楚xgboost中每一个树的权重是怎么样的，以及每个树的结果和最终的结果之间的关系是怎么样的？后面再补上，下面如何xgboost中的决策树 # -*- coding: utf-8 -*- """ Created on Tue Mar 9 16:16:56 2021 @author: 阅读全文

posted @ 2021-03-09 20:22 小小喽啰阅读(745) 评论(0) 推荐(0)

df找出每行最大值所在的列名是什么

摘要：我们想要按照每行去找出TOPn个值，比如说，每个列名是每个学科的名字，每一行代表一个学生，我们想找出每个学生前3高分数是多少，又或者是前3高分数的学科是什么，那么就可以这样去是实现 #找出分数 x=chedai_copy[tree_col].iloc[0:1,:].values x[0,np.arg 阅读全文

posted @ 2021-03-09 15:45 小小喽啰阅读(464) 评论(0) 推荐(0)