随笔 - 384  文章 - 0  评论 - 35  阅读 - 142万
03 2021 档案
pandas的str矢量化字符串处理
摘要:总结: 我们在建模时,总要做数据清洗,包括数值型和字符串型数据,下面就介绍16种str矢量化后处理字符串字段的函数 ① cat函数:用于字符串的拼接② contains:判断某个字符串是否包含给定字符③ startswith/endswith:判断某个字符串是否以…开头/结尾④ count:计算给定 阅读全文
posted @ 2021-03-30 15:11 小小喽啰 阅读(865) 评论(0) 推荐(0) 编辑
pandas_profiling 探索性数据分析(EDA)工具
摘要:网上看到一个做EDA非常方便的模块pandas_profiling,使用该函数可以快速了解我们的数据构成以及分布,下面看看具体的实现 import seaborn as sns import pandas as pd import pandas_profiling import matplotlib 阅读全文
posted @ 2021-03-29 10:50 小小喽啰 阅读(420) 评论(0) 推荐(0) 编辑
plotly.express可视化神器详解
摘要:首先我们看看API以及官网教程: https://plotly.com/python-api-reference/plotly.express.html https://plotly.com/python/plotly-express/ https://www.jianshu.com/p/41735 阅读全文
posted @ 2021-03-29 09:55 小小喽啰 阅读(554) 评论(0) 推荐(0) 编辑
pd.read_html 获取网页上的表格数据
摘要:一、pd.read_html 参数 函数参数 pandas.read_html(io, match='.+', flavor=None, header=None, index_col=None, skiprows=None, attrs=None, parse_dates=False, thousa 阅读全文
posted @ 2021-03-26 18:12 小小喽啰 阅读(4440) 评论(0) 推荐(1) 编辑
xgboost 原理补充说明
摘要:1. 树该怎么长 很有意思的一个事是,我们从头到尾了解了xgboost如何优化、如何计算,但树到底长啥样,我们却一直没看到。很显然,一棵树的生成是由一个节点一分为二,然后不断分裂最终形成为整棵树。那么树怎么分裂的就成为了接下来我们要探讨的关键。对于一个叶子节点如何进行分裂,XGBoost作者在其原始 阅读全文
posted @ 2021-03-15 10:59 小小喽啰 阅读(393) 评论(0) 推荐(0) 编辑
xgboost调参(纯理论)
摘要: 阅读全文
posted @ 2021-03-12 17:47 小小喽啰 阅读(117) 评论(0) 推荐(0) 编辑
LightGBM.cv时,feature_pre_filter和min_data_in_leaf相互矛盾
摘要:当LightGBM.cv时,如果min_data_in_leaf设置的值比默认值(20)小的时候,就会报错: LightGBMError: Reducing `min_data_in_leaf` with `feature_pre_filter=true` may cause unexpected 阅读全文
posted @ 2021-03-12 16:45 小小喽啰 阅读(2143) 评论(2) 推荐(0) 编辑
pd.pivot不做聚合运算,可以保留作为values那一列的原值
摘要:有时候我们做透视表不需要做聚合运算,或者是作为value哪一列的值有多种形式,比如说里面有数值型还有日期类型,如果做聚合,那么就不能运算成功,又或者是values值是中文,我们想保留中文,那么可以使用pd.pivot() tmp = pd.pivot(data=hd_data,index=['app 阅读全文
posted @ 2021-03-12 11:30 小小喽啰 阅读(498) 评论(0) 推荐(0) 编辑
xgboost如何画决策树
摘要:暂时还没有搞清楚xgboost中每一个树的权重是怎么样的,以及每个树的结果和最终的结果之间的关系是怎么样的?后面再补上, 下面如何xgboost中的决策树 # -*- coding: utf-8 -*- """ Created on Tue Mar 9 16:16:56 2021 @author: 阅读全文
posted @ 2021-03-09 20:22 小小喽啰 阅读(687) 评论(0) 推荐(0) 编辑
df找出每行最大值所在的列名是什么
摘要:我们想要按照每行去找出TOPn个值,比如说,每个列名是每个学科的名字,每一行代表一个学生,我们想找出每个学生前3高分数是多少,又或者是前3高分数的学科是什么,那么就可以这样去是实现 #找出分数 x=chedai_copy[tree_col].iloc[0:1,:].values x[0,np.arg 阅读全文
posted @ 2021-03-09 15:45 小小喽啰 阅读(427) 评论(0) 推荐(0) 编辑

< 2025年3月 >
23 24 25 26 27 28 1
2 3 4 5 6 7 8
9 10 11 12 13 14 15
16 17 18 19 20 21 22
23 24 25 26 27 28 29
30 31 1 2 3 4 5

点击右上角即可分享
微信分享提示