摘要:
关于这个问题还是困扰了很久,我生成了一些样本数据,打算保存到csv文件,之后用pandas的命令: 这样的方式保存后,你用自己的exel打开该文件,一堆乱码,怎么办?使用如下方式解决 以后只要保存含有中文字符的这样存就可以了 阅读全文
摘要:
直接上代码吧: 输出: 本文参考:https://blog.csdn.net/the_lastest/article/details/79093407 阅读全文
摘要:
LightGBM 可以使用一个 pairs 的 list 或一个字典来设置参数: 1.Booster提升器的参数: 2.可以制定多eval指标: 模型的训练:需要一个params参数和训练数据集 训练完成后存储模型: 模型使用如下方式来加载: 预测:已将训练或者加载好的模型都可以对数据集进行预测 在 阅读全文
摘要:
训练数据要放到Dataset中供lgb使用,构建数据如下: 很清晰的构建数据方式,记住这种用法 指定 feature names(特征名称)和 categorical features(分类特征): 分类特征可以人为制定,使用categorical_feature选取你制定的名称 阅读全文
摘要:
昨天训练了性别和年龄预测的模型。给我的启发很大。你的侧重点要着眼于能够适用于工业界的模型,训练耗时少,占用内存小,效率高,支持海量数据分析能力。虽然深度学习很火,但要普遍适用于广大工业界还有一段距离。 1.模型GBDT,XGBoost,LightGBM都是非常不错的模型,需要重点研究,要吃透其中的原 阅读全文
摘要:
用来生成DataFrame数据 1.说明: class pandas.DataFrame(data=None, index=None, columns=None, dtype=None, copy=False) Two-dimensional size-mutable, potentially he 阅读全文
摘要:
对于数据样本的标签,如果我们事先不知道这个样本有多少类别,那么可以对数据集的类别列进行统计,这时我们用pandas的Categorical方法就非常快的实现。 1.说明: 你的数据最好是一个series,之后,pd.Categorical(series),得到分类的对象,使用categories或者 阅读全文
摘要:
用于模型的训练 1.说明: lightgbm.train(params, train_set, num_boost_round=100, valid_sets=None, valid_names=None, fobj=None, feval=None, init_model=None, featur 阅读全文
摘要:
最近使用了LightBGM的Dataset,记录一下: 1.说明: classlightgbm.Dataset(data, label=None, reference=None, weight=None, group=None, init_score=None, silent=False, feat 阅读全文
摘要:
就是将一个值替换为另一个值,以前我用的是赋值方式,这里应该效率会高。 1.说明: 语法:replace(self, to_replace=None, value=None, inplace=False, limit=None, regex=False, method='pad', axis=None 阅读全文