11 2019 档案
摘要:xgboost 新特征构建 以周为基本单位 特征重要性分析: 月的几号几号,这个信息是很有用的。 x_devidation x_week_slide, x_train 这几个都有用 productid和周几,在xgboost里面没用 如果用周作为基本特征,要想办法构造一个可以代表月初或者月末的特征,
阅读全文
摘要:1、先仔细观察数据,看看我们的数据是否有空值、异常值(方差过大),然后看看我们要预测的东西是否肉眼可以看出规律。 2、看一下我们训练样本是否足够多,如何正确的分成训练集、测试集和验证集。因为有时候特征是时序的,那么我们如果使用 train_test_split去区分验证集和测试集,会导致我们测试集的
阅读全文
摘要:batch_size就是为了让模型根据每个batch,去计算梯度,太大太小都不行,这个对模型的拟合是非常非常重要的 training sample=2918时,batch_size = 256无论怎么训练,都无法拟合(或者应该shuffle?) 而设置成64的时候,虽然训练比较慢,但是最终的拟合结果
阅读全文
摘要:baseline: rmsle1=0.0454 rmsle3=0.0450 rmsle7=0.0433 1、只使用销量 rmsle=0.0392 2、销量、weekday rmsle=0.0373 预测周销量: baseline: rmsle2: 0.029815477426626328 (最近两周
阅读全文
摘要:相当于having a>10 dfn = df.groupby(by=['name']).filter(lambda x:len(x)>=360) filter里接一个判别,符合条件就是true,不符合就是false
阅读全文
摘要:1、使用很小的学习率进行学习,且: for l in bert_model.layers: l.trainable = True 2、由于bert模型巨大,我们每次训练只能取batch=4进行训练,而训练4个epoch之后,可以freeze bert模型,单独训练softmax for l in b
阅读全文
摘要:precision_dic = {51: 0.9375, 25: 0.9305555555555556, -1: 0.7619047619047619, 29: 0.9473684210526315, 6: 0.8108108108108109} precision_dic.items 是一个lis
阅读全文