上一页 1 ··· 6 7 8 9 10 11 12 13 14 ··· 24 下一页
摘要: 5、word2vec小结 1)CBoW vs Skip-Gram CBoW更快一些。CBoW对于高频词效果较好,低频词常受到较少注意。窗口大小常5左右。 Skip-Gram更慢一些。Skip-Gram对于低频词效果更好,小数据下表现依旧好。窗口大小常10左右。 对于"Yesterday was re 阅读全文
posted @ 2020-01-15 18:04 yjy888 阅读(386) 评论(0) 推荐(0) 编辑
摘要: pt 我们一般使用string形式,但是我们取分区的时候,依然可以直接使用 select distinct pt from dwd_trade_vipuser_di where pt>20191201 查看所有分区 show partitions dwd_trade_vipuser_di 选择最大分 阅读全文
posted @ 2019-12-09 09:40 yjy888 阅读(233) 评论(0) 推荐(0) 编辑
摘要: 1、 import time time.strftime('%Y%m%d %H:%M:%S') 但是mysql数据库的跟python的有些不同 【时间戳转格式化时间】 from_unixtime(createtime, '%Y%m%d %H:%i:%s') 【格式化时间转时间戳】 方法① 如果我们已 阅读全文
posted @ 2019-12-06 15:22 yjy888 阅读(2640) 评论(0) 推荐(0) 编辑
摘要: xgboost 新特征构建 以周为基本单位 特征重要性分析: 月的几号几号,这个信息是很有用的。 x_devidation x_week_slide, x_train 这几个都有用 productid和周几,在xgboost里面没用 如果用周作为基本特征,要想办法构造一个可以代表月初或者月末的特征, 阅读全文
posted @ 2019-11-29 15:33 yjy888 阅读(475) 评论(0) 推荐(0) 编辑
摘要: 1、先仔细观察数据,看看我们的数据是否有空值、异常值(方差过大),然后看看我们要预测的东西是否肉眼可以看出规律。 2、看一下我们训练样本是否足够多,如何正确的分成训练集、测试集和验证集。因为有时候特征是时序的,那么我们如果使用 train_test_split去区分验证集和测试集,会导致我们测试集的 阅读全文
posted @ 2019-11-28 17:43 yjy888 阅读(630) 评论(0) 推荐(0) 编辑
摘要: batch_size就是为了让模型根据每个batch,去计算梯度,太大太小都不行,这个对模型的拟合是非常非常重要的 training sample=2918时,batch_size = 256无论怎么训练,都无法拟合(或者应该shuffle?) 而设置成64的时候,虽然训练比较慢,但是最终的拟合结果 阅读全文
posted @ 2019-11-26 10:27 yjy888 阅读(1544) 评论(0) 推荐(0) 编辑
摘要: baseline: rmsle1=0.0454 rmsle3=0.0450 rmsle7=0.0433 1、只使用销量 rmsle=0.0392 2、销量、weekday rmsle=0.0373 预测周销量: baseline: rmsle2: 0.029815477426626328 (最近两周 阅读全文
posted @ 2019-11-22 13:56 yjy888 阅读(145) 评论(0) 推荐(0) 编辑
摘要: 相当于having a>10 dfn = df.groupby(by=['name']).filter(lambda x:len(x)>=360) filter里接一个判别,符合条件就是true,不符合就是false 阅读全文
posted @ 2019-11-21 14:26 yjy888 阅读(641) 评论(0) 推荐(0) 编辑
摘要: 1、使用很小的学习率进行学习,且: for l in bert_model.layers: l.trainable = True 2、由于bert模型巨大,我们每次训练只能取batch=4进行训练,而训练4个epoch之后,可以freeze bert模型,单独训练softmax for l in b 阅读全文
posted @ 2019-11-18 14:01 yjy888 阅读(1205) 评论(0) 推荐(0) 编辑
摘要: precision_dic = {51: 0.9375, 25: 0.9305555555555556, -1: 0.7619047619047619, 29: 0.9473684210526315, 6: 0.8108108108108109} precision_dic.items 是一个lis 阅读全文
posted @ 2019-11-18 13:57 yjy888 阅读(181) 评论(0) 推荐(0) 编辑
上一页 1 ··· 6 7 8 9 10 11 12 13 14 ··· 24 下一页