yjy888 - 博客园

2020年1月15日

摘要： 5、word2vec小结 1）CBoW vs Skip-Gram CBoW更快一些。CBoW对于高频词效果较好，低频词常受到较少注意。窗口大小常5左右。 Skip-Gram更慢一些。Skip-Gram对于低频词效果更好，小数据下表现依旧好。窗口大小常10左右。对于"Yesterday was re 阅读全文

posted @ 2020-01-15 18:04 yjy888 阅读(386) 评论(0) 推荐(0) 编辑

2019年12月9日

maxcompute笔记

摘要： pt 我们一般使用string形式，但是我们取分区的时候，依然可以直接使用 select distinct pt from dwd_trade_vipuser_di where pt>20191201 查看所有分区 show partitions dwd_trade_vipuser_di 选择最大分阅读全文

posted @ 2019-12-09 09:40 yjy888 阅读(233) 评论(0) 推荐(0) 编辑

2019年12月6日

mysql timestamp 与python 的timestamp

摘要： 1、 import time time.strftime('%Y%m%d %H:%M:%S') 但是mysql数据库的跟python的有些不同【时间戳转格式化时间】 from_unixtime(createtime, '%Y%m%d %H:%i:%s') 【格式化时间转时间戳】方法① 如果我们已阅读全文

posted @ 2019-12-06 15:22 yjy888 阅读(2640) 评论(0) 推荐(0) 编辑

2019年11月29日

xgboost 重新构造特征

摘要： xgboost 新特征构建以周为基本单位特征重要性分析：月的几号几号，这个信息是很有用的。 x_devidation x_week_slide, x_train 这几个都有用 productid和周几，在xgboost里面没用如果用周作为基本特征，要想办法构造一个可以代表月初或者月末的特征，阅读全文

posted @ 2019-11-29 15:33 yjy888 阅读(475) 评论(0) 推荐(0) 编辑

2019年11月28日

时序问题预测思路

摘要： 1、先仔细观察数据，看看我们的数据是否有空值、异常值（方差过大），然后看看我们要预测的东西是否肉眼可以看出规律。 2、看一下我们训练样本是否足够多，如何正确的分成训练集、测试集和验证集。因为有时候特征是时序的，那么我们如果使用 train_test_split去区分验证集和测试集，会导致我们测试集的阅读全文

posted @ 2019-11-28 17:43 yjy888 阅读(630) 评论(0) 推荐(0) 编辑

2019年11月26日

Batch_Size对于训练的重要性

摘要： batch_size就是为了让模型根据每个batch，去计算梯度，太大太小都不行，这个对模型的拟合是非常非常重要的 training sample=2918时，batch_size = 256无论怎么训练，都无法拟合（或者应该shuffle?）而设置成64的时候，虽然训练比较慢，但是最终的拟合结果阅读全文

posted @ 2019-11-26 10:27 yjy888 阅读(1544) 评论(0) 推荐(0) 编辑

2019年11月22日

销量预测结果记录

摘要： baseline: rmsle1=0.0454 rmsle3=0.0450 rmsle7=0.0433 1、只使用销量 rmsle=0.0392 2、销量、weekday rmsle=0.0373 预测周销量： baseline: rmsle2: 0.029815477426626328 (最近两周阅读全文

posted @ 2019-11-22 13:56 yjy888 阅读(145) 评论(0) 推荐(0) 编辑

2019年11月21日

pandas 分组过滤

摘要：相当于having a>10 dfn = df.groupby(by=['name']).filter(lambda x:len(x)>=360) filter里接一个判别，符合条件就是true，不符合就是false 阅读全文

posted @ 2019-11-21 14:26 yjy888 阅读(641) 评论(0) 推荐(0) 编辑

2019年11月18日

bert fine tuning方法

摘要： 1、使用很小的学习率进行学习，且： for l in bert_model.layers: l.trainable = True 2、由于bert模型巨大，我们每次训练只能取batch=4进行训练，而训练4个epoch之后，可以freeze bert模型，单独训练softmax for l in b 阅读全文

posted @ 2019-11-18 14:01 yjy888 阅读(1205) 评论(0) 推荐(0) 编辑

对字典进行排序

摘要： precision_dic = {51: 0.9375, 25: 0.9305555555555556, -1: 0.7619047619047619, 29: 0.9473684210526315, 6: 0.8108108108108109} precision_dic.items 是一个lis 阅读全文

posted @ 2019-11-18 13:57 yjy888 阅读(181) 评论(0) 推荐(0) 编辑

公告