TTA(测试时增强)
摘要:可将准确率提高若干个百分点,它就是测试时增强(test time augmentation, TTA)。这里会为原始图像造出多个不同版本,包括不同区域裁剪和更改缩放程度等,并将它们输入到模型中;然后对多个版本进行计算得到平均输出,作为图像的最终输出分数。有作弊的嫌疑。这种技术很有效,因为原始图像显示
阅读全文
posted @
2018-12-20 09:12
郑哲
阅读(3355)
推荐(0) 编辑
图片数据增强
摘要:from keras.preprocessing import image import imgaug as ia from imgaug import augmenters as iaa sometimes = lambda aug: iaa.Sometimes(0.9, aug) seq = i
阅读全文
posted @
2018-12-13 19:32
郑哲
阅读(868)
推荐(0) 编辑
google
摘要:1.使用MobileNetV2 (正在运行)
阅读全文
posted @
2018-10-20 19:22
郑哲
阅读(111)
推荐(0) 编辑
AE(auto encoder)
摘要:自动编码器 可以用于特征的转换(mxnet实现的代码模板)
阅读全文
posted @
2018-07-04 18:42
郑哲
阅读(255)
推荐(0) 编辑
feature aggregate
摘要:把数据的统计特征作为feature来进行训练 在大多数情况下可以有好的效果。
阅读全文
posted @
2018-07-04 18:40
郑哲
阅读(184)
推荐(0) 编辑
数据预处理
摘要:1.删去多余的feature 当一个feature在所有样本中的值相同时,可以删去该feature,该feature不能描述样本 2.标准化处理 降低数据维度,减少计算,同时正态化后能时拟合收敛速度更快 3.可以尝试删除feature值大多数都相同的情况 (并不一定有作用)
阅读全文
posted @
2018-07-04 18:37
郑哲
阅读(132)
推荐(0) 编辑
处理训练集和测试集分布同的方法(对抗训练)
摘要:https://www.kaggle.com/c/santander-value-prediction-challenge 在kaggle该题中,需要通过所给的匿名变量来预测target值 feature比较多,所以通过降维来查看训练集和测试集的分布情况 1.训练分类器划分测试集和训练集 我们把训练
阅读全文
posted @
2018-07-04 18:31
郑哲
阅读(3048)
推荐(0) 编辑
Price suggestion(EDA)下--nlp的处理
摘要:此处处理非结构化数据(即自然语言)。 1.item_description(描述) 计算描述的字符长度 分析价格和字符长度之间的关系 移除异常值(即没有描述的行) 预处理:分词 1.先把描述拆分成句子,然后再把句子拆分成单词 2.移除标点和停词 3.单词小写 4.考虑单词长度等于或者大于3 查看分词
阅读全文
posted @
2018-05-03 11:33
郑哲
阅读(743)
推荐(0) 编辑
Price suggestion(EDA)上--简单数据挖掘
摘要:https://www.kaggle.com/thykhuely/mercari-interactive-eda-topic-modelling 该题为的目的在于通过商家给予的商品的信息,建立一个商品的估价模型。 所给数据的大致分析: 列含义的分析:name:商品名 item_condition_i
阅读全文
posted @
2018-05-03 09:03
郑哲
阅读(791)
推荐(0) 编辑