kaggle - 随笔分类 - 郑哲

TTA（测试时增强）

摘要：可将准确率提高若干个百分点，它就是测试时增强（test time augmentation, TTA）。这里会为原始图像造出多个不同版本，包括不同区域裁剪和更改缩放程度等，并将它们输入到模型中；然后对多个版本进行计算得到平均输出，作为图像的最终输出分数。有作弊的嫌疑。这种技术很有效，因为原始图像显示阅读全文

posted @ 2018-12-20 09:12 郑哲阅读(3355) 评论(0) 推荐(0) 编辑

图片数据增强

摘要：from keras.preprocessing import image import imgaug as ia from imgaug import augmenters as iaa sometimes = lambda aug: iaa.Sometimes(0.9, aug) seq = i 阅读全文

posted @ 2018-12-13 19:32 郑哲阅读(868) 评论(0) 推荐(0) 编辑

google

摘要：1.使用MobileNetV2 (正在运行）阅读全文

posted @ 2018-10-20 19:22 郑哲阅读(111) 评论(0) 推荐(0) 编辑

AE（auto encoder)

摘要：自动编码器可以用于特征的转换（mxnet实现的代码模板）阅读全文

posted @ 2018-07-04 18:42 郑哲阅读(255) 评论(0) 推荐(0) 编辑

feature aggregate

摘要：把数据的统计特征作为feature来进行训练在大多数情况下可以有好的效果。阅读全文

posted @ 2018-07-04 18:40 郑哲阅读(184) 评论(0) 推荐(0) 编辑

数据预处理

摘要：1.删去多余的feature 当一个feature在所有样本中的值相同时，可以删去该feature，该feature不能描述样本 2.标准化处理降低数据维度，减少计算，同时正态化后能时拟合收敛速度更快 3.可以尝试删除feature值大多数都相同的情况（并不一定有作用）阅读全文

posted @ 2018-07-04 18:37 郑哲阅读(132) 评论(0) 推荐(0) 编辑

处理训练集和测试集分布同的方法（对抗训练）

摘要：https://www.kaggle.com/c/santander-value-prediction-challenge 在kaggle该题中，需要通过所给的匿名变量来预测target值 feature比较多，所以通过降维来查看训练集和测试集的分布情况 1.训练分类器划分测试集和训练集我们把训练阅读全文

posted @ 2018-07-04 18:31 郑哲阅读(3048) 评论(0) 推荐(0) 编辑

Price suggestion（EDA）下--nlp的处理

摘要：此处处理非结构化数据（即自然语言）。 1.item_description（描述）计算描述的字符长度分析价格和字符长度之间的关系移除异常值（即没有描述的行）预处理：分词 1.先把描述拆分成句子，然后再把句子拆分成单词 2.移除标点和停词 3.单词小写 4.考虑单词长度等于或者大于3 查看分词阅读全文

posted @ 2018-05-03 11:33 郑哲阅读(743) 评论(0) 推荐(0) 编辑

Price suggestion（EDA）上--简单数据挖掘

摘要：https://www.kaggle.com/thykhuely/mercari-interactive-eda-topic-modelling 该题为的目的在于通过商家给予的商品的信息，建立一个商品的估价模型。所给数据的大致分析：列含义的分析：name:商品名 item_condition_i 阅读全文

posted @ 2018-05-03 09:03 郑哲阅读(791) 评论(0) 推荐(0) 编辑

随笔分类 - kaggle