摘要:
1. 说明 美年健康也是一个认真打的比赛,初赛B榜最高分0.0279,排名15. 最初是想用它实践一下自然语言处理,后面发现,另一个与之前比赛不同的地方,就是数据量很大,之前也做过几十上百万条记录的,但是特征少,这次57000多个记录,2700多... 阅读全文
摘要:
1. 说明 上次把钉钉号写回复里了,最近就有不少师兄加我,问一些关于比赛的问题,五一后可能也没啥时间回复了,下面就把常见的问题统一总结一下,只是我个人理解,欢迎大家纠正指导。 2. 你用了哪些方法做到0.286? 说出来可能有人不信,我只用... 阅读全文
摘要:
1. 说明 今天是天池精准医疗大赛(糖尿病预测)的最终答辩,学习了一下前六名的经验分享.把自己没想到的列出来,如下. 2. 特征 (1) 多特征组合:一般是现有特征加减乘除的组合,在特征多的情况下,先取强特征相互组合.(2) 数据分析:常用分... 阅读全文
摘要:
1. 说明 一直想找个自然语言处理(NLP)相关的比赛.起始看到"美年健康AI大赛"的时候,觉得和之前糖尿病比赛很相似,还是GBDT调参大赛.解包一看几百兆数据,觉得自己机器可能跑不动(后来确实加了一条内存),都没打开看数据就放弃了. 后来两个朋... 阅读全文
摘要:
1. 说明 基于人工智能的药物分子筛选,是最近在DC大数据平台上看到的一个新比赛.这个题目对于我这种半科盲来说好难.花了一些时间才弄明白它是干嘛的.这是一家药品公词举办的比赛.我理解题目是这样的:给出三种数据:致病蛋白信息(病),小分子信息(药)... 阅读全文
摘要:
1. 说明 对股票预测这种典型的时序问题,使用梯度下降决策树,确实是有点生搬硬套.主要思路是想使用提供的特征值f1-f87,看看哪些特征更加重要. 具体方法是把历史数据用计算趋势和移动平均线的方式添加到特征之中,此时记录的前后顺序就不再重要,用1... 阅读全文
摘要:
1. 说明 昨天在群里看到了:凤凰金融量化投资大赛,详情见: http://www.dcjingsai.com/common/cmpt/%E5%87%A4%E5%87%B0%E9%87%91%E8%9E%8D%E9%87%8F%E5%8C%96%... 阅读全文
摘要:
1. 说明 用傅立叶变换预测时序数据,原理是把时域数据转换到频域,再转换回来.python的numpy和scipy里面都有现成的转换工具fft()和ifft(),但使用时会遇到一个问题:比如25天的数据转到频域再转回时域,还是25天,虽然拟合了数... 阅读全文
摘要:
1. 说明 ARMA回归滑动平均模型(Autoregressive Moving Average Model,简记ARIMA),是研究时间序列的重要方法,由自回归模型(简称AR模型)与滑动平均模型(简称MA模型)为基础“混合”构成。常用于具有季节... 阅读全文