对机器学习与数据竞赛的一些总结(转)

应导师要求,给新来的师弟师妹讲讲机器学习的一些东西,方便有个大概的结构,本人不才,略写点自己的看法和总结,有错误之处请多多指教。

回顾比赛

最近半年参加的比赛成绩:

1.  阿里音乐流行趋势预测大赛  2016.5.17-7.15    Top 15/5476
2.  最后一公里极速配送   2016.7.4-9.9    Top 31/1460
3.  阿里云安全算法挑战赛   2016.8.22-10.13  Top 1/940
4.  机场客流量的时空分布预测   2016.9.28-11.28  Top 28/3038 

比赛感悟,有了成长,更有了坚定的目标,比赛中深刻发现自己学习方面的缺陷,封赛专心学习,重打基础,做更靠谱的方案。

基本过程

具体问题需要具体分析
基本处理过程

数据清洗/处理

数据清洗直接影响后期特征和模型的效果,必须重视!
1. 缺失值处理(删除、补全、标记为缺失特征等)
2. 异常数据处理(删除、平滑等)
3. 不规范数据规范化
4. 构建合适样本(解决样本倾斜等)
5. 划分数据集(train validation test)
这里写图片描述

特征工程

特征工作是重中之重,特征提不好,模型很难提升上去,特征好了,效果提升很模型。

特征构造

根据业务场景来构建特征(特征不要时间穿越,不要用到标签) 交叉特征(多项式组合,GBDT与LR构造组合特征) 时间窗口特征 变换特征(log、归一化等) 连续特征离散化 离散特征连续化(独热编码、向量化等)

特征选择

这里写图片描述
这里写图片描述
这里写图片描述

模型选择

regression (回归),classification (分类),clustering (聚类)

常见的回归算法

这里写图片描述

常见的分类算法

这里写图片描述

常见的聚类方法

这里写图片描述

规则

结合实际业务背景,简单有效的规则,可用于模型融合。

推荐算法

这里写图片描述

参数优化

交叉验证避免过拟合,针对评测函数优化,重构模型损失函数。
网格搜索遍历优化等,与模型本身数学推导和数据情况有关,具体略。

资源分配

预处理10% 特征过程60% 模型调整/融合30%

文本处理

这里写图片描述

不平滑数据处理

暂略
- 过采样/欠采样
- 代价敏感

集成学习

这里写图片描述
参考:http://blog.csdn.net/q383700092/article/details/53557410

迁移学习

暂略

参考数加平台

统计分析

这里写图片描述

网络分析

这里写图片描述

大规模机器学习

这里写图片描述

 https://www.2cto.com/net/201612/580249.html

posted @ 2017-09-15 11:29  今夜无风  阅读(1290)  评论(2编辑  收藏  举报