广告CVR一周总结

　　基于某一次天池预测比赛项目，一周完成baseLine的体验总结。

比赛要求：

　　　　本次比赛以阿里电商广告为研究对象，提供了淘宝平台的海量真实交易数据，参赛选手通过人工智能技术构建预测模型预估用户的购买意向，即给定广告点击相关的用户（user）、广告商品（ad）、检索词（query）、上下文内容（context）、商店（shop）等信息的条件下预测广告产生购买行为的概率（pCVR），形式化定义为：pCVR=P(conversion=1 | query, user, ad, context, shop)。

　　　　评估指标为：

机器学习中的数据预处理

　　在数据领域中，对数据进行可视化并进行分析对理解数据具有很好的帮助，非常重要。

　　数据的预处理中，包含数据的清洗、转化和降维。详细参考https://www.cnblogs.com/charlotte77/p/5606926.html

　　在真实的数据中，我们拿到的数据往往可能包含了大量的缺失值，可能包含大量的噪声，也可以因为人工等原因引入异常点离散点，需要我们对数据进行一波清洗操作。

对于比赛提供的原生数据与实际业务进行考虑并理解数据，可以对数据进行描述性统计分析，或者对数据进行可视化分析
缺失值处理：模型预测估计，特征统计值填补，特殊值（-1或NAN）代替，直接忽略不作处理，利用相似样本的均值，直接删除（如果缺失值所占比例不足3%删除样本；如果缺失值所占比例饿超95%且该特征实际意义不大，该特征直接删除）
异常值处理：通过统计分析法寻找异常点，然后进行删除、不处理、平均值代替或者视为缺失值
去重数据处理：对重复出现的数据进行丢弃 drop_duplicates
噪声数据处理：拟合数据

　　针对实际数据进行数据转化

无量纲化：标准化（scale/StandardScaler）、归一化（MinMaxScaler）、正则化（normalizing）
信息冗余/二值化：将数值特征转化成布尔值的过程，阈值处理实现二值化
定量特征：对一些不连续离散特征数据进行标签化LabelEncoder（categorical），对有序离散特征数据进行OneHotEncoder（get_dummies， LR和深度学习涉及该环节，且该转化会使矩阵稀疏化）
缺失值：同上
信息利用率：由于实际数据并非严格的线性，特征之间可能存在互相关系，所以需要多项式特征得到特征的高阶交叉项（PolynomialFeatures）

　　高维度数据增加模型的计算压力，且无关特征的干扰性强，故对数据进行降维（待研究。。。）

PCA主成分分析法
LI惩罚项的模型
LDA线性判别分析法

机器学习中的特征工程

　　利用领域知识和现有数据，创造出新的特征，用于机器学习算法；可以手动（manual）或自动（automated）。神经网络的自动特征工程，常常不适用于现实中其他的复杂任务。同时，数据和特征工程决定了模型的上限，改进算法只不过是逼近这个上限而已。参考https://zhuanlan.zhihu.com/p/26444240?utm_source=weibo&utm_medium=social

　　个人感觉以上的数据预处理其实也是特征工程的一部分，而这部分主要是对数据构建完成后的数据集特征进行处理。

处理已有类别特征-如颜色、性别、国籍、邮政编码等
1. 离散无序特征：为分类值，采用one-hot编码实现特征数值化
2. 对不连续离散或非数值（文本，字符）类别特征：LabelEncoder标号处理，根据情况再做one-hot编码
数值特征（可以连续可以离散，实数值）-如年龄、价格等（对数据进行单调转换，不会对决策树算法造成影响）
1. 标准化
2. 连续数值特征离散化：根据实际模型应用情况可以对其进行阈值离散化
3. 归一化
4. 正则化
时间特征数据类型转化-如时间戳
1. 针对时间戳提取相关的信息，如day、hour等等
特征选择-寻找最优特征子集。特征选择能剔除不相关(irrelevant)或冗余(redundant)的特征，从而达到减少特征个数，提高模型精确度，减少运行时间的目的。（参考西瓜书11章）
1. 去除相关性不大的特征，相关性较高的优选选择
2. 取值变化较小的特征放弃，方差为0，不发散
3. 过滤法https://baijiahao.baidu.com/s?id=1582723859862488016&wfr=spider&for=pc：先通过pearson相关系数等方法选择最优特征方案再进行模型选择，fearture_selection.SelectKBest/SelectPercentile
4. 包裹法：将特征选择作为特征子集搜索问题，通过模型评估特征子集筛选最优特征子集（典型算法：递归特征删除算法）
5. 嵌入式：将特征选择算法作为组成部分嵌入到学习算法中（决策树中每次迭代需要对特征进行择优便是这种思想）
特征构造
1. 数值特征的简单变换，加减乘除
2. 类别特征和数值特征的组合：通过pandas的groupby操作对某一类别特征的某一数值特征求统计值，（该比赛中，可以对用户的当小时/当天点击广告数进行统计）
3. 通过决策树创造新的特征，将决策树模型的输出叶子节点作为新的特征加入模型中。（具体模块包实现方法：apply()以及decision_path()）