兔展营销建模方案:

 

 

 SQL数据处理:

 

 

 

 

特征提取:

 

 

GBDT算子的开发:

1.https://blog.csdn.net/wzk4869/article/details/126471404 (原理)

2.开发中可能遇到的问题


1. 样本权重/类别权重 :如果我们有较多样本有缺失值,或者分类树样本的分布类别偏差很大,就会引入样本权重,这时我们就要注意这个值了。

2.AUC: https://www.zhihu.com/search?type=content&q=AUC%20

3.AUC和正确率之间的关系 (AUC的计算方法同时考虑了分类器对于正例和负例的分类能力,在样本不平衡的情况下,依然能够对分类器作出合理的评价。)

4.https://zhuanlan.zhihu.com/p/360765777 (AUC 八股)

5.https://blog.csdn.net/weixin_42163563/article/details/116697828 ( 精确率(precision)、召回率(recall)以及F1分数的概念讲解加python代码实现)

6. 为何对于分类问题来说,GBDT的基函数也是回归树的原因了,因为我们需要计算负梯度,需要求偏导,这时分类树是不能满足这种需求的。https://blog.csdn.net/HRMEMEDA/article/details/127007176 (GBDT解决分类问题)

7.GBDT 二分类 逻辑回归(对数损失函数)  https://blog.csdn.net/program_developer/article/details/103060416

8.GBDT sklearn 调参(损失函数的选择) CSDN编程社区 (smartapps.cn)  https://blog.csdn.net/weixin_30548917/article/details/95351589

9. 损失函数的选择 六个深度学习常用损失函数总览:基本形式、原理、特点 - 腾讯云开发者社区-腾讯云 (tencent.com)

 https://cloud.tencent.com/developer/article/1950150

 3. GBDT自动调参:

 

 

优缺点:

GBDT是一种基于迭代的决策树算法,生成的模型由多棵决策树组成,并将所有树的结论累加作为最终结果,适用于类别预测问题。
GBDT和SVM被认为是泛化能力较强的算法,对于线性不可分数据(即无法用一个线性函数完全将两类样本数据区分),GBDT往往能取得很好的效果。
相较于神经网络,GBDT的参数空间要小很多,训练速度更快,因此在很多场景上更加适合。

 4.遇到的问题:(具体见->兔展建模方案:常见问题)

1.ACC=1  遇到数据穿越 特征重要性判断 大于0.8的分析并删去这个特征
2.要会看源码和报错信息,以及寻求专业的技术开发人员的帮助,有时候遇到的问题是资源分配不足导致的算法无法继续,但是我可能不了解,这需要后台技术人员删去一些冗余的资源来提供服务。
3.资源平台不稳定,即使代码没有出错,也会导致算子运算错误,因为后台开发人员可能同时在这个服务器上进行其他的操作,导致算子平台不稳定,给我的开发和调式造成了困难
4.及时与mentor进行工作上的交流和汇报,跟进项目的进度和任务规划。
5.工作的交接,代码框架的构建,代码的复用性要强,比如KFC 2-10张图片的拼接,大体框架要打好,后面的人在进行修改和扩展的时候才能更加高效。代码注释要清晰。

  

时序自动特征生成

 

KFC项目:

1. 详解Python修饰器   https://www.cnblogs.com/willsdu/p/16422647.html

 2.opencv库仅仅用来读取图片数据什么的 (opencv面经: https://blog.csdn.net/qq_39075859/article/details/125952690)

3.Python中,如果要将字符串型的list,tuple,dict转变成原有的类型 (eval()函数 (61条消息) Python中函数 eval 和 ast.literal_eval 的区别详解_ast literal_eval_南淮北安的博客-CSDN博客

4. 对图片进行cv2.resize()的时候,用到了双线性插值算法: https://blog.csdn.net/xbinworld/article/details/65660665

 

 

扩充

1.svm 和 hinge loss 怎么样理解SVM中的hinge-loss? - 知乎 (zhihu.com)

2. Python垃圾回收机制  https://blog.csdn.net/huachao1001/article/details/125722825