兔展营销建模方案:
SQL数据处理:
特征提取:
GBDT算子的开发:
1.https://blog.csdn.net/wzk4869/article/details/126471404 (原理)
2.开发中可能遇到的问题
1. 样本权重/类别权重 :如果我们有较多样本有缺失值,或者分类树样本的分布类别偏差很大,就会引入样本权重,这时我们就要注意这个值了。
2.AUC: https://www.zhihu.com/search?type=content&q=AUC%20
3.AUC和正确率之间的关系 (AUC的计算方法同时考虑了分类器对于正例和负例的分类能力,在样本不平衡的情况下,依然能够对分类器作出合理的评价。)
4.https://zhuanlan.zhihu.com/p/360765777 (AUC 八股)
5.https://blog.csdn.net/weixin_42163563/article/details/116697828 ( 精确率(precision)、召回率(recall)以及F1分数的概念讲解加python代码实现)
6. 为何对于分类问题来说,GBDT的基函数也是回归树的原因了,因为我们需要计算负梯度,需要求偏导,这时分类树是不能满足这种需求的。https://blog.csdn.net/HRMEMEDA/article/details/127007176 (GBDT解决分类问题)
7.GBDT 二分类 逻辑回归(对数损失函数) https://blog.csdn.net/program_developer/article/details/103060416
8.GBDT sklearn 调参(损失函数的选择) CSDN编程社区 (smartapps.cn) https://blog.csdn.net/weixin_30548917/article/details/95351589
9. 损失函数的选择 六个深度学习常用损失函数总览:基本形式、原理、特点 - 腾讯云开发者社区-腾讯云 (tencent.com)
https://cloud.tencent.com/developer/article/1950150
3. GBDT自动调参:
优缺点:
4.遇到的问题:(具体见->兔展建模方案:常见问题)
1.ACC=1 遇到数据穿越 特征重要性判断 大于0.8的分析并删去这个特征
2.要会看源码和报错信息,以及寻求专业的技术开发人员的帮助,有时候遇到的问题是资源分配不足导致的算法无法继续,但是我可能不了解,这需要后台技术人员删去一些冗余的资源来提供服务。
3.资源平台不稳定,即使代码没有出错,也会导致算子运算错误,因为后台开发人员可能同时在这个服务器上进行其他的操作,导致算子平台不稳定,给我的开发和调式造成了困难
4.及时与mentor进行工作上的交流和汇报,跟进项目的进度和任务规划。
5.工作的交接,代码框架的构建,代码的复用性要强,比如KFC 2-10张图片的拼接,大体框架要打好,后面的人在进行修改和扩展的时候才能更加高效。代码注释要清晰。
KFC项目:
1. 详解Python修饰器 https://www.cnblogs.com/willsdu/p/16422647.html
2.opencv库仅仅用来读取图片数据什么的 (opencv面经: https://blog.csdn.net/qq_39075859/article/details/125952690)
3.Python中,如果要将字符串型的list,tuple,dict转变成原有的类型 (eval()函数 (61条消息) Python中函数 eval 和 ast.literal_eval 的区别详解_ast literal_eval_南淮北安的博客-CSDN博客)
4. 对图片进行cv2.resize()的时候,用到了双线性插值算法: https://blog.csdn.net/xbinworld/article/details/65660665
扩充
1.svm 和 hinge loss 怎么样理解SVM中的hinge-loss? - 知乎 (zhihu.com)
2. Python垃圾回收机制 https://blog.csdn.net/huachao1001/article/details/125722825