摘要: ![](https://img2020.cnblogs.com/blog/1140331/202011/1140331-20201106204319864-1670620580.png) 阅读全文
posted @ 2020-11-06 20:43 从前有座山,山上 阅读(68) 评论(0) 推荐(0) 编辑
摘要: 基于逻辑回归模型识别信用卡欺诈行为 1.平衡数据(imblearn) RandomOverSampler 过采样,从小众样本中复制样本或者使用SMOTE方法生成样本 多次欠采样,然后合并多个估计器或者采用boost思想,分类正确的不再放入原来的大众样本中 2.GridSearchCV paramet 阅读全文
posted @ 2020-11-06 18:40 从前有座山,山上 阅读(256) 评论(0) 推荐(0) 编辑
摘要: 1.数据运营,你会关注哪些指标? 1.拉新指标 浏览量、注册量、拉新成本 2.活跃指标 活跃用户数、活跃率、在线时长 3.留存指标 用户留存率、用户流失率 4.用户价值/转化指标 用户生命周期价值(CLV)、成交额、复购率、付费用户数 5.裂变指标: 裂变k因子 :发起邀请的用户数*转化率 、传播周 阅读全文
posted @ 2020-11-06 17:07 从前有座山,山上 阅读(172) 评论(0) 推荐(0) 编辑
摘要: 参考:https://blog.csdn.net/ganghaodream/article/details/100083543 SQL计算最长登录天数 计算最长登陆天数主要用两个函数:1.窗口函数row_number()over() 2.date_sub() 1.使用row_number()窗口函数 阅读全文
posted @ 2020-11-06 12:25 从前有座山,山上 阅读(6528) 评论(0) 推荐(0) 编辑
摘要: from sklearn.preprocessing import LabelEncoder #举例对属性job进行LE编码 LE = LabelEncoder() label = LE.fit_transform(train['job']) print(label) sorted_job = so 阅读全文
posted @ 2020-10-31 20:07 从前有座山,山上 阅读(771) 评论(0) 推荐(0) 编辑
摘要: 几个常用的核函数: ​ 根据问题和数据的不同,选择不同的参数,实际上就是得到了不同的核函数。 1.多项式核 ​ \(K(x,z) = (x \bullet z + 1)^p\),在此情形下,分类决策函数成为: ​ \(f(x) = \mbox{sign}(\sum_{i=1}^{N_s}a_i^*y 阅读全文
posted @ 2020-10-30 14:12 从前有座山,山上 阅读(876) 评论(0) 推荐(0) 编辑
摘要: 这两个算法都可以解决线性分类问题和非线性分类问题(都使用kernel trick)。 如果是非线性分类,那么我们就首选SVM。 SVM不是概率输出,Logistic Regression是概率输出。 也就是说,当一个新样本来了,SVM只会告诉你它的分类,而Logistic Regression会告诉 阅读全文
posted @ 2020-10-30 11:34 从前有座山,山上 阅读(237) 评论(0) 推荐(0) 编辑
摘要: https://blog.csdn.net/cxx654/article/details/106727812 阅读全文
posted @ 2020-10-30 11:02 从前有座山,山上 阅读(1715) 评论(0) 推荐(0) 编辑
摘要: HIVE SQL与SQL的区别: 1.HQL不支持增删改 2.不支持事务 3.支持分区存储 4.HQL不支持等值连接,使用JOIN 5.hive中没有not null,当字段为null时,使用\n代替 6.hive落地到hdfs,Mysql落地到磁盘 阅读全文
posted @ 2020-10-29 20:03 从前有座山,山上 阅读(3150) 评论(0) 推荐(1) 编辑
摘要: 数据不平衡 1.什么是数据不平衡 一般都是假设数据分布是均匀的,每种样本的个数差不多,但是现实情况下我们取到的数据并不是这样的,如果直接将分布不均的数据直接应用于算法,大多情况下都无法取得理想的结果。 这里着重考虑二分类,因为解决了二分类种的数据不平衡问题后,推而广之酒能得到多分类情况下的解决方案。 阅读全文
posted @ 2020-10-29 18:46 从前有座山,山上 阅读(1050) 评论(0) 推荐(0) 编辑