从前有座山，山上

2020年11月6日

摘要： ![](https://img2020.cnblogs.com/blog/1140331/202011/1140331-20201106204319864-1670620580.png) 阅读全文

posted @ 2020-11-06 20:43 从前有座山，山上阅读(79) 评论(0) 推荐(0)

摘要：基于逻辑回归模型识别信用卡欺诈行为 1.平衡数据(imblearn) RandomOverSampler 过采样，从小众样本中复制样本或者使用SMOTE方法生成样本多次欠采样，然后合并多个估计器或者采用boost思想，分类正确的不再放入原来的大众样本中 2.GridSearchCV paramet 阅读全文

posted @ 2020-11-06 18:40 从前有座山，山上阅读(280) 评论(0) 推荐(0)

Data Analysis summary

摘要： 1.数据运营，你会关注哪些指标？ 1.拉新指标浏览量、注册量、拉新成本 2.活跃指标活跃用户数、活跃率、在线时长 3.留存指标用户留存率、用户流失率 4.用户价值/转化指标用户生命周期价值(CLV)、成交额、复购率、付费用户数 5.裂变指标：裂变k因子：发起邀请的用户数*转化率、传播周阅读全文

posted @ 2020-11-06 17:07 从前有座山，山上阅读(218) 评论(0) 推荐(0)

SQL 计算最长连续登录天数

摘要：参考：https://blog.csdn.net/ganghaodream/article/details/100083543 SQL计算最长登录天数计算最长登陆天数主要用两个函数：1.窗口函数row_number()over() 2.date_sub() 1.使用row_number()窗口函数阅读全文

posted @ 2020-11-06 12:25 从前有座山，山上阅读(6661) 评论(0) 推荐(0)

2020年10月31日

LableEncoder编码

摘要： from sklearn.preprocessing import LabelEncoder #举例对属性job进行LE编码 LE = LabelEncoder() label = LE.fit_transform(train['job']) print(label) sorted_job = so 阅读全文

posted @ 2020-10-31 20:07 从前有座山，山上阅读(819) 评论(0) 推荐(0)

2020年10月30日

核函数

摘要：几个常用的核函数：根据问题和数据的不同，选择不同的参数，实际上就是得到了不同的核函数。 1.多项式核 \(K(x,z) = (x \bullet z + 1)^p\)，在此情形下，分类决策函数成为： \(f(x) = \mbox{sign}(\sum_{i=1}^{N_s}a_i^*y 阅读全文

posted @ 2020-10-30 14:12 从前有座山，山上阅读(1211) 评论(0) 推荐(0)

建模时选择SVM还是LR？

摘要：这两个算法都可以解决线性分类问题和非线性分类问题(都使用kernel trick)。如果是非线性分类，那么我们就首选SVM。 SVM不是概率输出，Logistic Regression是概率输出。也就是说，当一个新样本来了，SVM只会告诉你它的分类，而Logistic Regression会告诉阅读全文

posted @ 2020-10-30 11:34 从前有座山，山上阅读(276) 评论(0) 推荐(0)

decision_function详解

摘要： https://blog.csdn.net/cxx654/article/details/106727812 阅读全文

posted @ 2020-10-30 11:02 从前有座山，山上阅读(1739) 评论(0) 推荐(0)

2020年10月29日

HIVE SQL与SQL的区别

摘要： HIVE SQL与SQL的区别： 1.HQL不支持增删改 2.不支持事务 3.支持分区存储 4.HQL不支持等值连接，使用JOIN 5.hive中没有not null，当字段为null时，使用\n代替 6.hive落地到hdfs，Mysql落地到磁盘阅读全文

posted @ 2020-10-29 20:03 从前有座山，山上阅读(3249) 评论(0) 推荐(1)

数据不平衡如何处理

摘要：数据不平衡 1.什么是数据不平衡一般都是假设数据分布是均匀的，每种样本的个数差不多，但是现实情况下我们取到的数据并不是这样的，如果直接将分布不均的数据直接应用于算法，大多情况下都无法取得理想的结果。这里着重考虑二分类，因为解决了二分类种的数据不平衡问题后，推而广之酒能得到多分类情况下的解决方案。阅读全文

posted @ 2020-10-29 18:46 从前有座山，山上阅读(1188) 评论(0) 推荐(0)

从前有座山，山上

公告