2020 年 10月随笔档案 - 从前有座山，山上

LableEncoder编码

摘要：from sklearn.preprocessing import LabelEncoder #举例对属性job进行LE编码 LE = LabelEncoder() label = LE.fit_transform(train['job']) print(label) sorted_job = so 阅读全文

posted @ 2020-10-31 20:07 从前有座山，山上阅读(779) 评论(0) 推荐(0) 编辑

核函数

摘要：几个常用的核函数：根据问题和数据的不同，选择不同的参数，实际上就是得到了不同的核函数。 1.多项式核

$K(x,z) = (x \bullet z + 1)^p$ ，在此情形下，分类决策函数成为： \(f(x) = \mbox{sign}(\sum_{i=1}^{N_s}a_i^*y 阅读全文

posted @ 2020-10-30 14:12 从前有座山，山上阅读(1001) 评论(0) 推荐(0) 编辑

建模时选择SVM还是LR？

摘要：这两个算法都可以解决线性分类问题和非线性分类问题(都使用kernel trick)。如果是非线性分类，那么我们就首选SVM。 SVM不是概率输出，Logistic Regression是概率输出。也就是说，当一个新样本来了，SVM只会告诉你它的分类，而Logistic Regression会告诉阅读全文

posted @ 2020-10-30 11:34 从前有座山，山上阅读(237) 评论(0) 推荐(0) 编辑

decision_function详解

摘要：https://blog.csdn.net/cxx654/article/details/106727812 阅读全文

posted @ 2020-10-30 11:02 从前有座山，山上阅读(1724) 评论(0) 推荐(0) 编辑

HIVE SQL与SQL的区别

摘要：HIVE SQL与SQL的区别： 1.HQL不支持增删改 2.不支持事务 3.支持分区存储 4.HQL不支持等值连接，使用JOIN 5.hive中没有not null，当字段为null时，使用\n代替 6.hive落地到hdfs，Mysql落地到磁盘阅读全文

posted @ 2020-10-29 20:03 从前有座山，山上阅读(3166) 评论(0) 推荐(1) 编辑

数据不平衡如何处理

摘要：数据不平衡 1.什么是数据不平衡一般都是假设数据分布是均匀的，每种样本的个数差不多，但是现实情况下我们取到的数据并不是这样的，如果直接将分布不均的数据直接应用于算法，大多情况下都无法取得理想的结果。这里着重考虑二分类，因为解决了二分类种的数据不平衡问题后，推而广之酒能得到多分类情况下的解决方案。阅读全文

posted @ 2020-10-29 18:46 从前有座山，山上阅读(1103) 评论(0) 推荐(0) 编辑

背包问题

摘要：希望用一种规律搞定背包问题解题思路常见的背包问题有1、组合问题。2、True、False问题。3、最大最小问题。以下题目整理来自大神CyC，github地址： [github](https://github.com/CyC2018/CS-Notes/blob/master/notes/Leet 阅读全文

posted @ 2020-10-07 12:06 从前有座山，山上阅读(178) 评论(0) 推荐(0) 编辑

零钱兑换2【DP】

摘要：题目给定不同面额的硬币和一个总金额。写出函数来计算可以凑成总金额的硬币组合数。假设每一种面额的硬币有无限个。示例 1: 输入: amount = 5, coins = [1, 2, 5] 输出: 4 解释: 有四种方式可以凑成总金额: 5=5 5=2+2+1 5=2+1+1+1 5=1+1+1+ 阅读全文

posted @ 2020-10-03 13:56 从前有座山，山上阅读(174) 评论(0) 推荐(0) 编辑

零钱兑换1【DP】

摘要：给定不同面额的硬币 coins 和一个总金额 amount。编写一个函数来计算可以凑成总金额所需的最少的硬币个数。如果没有任何一种硬币组合能组成总金额，返回 -1。你可以认为每种硬币的数量是无限的。动态规划三要素： 1.重叠子问题 2.最优子结构 3.状态转移方程 3.1明确 b 阅读全文

posted @ 2020-10-03 13:55 从前有座山，山上阅读(162) 评论(0) 推荐(0) 编辑

从前有座山，山上

10 2020 档案

公告