摘要:首先,看下Smote算法之前,我们先看下当正负样本不均衡的时候,我们通常用的方法: 抽样 常规的包含过抽样、欠抽样、组合抽样 过抽样:将样本较少的一类sample补齐 欠抽样:将样本较多的一类sample压缩 组合抽样:约定一个量级N,同时进行过抽样和欠抽样,使得正负样本量和等于约定量级N 这种方法
阅读全文
摘要:import numpy as npimport tensorflow as tfimport matplotlib.pyplot as pltimport pandas as pd#导入mnist数据mnist = pd.read_data_sets("data/", one_hot=True)#
阅读全文
摘要:一、连续型变量1.1 连续变量无量纲化(1)无量纲化: 使不同规格尺度的数据转化统一规格尺度(将数据单位统一)(2)无量纲化方法:标准化, 区间所方法 标准化: 将连续性变量转变为 均值0 标准差1 的变量 代码: #对 Amount字段--均值为0,方差为1标准化from sklearn impo
阅读全文
摘要:#coding=utf-8import sysn = int(input())nums = [int(x) for x in input().split()]'''dp[i]以nums[i]结尾的最长递增子序列长度if nums[i]>nums[j]说明nums[i]能加到nums[j]后面dp[i
阅读全文
摘要:现实生活中的数据集中的样本通常在某系属性上是缺失的,如果属性值缺失的样本数量比较少,我们可以直接简单粗暴的把不完备的样本删除掉,但是如果有大量的样本都有属性值的缺失,那么就不能简单地删除,因为这样删除了大量的样本,对于机器学习模型而言损失了大量有用的信息,训练出来的模型性能会受到影响。这篇博客就来介
阅读全文
摘要:首先剪枝(pruning)的目的是为了避免决策树模型的过拟合。因为决策树算法在学习的过程中为了尽可能的正确的分类训练样本,不停地对结点进行划分,因此这会导致整棵树的分支过多,也就导致了过拟合。决策树的剪枝策略最基本的有两种:预剪枝(pre-pruning)和后剪枝(post-pruning): 预剪
阅读全文
摘要:# 利用队列进行层次遍历就行class TreeNode: def __init__(self, x): self.val = x self.left = None self.right = Noneclass Solution: def Print(self, pRoot): if not pRo
阅读全文
摘要:百度、阿里、腾讯一直是很多人想进的大公司,但是由于个人的水平远远不够去这些大厂,看着身边的同学一点一点的就不在有勇气去面这些大厂,可是自己还是一直坚持,从2019年3月到2020年3月一直在面试中总结经验就是为了去面BAT,通过秋招我对各大公司的观察,我发现百度在秋招释放的岗位特别的少,而在这个过程
阅读全文
摘要:id3不能直接处理连续性的特征,需要将连续性的转化成离散的,但是会破坏连续性特征的内在结构。 一、概念 CART全称叫Classification and Regression Tree。首先要强调的是CART假设决策树是二叉树,内部结点特征的取值只有“是”和“否”,左分支是取值为“是”的分支,有分
阅读全文
摘要:236. 二叉树的最近公共祖先 给定一个二叉树, 找到该树中两个指定节点的最近公共祖先。 最近公共祖先的定义为:“对于有根树 T 的两个结点 p、q,最近公共祖先表示为一个结点 x,满足 x 是 p、q 的祖先且 x 的深度尽可能大(一个节点也可以是它自己的祖先)。” 例如,给定如下二叉树: roo
阅读全文
摘要:1、C和C++的区别 1)C是面向过程的语言,是一个结构化的语言,考虑如何通过一个过程对输入进行处理得到输出;C++是面向对象的语言,主要特征是“封装、继承和多态”。封装隐藏了实现细节,使得代码模块化;派生类可以继承父类的数据和方法,扩展了已经存在的模块,实现了代码重用;多态则是“一个接口,多种实现
阅读全文