摘要:
信息熵的公式 先抛出信息熵公式如下: 其中代表随机事件X为的概率,下面来逐步介绍信息熵的公式来源! 信息量 信息量是对信息的度量,就跟时间的度量是秒一样,当我们考虑一个离散的随机变量x的时候,当我们观察到的这个变量的一个具体值的时候,我们接收到了多少信息呢? 多少信息用信息量来衡量,我们接受到的信息 阅读全文
摘要:
概念 机器学习中一个重要的话题便是模型的泛化能力,泛化能力强的模型才是好模型,对于训练好的模型,若在训练集表现差,在测试集表现同样会很差,这可能是欠拟合导致。 欠拟合是指模型拟合程度不高,数据距离拟合曲线较远,或指模型没有很好地捕捉到数据特征,不能够很好地拟合数据。 而过拟合则是模型能够非常好的拟合 阅读全文
摘要:
# 找两个节点的最近的公共祖先 # 假设两个节点 node1 和 node2,那么最近公共祖先和node1、node2存在以下关系: # 1、node1,node2分别在祖先左右两侧 # 2、祖先是node1,node2在祖先左/右侧 # 3、祖先是node2,node1在祖先左/右侧 # 使用df 阅读全文
摘要:
图 关于图的定义,在python语言中,我们可以使用字典来进行定义。 在C++语言中可以使用邻接表或者邻接矩阵来进行储存定义。在这里主要介绍python中图的DFS和BFS。 核心思想:解决图的BFS问题就是利用队列的先进先出的思想来解决问题。因为我们需要利用queue来保证树的第几层或者说是图中我 阅读全文
摘要:
先序:考察到一个节点后,即刻输出该节点的值,并继续遍历其左右子树。(根左右) 中序:考察到一个节点后,将其暂存,遍历完左子树后,再输出该节点的值,然后遍历右子树。(左根右) 后序:考察到一个节点后,将其暂存,遍历完左右子树后,再输出该节点的值。(左右根) 前序遍历 # Definition for 阅读全文
摘要:
公式推导 模型调参 GBDT主要的优点有: 可以灵活处理各种类型的数据,包括连续值和离散值。 在相对少的调参时间情况下,预测的准确率也可以比较高。这个是相对SVM来说的。 使用一些健壮的损失函数,对异常值的鲁棒性非常强。比如 Huber损失函数和Quantile损失函数。 GBDT的主要缺点有: 由 阅读全文
摘要:
1. 准备知识 Sparse input For sparse input the data is converted to the Compressed Sparse Rows representation (see scipy.sparse.csr_matrix) before being fe 阅读全文
摘要:
1.数据不平衡概述 1.1 数据不平衡介绍 数据不平衡,又称样本比例失衡。对于二分类问题,在正常情况下,正负样本的比例应该是较为接近的,很多现有的分类模型也正是基于这一假设。但是在某些特定的场景下,正负样本的比例却可能相差悬殊,如社交网络中的大V判断、电商领域的恶意差评检测、金融领域的欺诈用户判断、 阅读全文
摘要:
Maximal Square Given a 2D binary matrix filled with 0's and 1's, find the largest square containing only 1's and return its area. Example: Input: 1 0 阅读全文
摘要:
Counting Bits Given a non negative integer number num. For every numbers i in the range 0 ≤ i ≤ num calculate the number of 1's in their binary repres 阅读全文