摘要:
class _PriorityQEntry: def __init__(self, item, priority): self.item = item self.priority = priority class PriorityQueue: def __init__(self): self._qL 阅读全文
摘要:
Copula函数思想 Copula函数能够把随机变量之间的相关关系与变量的边际分布分开进行研究,这种思想方法在多元统计分析中非常重要。直观来看,可以将任意维的联合分布H(x1,...,xn)=P(X1<=x1,...,Xn<=xn)分成两步来处理。第一步是,对所有的单随机变量Xi通过累积分布函数Fi 阅读全文
摘要:
1.修改请求头 HTTP的请求头是在你每次向网络服务器发送请求时,传递的一组属性和配置信息。虽然网站可能会对HTTP请求头的每个属性进行“是否具有人性”的检查,但是我发现通常真正重要的参数就是User-Agent。记得把User-Agent设置成不易被引起怀疑的内容。 2.处理cookie 网站会用 阅读全文
摘要:
1.虽然也可以用列表推导来初始化元组、 数组或其他序列类型, 但是生成器表达式是更好的选择。 这是因为生成器表达式背后遵守了迭代器协议, 可以逐个地产出元素, 而不是先建立一个完整的列表, 然后再把这个列表传递到某个构造函数里。 前面那种方式显然能够节省内存。生成器表达式的语法跟列表推导差不多, 只 阅读全文
摘要:
关于隐藏层: 1.别超过两层隐藏层 2.一层隐藏层可以实现近似连续映射,大多数神经网络仅含有一层隐藏层 3.两层隐藏层可能将越过连续映射,存在非连续映射的情况 关于每层隐藏层中的神经元数目 1.每层神经元数目应当在输入层数目和输出层数目之间 2.每层神经元数目应当小于输入层数目的两倍 3.每层神经元 阅读全文
摘要:
1 class SVM: 2 def __init__(self, max_iter=100, kernel='linear'): 3 self.max_iter = max_iter 4 self._kernel = kernel 5 6 def init_args(self, features, 阅读全文
摘要:
CART算法只做二元切分,因此每个树节点包含待切分的特征,待切分的特征值,左子树,右子树。 import numpy as np class treeNode(object): def __init__(self, feat, val, right, left): featureToSplitOn 阅读全文
摘要:
正确率(precision),TP/(TP+FP),给出的是预测为正例的样本中的真正正例的比例。 召回率(recall),TP/(TP+FN),给出的是预测为正例中的真实正例占所有真实正例的比例。 F-度量值(F-Score),组合precision和recall为一个单独的得分,被定义为精确度和召 阅读全文
摘要:
大多数情况下,两者的表现比较相近,但在一些情况中不排除某种方法相对另一种方法有明显优势,因此建议两者都试一下。 random forest将一些较强的分类器组合在一起,boosting trees将一些较弱的分类器组合在一起;因此可以理解为random forest降低方差,boosting tre 阅读全文
摘要:
1.对数据进行概览,观测其异常值和缺失值,异常值可以通过qq图或设定偏离均值一定方差范围以外的阈值进行过滤。 2.缺失值和异常值处理,根据具体情况,是否需要对缺失值进行删除或填充,是否需要将异常值删除或将其处理到正常范围以内。 3.利用描述性统计量和箱线图观察样本各个特征分布情况。需要注意:观察不同 阅读全文