摘要:
训练模型,生成树图 gini entropy 计算 importance,比较和模型生成权重的一致性 总结 计算特征 对不存度减少的贡献,同时考虑 节点的样本量 对于某节点计算(**criterion可为gini或entropy**) 父节点 有样本量$n_0$,criterion为${c}_0$ 阅读全文
摘要:
打标签对于分类问题是很重要的比如对于银行理财产品营销建模,不能粗暴地把买过理财产品的定义为1,没卖过的定义为0。这样的定义下,标签0下的客户是很多误定的,因为其中有很多客户根本不知道理财产品,如果知道,他们是会买的。所以,如果要使用监督式学习,需要知道客户是否知道该产品,只用知道产品的客户的数据建模... 阅读全文
摘要:
In[1]:# coding=utf8%matplotlib inlineimport numpy as npimport pandas as pdfrom sklearn.ensemble import RandomForestClassifier as rffrom sklearn.linear... 阅读全文
摘要:
Alsoknown as (7,4) code,7 trainsmitted bits for 4 source code.TRANSMITThe transmitted procedure can be reprecented as follows.$t=G^Ts$where G is:impor... 阅读全文
摘要:
PLSA.py 1 # coding:utf8 2 from pyspark import SparkContext 3 from pyspark import RDD 4 import numpy as np 5 from numpy.random import RandomState ... 阅读全文
摘要:
windows7 spark单机环境搭建
+ follow this link "how to run apache spark on windows7" pycharm 访问本机 spark
+ 安装py4j
+ 配置pycharm 在PYTHON_HOME\lib\site packa... 阅读全文
摘要:
关键点:用matrix notation对矩阵迹进行变换$\hat{y}=X{(X^TX)}^{-1}X^Ty=Hy$$\sum_i^n {(y_i-\hat{y}_i)}^2={(y-Hy)}^T(y-Hy)=y^Ty-y^THy-y^THy+y^TH^THy\\ \ \ =y^Ty-y^THy$... 阅读全文
摘要:
结论模型复杂度↑Bias↓Variance↓ 例子$y_i=f(x_i)+\epsilon_i,E(\epsilon_i)=0,Var(\epsilon_i)=\sigma^2$ 使用knn做预测,在点$x_0$处的Excepted prediction error: ... 阅读全文