摘要:
提出问题:同一orderid下,有且仅有一个orderlabel为1的售卖房型。本项目的目的就是预测哪一个售卖房型(roomid)是用户最终预订的。 本项目主要分为两部分: 一.先对测试数据集的基本字段做一个简单的分析。 二.房型预测模型。 一.先对测试数据集的基本字段做一个简单的分析。 首先将训练 阅读全文
摘要:
对比分析法 不知道和谁比,得出的结论都是错误的。如果知道和谁比,才知道对比的结果。 和谁比,一般分为两种:和自己比,和行业比。 和自己比: 可以是平均值 时间:从时间上比较,最常用的是环比、同比 和行业比 跟行业值比 对比分析方法用于追踪业务是否有问题 对比分析法可以判断是问题是否严重 假设分析 提 阅读全文
摘要:
``` import matplotlib.pyplot as plt import seaborn as sns sns.set(style="dark", context="talk") rs = np.random.RandomState(8) f, (ax1, ax2, ax3) = plt.subplots(3, 1, figsize=(7, 5), sharex=True) # 分三张 阅读全文
摘要:
与数据 输出 特征化处理 输出 阅读全文
摘要:
以Cabin为例,原本一个属性维度,因为其取值可以是[‘yes’,‘no’],而将其平展开为’Cabin_yes’,'Cabin_no’两个属性 原本Cabin取值为yes的,在此处的"Cabin_yes"下取值为1,在"Cabin_no"下取值为0 原本Cabin取值为no的,在此处的"Cabin 阅读全文
摘要:
RandomForest的分类类是RandomForestClassifier,而RandomForestRegressor属于回归类 参数 n_estimators 也就是弱学习器的最大迭代次数,或者说最大的弱学习器的个数,默认是10。一般来说n_estimators太小,容易欠拟合,n_esti 阅读全文
摘要:
train_test_split分组 train_test_split函数用于将矩阵随机划分为训练子集和测试子集,并返回划分好的训练集测试集样本和训练集测试集标签。 X_train,X_test, y_train, y_test =cross_validation.train_test_split( 阅读全文
摘要:
seaborn.heatmap seaborn.heatmap(data) annot: 默认为False,为True的话,会在格子上显示数字 vmax, vmin: 热力图颜色取值的最大值,最小值,默认会从data中推导 linewidths:定义热力图里“表示两两特征关系的矩阵小块”之间的间隔大 阅读全文
摘要:
```
import matplotlib.pyplot as plt
import numpy as np def pq(I, mu, sigma): a = 1. / (sigma * np.sqrt(2. * np.pi)) b = -1. / (2. * sigma ** 2) return a * np.exp(b * (I - mu) ** 2) I =np... 阅读全文
摘要:
单下划线 _s : 保护变量 只有类对象和子类对象自己能访问到这些变量 _foo() : 不能直接访问的类属性 需要通过类提供的接口进行访问 双下划线 __s:私有成员 只能类对象自己能访问,子类对象也不能访问 __s__:python里特殊的专用标识,如__init__() 阅读全文