摘要: # 查看每个酒坊的地一个酒 --> 相当与返回了许多的DataFramereviews.groupby('winery').apply(lambda df: df.title.iloc[0]) # 挑选出每个国家中每个省中评分最高的酒(分了两次组) 国家在前,省份在后 reviews.groupby 阅读全文
posted @ 2019-07-02 16:57 childhood_2 阅读(209) 评论(0) 推荐(0) 编辑
摘要: 1.创建一个最简单的DataFrame fruits = pd.DataFrame([[30,21]],columns=['Apples','Bananas']) 2. 创建一个简单的Series ingredients = pd.Series(['4 cups','1 cup','2 large' 阅读全文
posted @ 2019-07-01 16:49 childhood_2 阅读(263) 评论(0) 推荐(0) 编辑
摘要: sns.heatmap -这告诉笔记本我们要创建一个heatmap。 data=data_airplot -这告诉笔记本使用航班数据中的所有条目来创建热图。 annot=true -这可以确保每个单元格的值显示在图表上。(去掉这个会删除每个单元格中的数字!) # 返回列表中最大值的索引 np.arg 阅读全文
posted @ 2019-06-24 21:42 childhood_2 阅读(364) 评论(0) 推荐(0) 编辑
摘要: # 数据预处理 data.dropna(axis=0) # 取出掉缺失值 按行 melbourne_features = ['Rooms', 'Bathroom', 'Landsize', 'Lattitude', 'Longtitude'] X = melbourne_data[melbourne 阅读全文
posted @ 2019-06-23 19:32 childhood_2 阅读(251) 评论(0) 推荐(0) 编辑
摘要: 优点:适合小样本数量,高特征维度的数据 目标:达到二值分类的目的 选择超平面的依据: 无法找到其他绘制方法使两条虚线间的距离更大 最优超平面到两种类型数据其最近的点有相同的距离 间隔问题 硬间隔: 可能会出现过度拟合的现象 软间隔: 在训练时允许有一定的误差 可以解决线性不可分问题 升维映射到高维空 阅读全文
posted @ 2019-06-22 20:17 childhood_2 阅读(900) 评论(0) 推荐(0) 编辑
摘要: 恢复内容开始 梯度下降的定义: 梯度下降是一种因为计算机储存及能力有限,采取逐步逼近,迭代求解的方法. 梯度下降的步骤: 任取一点作为起始点 查看在当前点向那个方向移动能得到最小的z值,并向该方向移动. 重复该步骤,直到无法找到更小的z值,此时认为达到最低点. 几个基础的算法概念: 步长:是每一次梯 阅读全文
posted @ 2019-06-22 19:24 childhood_2 阅读(569) 评论(0) 推荐(0) 编辑
摘要: 为了解决Ridge产生的较大的计算,Lasso很好的解决了这一问题. Ridge的规范化是 aΣw2 Lasso的规范化是aΣ|w| 但是Lasso的惩罚效果却比Ridge严厉的多.可以把很多的w都惩罚为0. 实战: Out: alpha 1.000000e-10 intercept_ :coef_ 阅读全文
posted @ 2019-06-22 13:23 childhood_2 阅读(657) 评论(0) 推荐(0) 编辑
摘要: 岭回归是对OLS的改进,防止OLS随着维度使回归参数疯狂的增长. 在最小二乘法的基础上增加了惩罚项:aΣw2 a是一个可以调节的超参数,w是线性模型中所有参数的权重. 废话不多说,直接实战: 结果: 可以看出 a越大,回归参数越小,模型越平缓. 不足: 可以看出岭回归的模型参数都只有非常小的绝对值, 阅读全文
posted @ 2019-06-22 11:18 childhood_2 阅读(752) 评论(0) 推荐(0) 编辑
摘要: OLS就是最小二乘法,(Ordinary Least Squares),它通过最小化样本真值与预测值之间的方差和来达到计算出方程系数的目的. 实战: from sklearn import linear_modelimport numpy as np x = np.array([[0,1],[3,- 阅读全文
posted @ 2019-06-22 11:00 childhood_2 阅读(767) 评论(0) 推荐(0) 编辑
摘要: AP算法,具有结果稳定可重现 训练前不用制定K-means中K值,但是算法的时间复杂度比K-means高 AP 的中心点是样本中的某一个点,而K-means不是. import numpy as npfrom sklearn.cluster import AffinityPropagation # 阅读全文
posted @ 2019-06-21 21:46 childhood_2 阅读(762) 评论(0) 推荐(0) 编辑