childhood_2

2019年7月2日

摘要： # 查看每个酒坊的地一个酒 --> 相当与返回了许多的DataFramereviews.groupby('winery').apply(lambda df: df.title.iloc[0]) # 挑选出每个国家中每个省中评分最高的酒(分了两次组) 国家在前，省份在后 reviews.groupby 阅读全文

posted @ 2019-07-02 16:57 childhood_2 阅读(209) 评论(0) 推荐(0) 编辑

2019年7月1日

Kaggle3- pandas(1)

摘要： 1.创建一个最简单的DataFrame fruits = pd.DataFrame([[30,21]],columns=['Apples','Bananas']) 2. 创建一个简单的Series ingredients = pd.Series(['4 cups','1 cup','2 large' 阅读全文

posted @ 2019-07-01 16:49 childhood_2 阅读(263) 评论(0) 推荐(0) 编辑

2019年6月24日

kaggle2 - 数据可视化

摘要： sns.heatmap -这告诉笔记本我们要创建一个heatmap。 data=data_airplot -这告诉笔记本使用航班数据中的所有条目来创建热图。 annot=true -这可以确保每个单元格的值显示在图表上。（去掉这个会删除每个单元格中的数字！） # 返回列表中最大值的索引 np.arg 阅读全文

posted @ 2019-06-24 21:42 childhood_2 阅读(364) 评论(0) 推荐(0) 编辑

2019年6月23日

kaggle1 - 决策树

摘要： # 数据预处理 data.dropna(axis=0) # 取出掉缺失值按行 melbourne_features = ['Rooms', 'Bathroom', 'Landsize', 'Lattitude', 'Longtitude'] X = melbourne_data[melbourne 阅读全文

posted @ 2019-06-23 19:32 childhood_2 阅读(251) 评论(0) 推荐(0) 编辑

2019年6月22日

0A03 无监督学习:支持向量机

摘要：优点:适合小样本数量,高特征维度的数据目标:达到二值分类的目的选择超平面的依据: 无法找到其他绘制方法使两条虚线间的距离更大最优超平面到两种类型数据其最近的点有相同的距离间隔问题硬间隔: 可能会出现过度拟合的现象软间隔: 在训练时允许有一定的误差可以解决线性不可分问题升维映射到高维空阅读全文

posted @ 2019-06-22 20:17 childhood_2 阅读(900) 评论(0) 推荐(0) 编辑

0A03 无监督学习:梯度下降

摘要：恢复内容开始梯度下降的定义: 梯度下降是一种因为计算机储存及能力有限,采取逐步逼近,迭代求解的方法. 梯度下降的步骤: 任取一点作为起始点查看在当前点向那个方向移动能得到最小的z值,并向该方向移动. 重复该步骤,直到无法找到更小的z值,此时认为达到最低点. 几个基础的算法概念: 步长:是每一次梯阅读全文

posted @ 2019-06-22 19:24 childhood_2 阅读(569) 评论(0) 推荐(0) 编辑

0A03 无监督学习:分类(1) 线性回归Lasso

摘要：为了解决Ridge产生的较大的计算,Lasso很好的解决了这一问题. Ridge的规范化是 aΣw2 Lasso的规范化是aΣ|w| 但是Lasso的惩罚效果却比Ridge严厉的多.可以把很多的w都惩罚为0. 实战: Out: alpha 1.000000e-10 intercept_ :coef_ 阅读全文

posted @ 2019-06-22 13:23 childhood_2 阅读(657) 评论(0) 推荐(0) 编辑

0A03 无监督学习:分类(1) 线性回归Ridge(岭回归)

摘要：岭回归是对OLS的改进,防止OLS随着维度使回归参数疯狂的增长. 在最小二乘法的基础上增加了惩罚项:aΣw2 a是一个可以调节的超参数,w是线性模型中所有参数的权重. 废话不多说,直接实战: 结果: 可以看出 a越大,回归参数越小,模型越平缓. 不足: 可以看出岭回归的模型参数都只有非常小的绝对值, 阅读全文

posted @ 2019-06-22 11:18 childhood_2 阅读(752) 评论(0) 推荐(0) 编辑

0A03 无监督学习:分类(1) 线性回归OLS

摘要： OLS就是最小二乘法,(Ordinary Least Squares),它通过最小化样本真值与预测值之间的方差和来达到计算出方程系数的目的. 实战: from sklearn import linear_modelimport numpy as np x = np.array([[0,1],[3,- 阅读全文

posted @ 2019-06-22 11:00 childhood_2 阅读(767) 评论(0) 推荐(0) 编辑

2019年6月21日

0A04 无监督学习:聚类(2) 近邻算法(Affinity Propagation)

摘要： AP算法,具有结果稳定可重现训练前不用制定K-means中K值,但是算法的时间复杂度比K-means高 AP 的中心点是样本中的某一个点,而K-means不是. import numpy as npfrom sklearn.cluster import AffinityPropagation # 阅读全文

posted @ 2019-06-21 21:46 childhood_2 阅读(762) 评论(0) 推荐(0) 编辑

公告