摘要: 1. x_train:包括所有自变量,这些变量将用于训练模型,同样,我们已经指定测试_size=0.4,这意味着来自完整数据的60%的观察值将用于训练/拟合模型,其余40%将用于测试模型。2. y_train-这是因变量,需要此模型进行预测,其中包括针对自变量的类别标签,我们需要在训练/拟合模型时指 阅读全文
posted @ 2020-08-21 15:50 柒久酒 阅读(2577) 评论(0) 推荐(0) 编辑
摘要: 新增了一种格式化字符串的函数 str.format(),它增强了字符串格式化的功能。 基本语法是通过 {} 和 : 来代替以前的 % 。 >>>"{} {}".format("hello", "world") # 不设置指定位置,按默认顺序 'hello world' >>> "{0} {1}".f 阅读全文
posted @ 2020-08-21 15:13 柒久酒 阅读(131) 评论(0) 推荐(0) 编辑
摘要: value_counts()是一种查看表格某列中有多少个不同值的快捷方法,并计算每个不同值有在该列中有多少重复值。 print('训练集中因变量cls的分类情况:') print(train['cls'].agg(['value_counts'])) agg():聚合函数 训练集中,因变量 cls 阅读全文
posted @ 2020-08-21 15:08 柒久酒 阅读(3346) 评论(0) 推荐(0) 编辑
摘要: sample(序列a,n) 功能:从序列a中随机抽取n个元素,并将n个元素生以list形式返回。 from random import randint, sample date = [randint(10,20) for _ in range(10)] c = sample(date, 5) pri 阅读全文
posted @ 2020-08-21 15:03 柒久酒 阅读(485) 评论(0) 推荐(0) 编辑