摘要: 阅读全文
posted @ 2020-08-24 10:31 柒久酒 阅读(414) 评论(0) 推荐(0) 编辑
摘要: 1. x_train:包括所有自变量,这些变量将用于训练模型,同样,我们已经指定测试_size=0.4,这意味着来自完整数据的60%的观察值将用于训练/拟合模型,其余40%将用于测试模型。2. y_train-这是因变量,需要此模型进行预测,其中包括针对自变量的类别标签,我们需要在训练/拟合模型时指 阅读全文
posted @ 2020-08-21 15:50 柒久酒 阅读(2577) 评论(0) 推荐(0) 编辑
摘要: 新增了一种格式化字符串的函数 str.format(),它增强了字符串格式化的功能。 基本语法是通过 {} 和 : 来代替以前的 % 。 >>>"{} {}".format("hello", "world") # 不设置指定位置,按默认顺序 'hello world' >>> "{0} {1}".f 阅读全文
posted @ 2020-08-21 15:13 柒久酒 阅读(131) 评论(0) 推荐(0) 编辑
摘要: value_counts()是一种查看表格某列中有多少个不同值的快捷方法,并计算每个不同值有在该列中有多少重复值。 print('训练集中因变量cls的分类情况:') print(train['cls'].agg(['value_counts'])) agg():聚合函数 训练集中,因变量 cls 阅读全文
posted @ 2020-08-21 15:08 柒久酒 阅读(3346) 评论(0) 推荐(0) 编辑
摘要: sample(序列a,n) 功能:从序列a中随机抽取n个元素,并将n个元素生以list形式返回。 from random import randint, sample date = [randint(10,20) for _ in range(10)] c = sample(date, 5) pri 阅读全文
posted @ 2020-08-21 15:03 柒久酒 阅读(485) 评论(0) 推荐(0) 编辑
摘要: 1、fit(X,y),在(X,y)上运行记分函数并得到适当的特征。2、fit_transform(X[, y]),拟合数据,然后转换数据。3、get_params([deep]),获得此估计器的参数。4、get_support([indices]),获取所选特征的掩码或整数索引。5、inverse_ 阅读全文
posted @ 2020-08-19 15:48 柒久酒 阅读(836) 评论(0) 推荐(0) 编辑
摘要: df[](指输出数据的结果属性名称).groupby([df[属性],df[属性])(指分类的属性,数据的限定定语,可以有多个).mean()(对于数据的计算方式——函数名称)举例如下: print(df["评分"].groupby([df["地区"],df["类型"]]).mean()) #上面语 阅读全文
posted @ 2020-08-19 08:54 柒久酒 阅读(397) 评论(0) 推荐(0) 编辑
摘要: 构造数据 import pandas as pd df = pd.DataFrame({'Country':['China','China', 'India', 'India', 'America', 'Japan', 'China', 'India'], 'Income':[10000, 1000 阅读全文
posted @ 2020-08-18 17:07 柒久酒 阅读(2545) 评论(0) 推荐(0) 编辑
摘要: index()函数用于从列表中找出某个位置第一个匹配项的索引位置。 list.index(x,start[,end]]) x--查找的对象 start--可选,查找的起始位置 end--可选,查找的结束位置 阅读全文
posted @ 2020-08-18 15:55 柒久酒 阅读(1027) 评论(0) 推荐(0) 编辑
摘要: 无监督分箱法: 等距划分、等频划分 等距分箱 从最小值到最大值之间,均分为 N 等份, 这样, 如果 A,B 为最小最大值, 则每个区间的长度为 W=(B−A)/N , 则区间边界值为A+W,A+2W,….A+(N−1)W 。这里只考虑边界,每个等份里面的实例数量可能不等。 等频分箱 区间的边界值要 阅读全文
posted @ 2020-08-18 15:07 柒久酒 阅读(8182) 评论(0) 推荐(0) 编辑