08 2020 档案
摘要:dataframe是一张二维表,行(索引),列(标签) loc通过列名值进行截取,而iloc通过索引截取 import numpy as np import pandas as pd test_array=np.arange(16).reshape(4,4)#四行四列数值到16的数组 test1=p
阅读全文
摘要:熵: “形容一个系统的混乱程度”。系统的不确定性越高,熵就越大。 假设集合中的变量X={X1,X2,...Xn} 其对应在集合中的概率为P={p1,p2,...pn} 则熵表示为: 举例: 举一个的例子:对游戏活跃用户进行分层,分为高活跃、中活跃、低活跃,游戏A按照这个方式划分,用户比例分别为20%
阅读全文
摘要:list.append(object) 向列表中添加一个对象objectlist.extend(sequence) 把一个序列seq的内容添加到列表中 music_media = ['compact disc', '8-track tape', 'long playing record'] new_
阅读全文
摘要:1. x_train:包括所有自变量,这些变量将用于训练模型,同样,我们已经指定测试_size=0.4,这意味着来自完整数据的60%的观察值将用于训练/拟合模型,其余40%将用于测试模型。2. y_train-这是因变量,需要此模型进行预测,其中包括针对自变量的类别标签,我们需要在训练/拟合模型时指
阅读全文
摘要:新增了一种格式化字符串的函数 str.format(),它增强了字符串格式化的功能。 基本语法是通过 {} 和 : 来代替以前的 % 。 >>>"{} {}".format("hello", "world") # 不设置指定位置,按默认顺序 'hello world' >>> "{0} {1}".f
阅读全文
摘要:value_counts()是一种查看表格某列中有多少个不同值的快捷方法,并计算每个不同值有在该列中有多少重复值。 print('训练集中因变量cls的分类情况:') print(train['cls'].agg(['value_counts'])) agg():聚合函数 训练集中,因变量 cls
阅读全文
摘要:sample(序列a,n) 功能:从序列a中随机抽取n个元素,并将n个元素生以list形式返回。 from random import randint, sample date = [randint(10,20) for _ in range(10)] c = sample(date, 5) pri
阅读全文
摘要:1、fit(X,y),在(X,y)上运行记分函数并得到适当的特征。2、fit_transform(X[, y]),拟合数据,然后转换数据。3、get_params([deep]),获得此估计器的参数。4、get_support([indices]),获取所选特征的掩码或整数索引。5、inverse_
阅读全文
摘要:df[](指输出数据的结果属性名称).groupby([df[属性],df[属性])(指分类的属性,数据的限定定语,可以有多个).mean()(对于数据的计算方式——函数名称)举例如下: print(df["评分"].groupby([df["地区"],df["类型"]]).mean()) #上面语
阅读全文
摘要:构造数据 import pandas as pd df = pd.DataFrame({'Country':['China','China', 'India', 'India', 'America', 'Japan', 'China', 'India'], 'Income':[10000, 1000
阅读全文
摘要:index()函数用于从列表中找出某个位置第一个匹配项的索引位置。 list.index(x,start[,end]]) x--查找的对象 start--可选,查找的起始位置 end--可选,查找的结束位置
阅读全文
摘要:无监督分箱法: 等距划分、等频划分 等距分箱 从最小值到最大值之间,均分为 N 等份, 这样, 如果 A,B 为最小最大值, 则每个区间的长度为 W=(B−A)/N , 则区间边界值为A+W,A+2W,….A+(N−1)W 。这里只考虑边界,每个等份里面的实例数量可能不等。 等频分箱 区间的边界值要
阅读全文
摘要:如安装xgboot: 搜xgboot pypi官网,找到对应的版本,如本机py3.7 win64下载到随意目录,复制路径 打开pycharm中的terminal终端输入pip install 粘粘下载路径(注意:手打D,复制有编码错误)
阅读全文
摘要:get_dummies()——根据原数据进行转换,添加原数据中缺省的变量
阅读全文
摘要:isna()和 isnull()区别: isnan判断是否nan(not a number),一般是数值字段的null isnull()主要是判断字符型是否有值, 可以判断所有的空值,但是python的数值字段比如int float 为空的时候默认是Nan
阅读全文
摘要:drop()——删除dataframe中的指定行列 drop(labels=None, axis=0, index=None, columns=None, level=None, inplace=False, errors='raise'): labels:一个字符或者数值,加上axis ,表示带l
阅读全文
摘要:pop()——删除列表中元素,默认为最后一位 数据平滑处理 -- log1p( ) 和 exmp1( ) 1. 数据预处理时首先可以对偏度比较大的数据用log1p函数进行转化,使其更加服从高斯分布,此步处理可能会使我们后续的分类结果得到一个好的结果。 2. 平滑问题很容易处理掉,导致模型的结果达不到
阅读全文
摘要:set_index() DataFrame.set_index(keys, drop=True, append=False, inplace=False, verify_integrity=False) keys单个或多个(Multiindex)列名 drop default True,将作为行索引
阅读全文
摘要:merge 使用merge合并时,两个数据集的合并条件是类型须一致。默认是内连接,也可以按照需求选择outer,left,right等外连接方式 concat 合并两个数据集,可在行或者列上合并(用axis调节,默认axis=0),示例如下: join 索引上的合并,是增加列而不是增加行,当合并的数
阅读全文
摘要:python merge()——类似于sql中的join()函数 merge(left, right, how='inner', on=None, left_on=None, right_on=None, left_index=False, right_index=False, sort=False
阅读全文
摘要:set() 函数创建一个无序不重复元素集,可进行关系测试,删除重复数据,还可以计算交集、差集、并集等。 lambda()作为一个表达式,定义了一个匿名函数。 lambda 并不会带来程序运行效率的提高,只会使代码更简洁。 如果可以使用for...in...if来完成的,坚决不用lambda。 如果使
阅读全文
摘要:import numpy as np x = np.array([[1,2,5],[2,3,5],[3,4,5],[2,3,6]]) #输出数组的行和列数 print x.shape #结果: (4, 3) #只输出行数 print x.shape[0] #结果: 4 #只输出列数 print x.
阅读全文
摘要:example: df2 = df.loc[~df[col].isin(list)] “~”符号在这里是取反的意思,表示对 df[col].isin(list) 这句返回的值取反,主要用于数据的 slicing。比如 df 是如下的格式: 我们希望从 df 中删去 list = ['H', 'I',
阅读全文
摘要:一个numpy array 是内存中一个连续块,并且array里的元素都是同一类(例如整数)。所以一旦确定了一个array,它的内存就确定了,那么每个元素(整数)的内存大小都确定了(4 bytes)。 list完全不同,它的每个元素其实是一个地址的引用,这个地址又指向了另一个元素,这些元素的在内存里
阅读全文
摘要:strip( )——用于移除字符串头尾指定的字符(默认为空格或换行符)或字符序列 注:只能用于删除开头或结尾的字符,不能删除中间部分的字符 split()返回的是一个列表 注:python中没有字符类型的说法,只有字符串,所以所说的字符是只包含一个字符的字符串
阅读全文