2020 年 8月随笔档案 - 柒久酒

python loc和iloc

摘要：dataframe是一张二维表，行（索引），列（标签） loc通过列名值进行截取，而iloc通过索引截取 import numpy as np import pandas as pd test_array=np.arange(16).reshape(4,4)#四行四列数值到16的数组 test1=p 阅读全文

posted @ 2020-08-28 09:51 柒久酒阅读(1439) 评论(0) 推荐(0) 编辑

信息增益

摘要：熵： “形容一个系统的混乱程度”。系统的不确定性越高，熵就越大。假设集合中的变量X={X1,X2,...Xn} 其对应在集合中的概率为P={p1,p2,...pn} 则熵表示为：举例：举一个的例子：对游戏活跃用户进行分层，分为高活跃、中活跃、低活跃，游戏A按照这个方式划分，用户比例分别为20% 阅读全文

posted @ 2020-08-25 13:59 柒久酒阅读(217) 评论(0) 推荐(0) 编辑

python append和extend区别

摘要：list.append(object) 向列表中添加一个对象objectlist.extend(sequence) 把一个序列seq的内容添加到列表中 music_media = ['compact disc', '8-track tape', 'long playing record'] new_ 阅读全文

posted @ 2020-08-24 16:44 柒久酒阅读(185) 评论(0) 推荐(0) 编辑

Python add_subplot

摘要：阅读全文

posted @ 2020-08-24 10:31 柒久酒阅读(415) 评论(0) 推荐(0) 编辑

X_train和y_train

摘要：1. x_train:包括所有自变量，这些变量将用于训练模型，同样，我们已经指定测试_size=0.4，这意味着来自完整数据的60%的观察值将用于训练/拟合模型，其余40%将用于测试模型。2. y_train-这是因变量，需要此模型进行预测，其中包括针对自变量的类别标签，我们需要在训练/拟合模型时指阅读全文

posted @ 2020-08-21 15:50 柒久酒阅读(2707) 评论(0) 推荐(0) 编辑

python format

摘要：新增了一种格式化字符串的函数 str.format()，它增强了字符串格式化的功能。基本语法是通过 {} 和 : 来代替以前的 % 。 >>>"{} {}".format("hello", "world") # 不设置指定位置，按默认顺序 'hello world' >>> "{0} {1}".f 阅读全文

posted @ 2020-08-21 15:13 柒久酒阅读(136) 评论(0) 推荐(0) 编辑

python value_counts()

摘要：value_counts()是一种查看表格某列中有多少个不同值的快捷方法，并计算每个不同值有在该列中有多少重复值。 print('训练集中因变量cls的分类情况：') print(train['cls'].agg(['value_counts'])) agg():聚合函数训练集中，因变量 cls 阅读全文

posted @ 2020-08-21 15:08 柒久酒阅读(3363) 评论(0) 推荐(0) 编辑

python sample

摘要：sample(序列a，n) 功能：从序列a中随机抽取n个元素，并将n个元素生以list形式返回。 from random import randint, sample date = [randint(10,20) for _ in range(10)] c = sample(date, 5) pri 阅读全文

posted @ 2020-08-21 15:03 柒久酒阅读(499) 评论(0) 推荐(0) 编辑

python F score打分

摘要：1、fit(X,y)，在（X，y）上运行记分函数并得到适当的特征。2、fit_transform(X[, y])，拟合数据，然后转换数据。3、get_params([deep])，获得此估计器的参数。4、get_support([indices])，获取所选特征的掩码或整数索引。5、inverse_ 阅读全文

posted @ 2020-08-19 15:48 柒久酒阅读(850) 评论(0) 推荐(0) 编辑

python groupby()

摘要：df[](指输出数据的结果属性名称).groupby([df[属性],df[属性])(指分类的属性，数据的限定定语，可以有多个).mean()(对于数据的计算方式——函数名称)举例如下： print(df["评分"].groupby([df["地区"],df["类型"]]).mean()) #上面语阅读全文

posted @ 2020-08-19 08:54 柒久酒阅读(407) 评论(0) 推荐(0) 编辑

python groupby agg()

摘要：构造数据 import pandas as pd df = pd.DataFrame({'Country':['China','China', 'India', 'India', 'America', 'Japan', 'China', 'India'], 'Income':[10000, 1000 阅读全文

posted @ 2020-08-18 17:07 柒久酒阅读(2573) 评论(0) 推荐(0) 编辑

python list index()

摘要：index()函数用于从列表中找出某个位置第一个匹配项的索引位置。 list.index(x,start[,end]]) x--查找的对象 start--可选，查找的起始位置 end--可选，查找的结束位置阅读全文

posted @ 2020-08-18 15:55 柒久酒阅读(1110) 评论(0) 推荐(0) 编辑

等距、等频、最优分箱分段

摘要：无监督分箱法: 等距划分、等频划分等距分箱从最小值到最大值之间,均分为 N 等份, 这样, 如果 A,B 为最小最大值, 则每个区间的长度为 W=(B−A)/N , 则区间边界值为A+W,A+2W,….A+(N−1)W 。这里只考虑边界，每个等份里面的实例数量可能不等。等频分箱区间的边界值要阅读全文

posted @ 2020-08-18 15:07 柒久酒阅读(8518) 评论(0) 推荐(0) 编辑

pycharm setting中安装库失败解决方法

摘要：如安装xgboot：搜xgboot pypi官网，找到对应的版本，如本机py3.7 win64下载到随意目录，复制路径打开pycharm中的terminal终端输入pip install 粘粘下载路径（注意：手打D，复制有编码错误）阅读全文

posted @ 2020-08-17 16:58 柒久酒阅读(709) 评论(0) 推荐(0) 编辑

python get_dummies（）

摘要：get_dummies（）——根据原数据进行转换，添加原数据中缺省的变量阅读全文

posted @ 2020-08-10 13:44 柒久酒阅读(2345) 评论(0) 推荐(0) 编辑

python isna()和 isnull()

摘要：isna()和 isnull()区别： isnan判断是否nan（not a number），一般是数值字段的null isnull()主要是判断字符型是否有值，可以判断所有的空值，但是python的数值字段比如int float 为空的时候默认是Nan 阅读全文

posted @ 2020-08-10 13:38 柒久酒阅读(6638) 评论(0) 推荐(0) 编辑

python drop()

摘要：drop()——删除dataframe中的指定行列 drop(labels=None, axis=0, index=None, columns=None, level=None, inplace=False, errors='raise'): labels：一个字符或者数值，加上axis ，表示带l 阅读全文

posted @ 2020-08-10 08:51 柒久酒阅读(4312) 评论(0) 推荐(1) 编辑

pop（）；log1p（）

摘要：pop（）——删除列表中元素，默认为最后一位数据平滑处理 -- log1p( ) 和 exmp1( ) 1. 数据预处理时首先可以对偏度比较大的数据用log1p函数进行转化，使其更加服从高斯分布，此步处理可能会使我们后续的分类结果得到一个好的结果。 2. 平滑问题很容易处理掉，导致模型的结果达不到阅读全文

posted @ 2020-08-07 14:45 柒久酒阅读(207) 评论(0) 推荐(0) 编辑

set_index和reset_index

摘要：set_index() DataFrame.set_index(keys, drop=True, append=False, inplace=False, verify_integrity=False) keys单个或多个（Multiindex）列名 drop default True，将作为行索引阅读全文

posted @ 2020-08-05 14:59 柒久酒阅读(279) 评论(0) 推荐(0) 编辑

python merge；join；concat区别

摘要：merge 使用merge合并时，两个数据集的合并条件是类型须一致。默认是内连接，也可以按照需求选择outer，left，right等外连接方式 concat 合并两个数据集，可在行或者列上合并（用axis调节，默认axis=0)，示例如下： join 索引上的合并,是增加列而不是增加行，当合并的数阅读全文

posted @ 2020-08-05 14:50 柒久酒阅读(256) 评论(0) 推荐(0) 编辑

python merge()

摘要：python merge()——类似于sql中的join()函数 merge(left, right, how='inner', on=None, left_on=None, right_on=None, left_index=False, right_index=False, sort=False 阅读全文

posted @ 2020-08-05 14:43 柒久酒阅读(2253) 评论(0) 推荐(0) 编辑

python set();lambda();zip();groupby(

摘要：set() 函数创建一个无序不重复元素集，可进行关系测试，删除重复数据，还可以计算交集、差集、并集等。 lambda()作为一个表达式，定义了一个匿名函数。 lambda 并不会带来程序运行效率的提高，只会使代码更简洁。如果可以使用for...in...if来完成的，坚决不用lambda。如果使阅读全文

posted @ 2020-08-05 14:26 柒久酒阅读(330) 评论(0) 推荐(0) 编辑

python shape

摘要：import numpy as np x = np.array([[1,2,5],[2,3,5],[3,4,5],[2,3,6]]) #输出数组的行和列数 print x.shape #结果： (4, 3) #只输出行数 print x.shape[0] #结果： 4 #只输出列数 print x. 阅读全文

posted @ 2020-08-05 13:57 柒久酒阅读(242) 评论(0) 推荐(0) 编辑

python ~ isin() loc

摘要：example： df2 = df.loc[~df[col].isin(list)] “~”符号在这里是取反的意思，表示对 df[col].isin(list) 这句返回的值取反，主要用于数据的 slicing。比如 df 是如下的格式：我们希望从 df 中删去 list = ['H', 'I', 阅读全文

posted @ 2020-08-05 13:54 柒久酒阅读(2051) 评论(0) 推荐(1) 编辑

python List 和Numpy array 区别

摘要：一个numpy array 是内存中一个连续块，并且array里的元素都是同一类（例如整数）。所以一旦确定了一个array，它的内存就确定了，那么每个元素（整数）的内存大小都确定了（4 bytes）。 list完全不同，它的每个元素其实是一个地址的引用，这个地址又指向了另一个元素，这些元素的在内存里阅读全文

posted @ 2020-08-03 15:56 柒久酒阅读(1977) 评论(0) 推荐(0) 编辑

python strip() 和split()

摘要：strip( )——用于移除字符串头尾指定的字符（默认为空格或换行符）或字符序列注：只能用于删除开头或结尾的字符，不能删除中间部分的字符 split()返回的是一个列表注：python中没有字符类型的说法，只有字符串，所以所说的字符是只包含一个字符的字符串阅读全文

posted @ 2020-08-03 14:06 柒久酒阅读(171) 评论(0) 推荐(0) 编辑

python 转义符

摘要：\n：换行 \t：空格tab \a：什么都不是阅读全文

posted @ 2020-08-03 13:49 柒久酒阅读(132) 评论(0) 推荐(0) 编辑

08 2020 档案

公告

搜索

常用链接

随笔分类

随笔档案

阅读排行榜

推荐排行榜