上一页 1 ··· 21 22 23 24 25 26 27 28 29 ··· 48 下一页
摘要: TF-idf模型:TF表示的是词频:即这个词在一篇文档中出现的频率 idf表示的是逆文档频率, 即log(文档的个数/1+出现该词的文档个数) 可以看出出现该词的文档个数越小,表示这个词越稀有,在这篇文档中也是越重要的 TF-idf: 表示TF*idf, 即词频*逆文档频率 词袋模型不仅考虑了一个词 阅读全文
posted @ 2019-01-26 19:54 python我的最爱 阅读(922) 评论(0) 推荐(0) 编辑
摘要: 函数说明: 1 CountVectorizer(ngram_range=(2, 2)) 进行字符串的前后组合,构造出新的词袋标签 参数说明:ngram_range=(2, 2) 表示选用2个词进行前后的组合,构成新的标签值 Ngram模型表示的是,对于词频而言,只考虑一个词,这里我们在CountVe 阅读全文
posted @ 2019-01-26 19:37 python我的最爱 阅读(5133) 评论(0) 推荐(1) 编辑
摘要: 函数说明: 1. re.sub(r'[^a-zA-Z0-9\s]', repl='', sting=string) 用于进行字符串的替换,这里我们用来去除标点符号 参数说明:r'[^a-zA-Z0-9\s]' 配对的模式,^表示起始位置,\s表示终止位置,[]表示取中间部分,这个的意思是找出除字符串 阅读全文
posted @ 2019-01-26 18:50 python我的最爱 阅读(2033) 评论(0) 推荐(0) 编辑
摘要: 我们可以将一连串的时间特征进行拆分,比如:2015-03-08 10:30:00.360000+00:00, 我们可以将其转换为日期类型,然后从里面提取年,月,日等时间信息 对于一些hour,month等信息,我们也可以使用pd.cut将hour信息按照时刻转换为离散数据,如morning,afte 阅读全文
posted @ 2019-01-26 10:05 python我的最爱 阅读(2621) 评论(0) 推荐(0) 编辑
摘要: 对于一些标签和特征来说,分布不一定符合正态分布,而在实际的运算过程中则需要数据能够符合正态分布 因此我们需要对特征进行log变化,使得数据在一定程度上可以符合正态分布 进行log变化,就是对数据使用np.log(data+1) 加上1的目的是为了防止数据等于0,而不能进行log变化 代码: 第一步: 阅读全文
posted @ 2019-01-25 22:27 python我的最爱 阅读(6810) 评论(1) 推荐(1) 编辑
摘要: 函数说明: 1. .quantile(cut_list) 对DataFrame类型直接使用,用于求出给定列表中分数的数值,这里用来求出4分位出的数值 2. plt.axvline() # 用于画出图形中的竖线 3. pd.qcut(feature, cut_list, labels) 用于对特征进行 阅读全文
posted @ 2019-01-25 22:05 python我的最爱 阅读(1345) 评论(0) 推荐(2) 编辑
摘要: 函数说明: 1. .hist 对于Dataframe格式的数据,我们可以使用.hist直接画出直方图 对于一些像年龄和工资一样的连续数据,我们可以对其进行分段标记处理,使得这些连续的数据变成离散化 就好比:我们可以将0-9岁用0表示 10-19用1表示 20-29用2表示 ... 下面我们对一个年龄 阅读全文
posted @ 2019-01-25 19:44 python我的最爱 阅读(1715) 评论(0) 推荐(0) 编辑
摘要: 函数说明: 1. PolynomialFeatures(degree=2, interaction_only=False, include_bias=False) 参数说明:degree=2,表示多项式的变化维度为2,即^2, interaction_only表示是否只使用a*b, include_ 阅读全文
posted @ 2019-01-25 19:13 python我的最爱 阅读(2688) 评论(0) 推荐(0) 编辑
摘要: 函数说明: 1. Binarizer(threshold=0.9) 将数据进行二值化,threshold表示大于0.9的数据为1,小于0.9的数据为0 对于一些数值型的特征:存在0还有其他的一些数 二值化指的是:将大于0的特征使用1表示,将等于0的特征还是用0表示 对于二值化操作:使用两种方法 第一 阅读全文
posted @ 2019-01-25 18:32 python我的最爱 阅读(1349) 评论(0) 推荐(0) 编辑
摘要: 1.LabelEncoder() # 用于构建数字编码 2 .map(dict_map) 根据dict_map字典进行数字编码的映射 3.OnehotEncoder() # 进行one-hot编码,输入的参数必须是二维的,因此需要做reshape,同时使用toarray() 转换为列表形式 3 pd 阅读全文
posted @ 2019-01-25 16:30 python我的最爱 阅读(1244) 评论(0) 推荐(0) 编辑
上一页 1 ··· 21 22 23 24 25 26 27 28 29 ··· 48 下一页