摘要:
第一步:语料转化为词袋向量 step 1. 声明一个向量化工具vectorizer; 本文使用的是CountVectorizer,默认情况下,CountVectorizer仅统计长度超过两个字符的词,但是在短文本中任何一个字都可能十分重要,比如“去/到”等,所以要想让CountVectorizer也 阅读全文
摘要:
特征的标准化和归一化 异常特征样本清洗 处理不平衡数据 特征的标准化和归一化 异常特征样本清洗 处理不平衡数据 特征的标准化和归一化 由于标准化和归一化这两个词经常混用,所以本文不再区别标准化和归一化,而通过具体的标准化和归一化方法来区别具体的预处理操作。 z-score标准化:这是最常见的特征预处 阅读全文
摘要:
items()函数:以列表返回可遍历的(键, 值) 元组数组 阅读全文
摘要:
转载自https://mp.weixin.qq.com/s/F6OUktbaGF_7lcIbh_6bYg 缺失值处理 首先看该特征是连续值还是离散值 如果是连续值,那么一般有两种选择,一是选择所有有该特征值的样本,然后取平均值,来填充缺失值,另一种是取中位数来填充缺失值 如果是离散值,则一般会选择所 阅读全文
摘要:
过滤法:filter 4. 互信息:互信息值越大,说明该特征和输出值之间的相关性越大,越需要保留。在sklearn中,可以使用mutual_info_classif(分类)和mutual_info_regression(回归)来计算各个输入特征和输出值之间的互信息。 个人经验是,在没有什么思路的 时 阅读全文
摘要:
转载自:https://blog.csdn.net/wtq1993/article/details/51418958 LB,CV分数 在某些比赛中,由于数据分布比较奇葩或是噪声过强,Public LB 的分数可能会跟 Local CV 的结果相去甚远。可以根据一些统计测试的结果来粗略地建立一个阈值, 阅读全文
摘要:
data.drop_duplicates() #默认:data中一行元素全部相同时才去除 data.drop_duplicates(['a','b'])#data根据’a','b'组合列删除重复项,默认保留第一个出现的值组合。 data.drop_duplicates(['a','b'],keep='last') 传入参数keep='last'则保留最后一个,传入False则全部删除。 ... 阅读全文
摘要:
首先使用np.array()函数把DataFrame转化为np.ndarray(),再利用tolist()函数把np.ndarray()转为list。 阅读全文
摘要:
xgboost是一种boost方法。 提升树模型 阅读全文
摘要:
参数 n_splits是将训练数据分成train/test对的组数,可根据需要进行设置,默认为10 参数test_size和train_size是用来设置train/test对中train和test所占的比例。例如: 1.提供10个数据num进行训练和测试集划分 2.设置train_size=0.8 阅读全文