摘要: 第一步:语料转化为词袋向量 step 1. 声明一个向量化工具vectorizer; 本文使用的是CountVectorizer,默认情况下,CountVectorizer仅统计长度超过两个字符的词,但是在短文本中任何一个字都可能十分重要,比如“去/到”等,所以要想让CountVectorizer也 阅读全文
posted @ 2018-07-20 22:44 迷茫的计算机呆 阅读(545) 评论(0) 推荐(0) 编辑
摘要: 特征的标准化和归一化 异常特征样本清洗 处理不平衡数据 特征的标准化和归一化 异常特征样本清洗 处理不平衡数据 特征的标准化和归一化 由于标准化和归一化这两个词经常混用,所以本文不再区别标准化和归一化,而通过具体的标准化和归一化方法来区别具体的预处理操作。 z-score标准化:这是最常见的特征预处 阅读全文
posted @ 2018-07-04 19:30 迷茫的计算机呆 阅读(174) 评论(0) 推荐(0) 编辑
摘要: items()函数:以列表返回可遍历的(键, 值) 元组数组 阅读全文
posted @ 2018-07-03 14:53 迷茫的计算机呆 阅读(102) 评论(0) 推荐(0) 编辑
摘要: 转载自https://mp.weixin.qq.com/s/F6OUktbaGF_7lcIbh_6bYg 缺失值处理 首先看该特征是连续值还是离散值 如果是连续值,那么一般有两种选择,一是选择所有有该特征值的样本,然后取平均值,来填充缺失值,另一种是取中位数来填充缺失值 如果是离散值,则一般会选择所 阅读全文
posted @ 2018-07-02 21:55 迷茫的计算机呆 阅读(498) 评论(0) 推荐(0) 编辑
摘要: 过滤法:filter 4. 互信息:互信息值越大,说明该特征和输出值之间的相关性越大,越需要保留。在sklearn中,可以使用mutual_info_classif(分类)和mutual_info_regression(回归)来计算各个输入特征和输出值之间的互信息。 个人经验是,在没有什么思路的 时 阅读全文
posted @ 2018-06-30 22:22 迷茫的计算机呆 阅读(452) 评论(0) 推荐(1) 编辑
摘要: 转载自:https://blog.csdn.net/wtq1993/article/details/51418958 LB,CV分数 在某些比赛中,由于数据分布比较奇葩或是噪声过强,Public LB 的分数可能会跟 Local CV 的结果相去甚远。可以根据一些统计测试的结果来粗略地建立一个阈值, 阅读全文
posted @ 2018-06-19 17:15 迷茫的计算机呆 阅读(143) 评论(0) 推荐(0) 编辑
摘要: data.drop_duplicates() #默认:data中一行元素全部相同时才去除 data.drop_duplicates(['a','b'])#data根据’a','b'组合列删除重复项,默认保留第一个出现的值组合。 data.drop_duplicates(['a','b'],keep='last') 传入参数keep='last'则保留最后一个,传入False则全部删除。 ... 阅读全文
posted @ 2018-06-11 13:55 迷茫的计算机呆 阅读(3560) 评论(0) 推荐(0) 编辑
摘要: 首先使用np.array()函数把DataFrame转化为np.ndarray(),再利用tolist()函数把np.ndarray()转为list。 阅读全文
posted @ 2018-06-11 13:44 迷茫的计算机呆 阅读(2954) 评论(0) 推荐(0) 编辑
摘要: xgboost是一种boost方法。 提升树模型 阅读全文
posted @ 2018-06-09 23:50 迷茫的计算机呆 阅读(92) 评论(0) 推荐(0) 编辑
摘要: 参数 n_splits是将训练数据分成train/test对的组数,可根据需要进行设置,默认为10 参数test_size和train_size是用来设置train/test对中train和test所占的比例。例如: 1.提供10个数据num进行训练和测试集划分 2.设置train_size=0.8 阅读全文
posted @ 2018-06-07 21:47 迷茫的计算机呆 阅读(1011) 评论(0) 推荐(0) 编辑