迷茫的计算机呆

2018年7月20日

摘要：第一步：语料转化为词袋向量 step 1. 声明一个向量化工具vectorizer；本文使用的是CountVectorizer，默认情况下，CountVectorizer仅统计长度超过两个字符的词，但是在短文本中任何一个字都可能十分重要，比如“去／到”等，所以要想让CountVectorizer也阅读全文

posted @ 2018-07-20 22:44 迷茫的计算机呆阅读(545) 评论(0) 推荐(0) 编辑

2018年7月4日

特征工程——特征预处理

摘要：特征的标准化和归一化异常特征样本清洗处理不平衡数据特征的标准化和归一化异常特征样本清洗处理不平衡数据特征的标准化和归一化由于标准化和归一化这两个词经常混用，所以本文不再区别标准化和归一化，而通过具体的标准化和归一化方法来区别具体的预处理操作。 z-score标准化：这是最常见的特征预处阅读全文

posted @ 2018-07-04 19:30 迷茫的计算机呆阅读(174) 评论(0) 推荐(0) 编辑

2018年7月3日

dict 字典

摘要： items（）函数：以列表返回可遍历的(键, 值) 元组数组阅读全文

posted @ 2018-07-03 14:53 迷茫的计算机呆阅读(102) 评论(0) 推荐(0) 编辑

2018年7月2日

特征预处理——特征表达

摘要：转载自https://mp.weixin.qq.com/s/F6OUktbaGF_7lcIbh_6bYg 缺失值处理首先看该特征是连续值还是离散值如果是连续值，那么一般有两种选择，一是选择所有有该特征值的样本，然后取平均值，来填充缺失值，另一种是取中位数来填充缺失值如果是离散值，则一般会选择所阅读全文

posted @ 2018-07-02 21:55 迷茫的计算机呆阅读(498) 评论(0) 推荐(0) 编辑

2018年6月30日

特征工程之特征选择

摘要：过滤法：filter 4. 互信息：互信息值越大，说明该特征和输出值之间的相关性越大，越需要保留。在sklearn中，可以使用mutual_info_classif(分类)和mutual_info_regression(回归)来计算各个输入特征和输出值之间的互信息。个人经验是，在没有什么思路的时阅读全文

posted @ 2018-06-30 22:22 迷茫的计算机呆阅读(452) 评论(0) 推荐(1) 编辑

2018年6月19日

机器学习技巧学习

摘要：转载自：https://blog.csdn.net/wtq1993/article/details/51418958 LB，CV分数在某些比赛中，由于数据分布比较奇葩或是噪声过强，Public LB 的分数可能会跟 Local CV 的结果相去甚远。可以根据一些统计测试的结果来粗略地建立一个阈值，阅读全文

posted @ 2018-06-19 17:15 迷茫的计算机呆阅读(143) 评论(0) 推荐(0) 编辑

2018年6月11日

dataframe去重 drop_duplicates

摘要： data.drop_duplicates() #默认：data中一行元素全部相同时才去除 data.drop_duplicates(['a','b'])#data根据’a','b'组合列删除重复项，默认保留第一个出现的值组合。 data.drop_duplicates(['a','b'],keep='last') 传入参数keep='last'则保留最后一个，传入False则全部删除。 ... 阅读全文

posted @ 2018-06-11 13:55 迷茫的计算机呆阅读(3560) 评论(0) 推荐(0) 编辑

dataframe 转为list

摘要：首先使用np.array()函数把DataFrame转化为np.ndarray()，再利用tolist()函数把np.ndarray()转为list。阅读全文

posted @ 2018-06-11 13:44 迷茫的计算机呆阅读(2954) 评论(0) 推荐(0) 编辑

2018年6月9日

XGboost

摘要： xgboost是一种boost方法。提升树模型阅读全文

posted @ 2018-06-09 23:50 迷茫的计算机呆阅读(92) 评论(0) 推荐(0) 编辑

2018年6月7日

StratifiedShuffleSplit（）函数实现对数据集的划分

摘要：参数 n_splits是将训练数据分成train/test对的组数，可根据需要进行设置，默认为10 参数test_size和train_size是用来设置train/test对中train和test所占的比例。例如： 1.提供10个数据num进行训练和测试集划分 2.设置train_size=0.8 阅读全文

posted @ 2018-06-07 21:47 迷茫的计算机呆阅读(1011) 评论(0) 推荐(0) 编辑

迷茫的计算机呆

公告