摘要: 发数值部分 处理计数问题,对于大规模的数据,在实际处理的时候要考虑是保留原始的数值类型还是转成二值数,或者粗粒度的分箱操作.对于衡量可以二分类的数据,如果存在个别极端大的数值的数据会对带跑整体的预测,这个时候就需要设置一个threshold对数据二值化处理.下面主要记录一下分箱方法. yelp数据是 阅读全文
posted @ 2019-09-04 20:52 猪突猛进!!! 阅读(791) 评论(0) 推荐(0) 编辑