上一页 1 ··· 3 4 5 6 7
摘要: 逻辑回归 线性回归是特征的线性组合来拟合真实标记,逻辑回归是特征的线性组合拟合真实标记的正例的概率的对数几率 一句话总结:逻辑回归假设数据服从伯努利分布,通过极大化似然函数的方法,运用梯度下降来求解参数,来达到将数据二分类的目的。 a.假设有模型P(Y=1|x)=F(x)=1/1+e−θTx,在已知 阅读全文
posted @ 2019-12-11 14:01 Christbao 阅读(169) 评论(0) 推荐(0) 编辑
摘要: hive中常规处理json数据,array类型json用get_json_object(#,"$.#")这个方法足够了,map类型复合型json就需要通过数据处理才能解析。 explode:字段行转列,处理map结构的字段,将数组转换成多行 select explode(split(字段,',')) 阅读全文
posted @ 2019-12-03 14:08 Christbao 阅读(3515) 评论(0) 推荐(0) 编辑
摘要: lambda用法 部分Python内置函数接收函数作为参数。典型的此类内置函数有这些。 filter函数。此时lambda函数用于指定过滤列表元素的条件。例如filter(lambda x: x % 3 == 0, [1, 2, 3])指定将列表[1,2,3]中能够被3整除的元素过滤出来,其结果是[ 阅读全文
posted @ 2019-11-25 20:36 Christbao 阅读(137) 评论(0) 推荐(0) 编辑
摘要: 数据不平衡问题在业务中经常出现,特别总结下自己的业务经验以及其他大佬的经验。 1、数据方向 最好的解决方案是负样本补齐,但这是一句废话,样本补齐后,原有的数据分布可能发生了变化,另外正样本时间窗口延长,新的数据特征可能被稀释。 一般的操作:上采样,下采样,数据合成,数据加权 上采样和下采样都有利有弊 阅读全文
posted @ 2019-11-25 16:26 Christbao 阅读(354) 评论(0) 推荐(0) 编辑
上一页 1 ··· 3 4 5 6 7