摘要:
逻辑回归 线性回归是特征的线性组合来拟合真实标记,逻辑回归是特征的线性组合拟合真实标记的正例的概率的对数几率 一句话总结:逻辑回归假设数据服从伯努利分布,通过极大化似然函数的方法,运用梯度下降来求解参数,来达到将数据二分类的目的。 a.假设有模型P(Y=1|x)=F(x)=1/1+e−θTx,在已知 阅读全文
摘要:
hive中常规处理json数据,array类型json用get_json_object(#,"$.#")这个方法足够了,map类型复合型json就需要通过数据处理才能解析。 explode:字段行转列,处理map结构的字段,将数组转换成多行 select explode(split(字段,',')) 阅读全文
摘要:
lambda用法 部分Python内置函数接收函数作为参数。典型的此类内置函数有这些。 filter函数。此时lambda函数用于指定过滤列表元素的条件。例如filter(lambda x: x % 3 == 0, [1, 2, 3])指定将列表[1,2,3]中能够被3整除的元素过滤出来,其结果是[ 阅读全文
摘要:
数据不平衡问题在业务中经常出现,特别总结下自己的业务经验以及其他大佬的经验。 1、数据方向 最好的解决方案是负样本补齐,但这是一句废话,样本补齐后,原有的数据分布可能发生了变化,另外正样本时间窗口延长,新的数据特征可能被稀释。 一般的操作:上采样,下采样,数据合成,数据加权 上采样和下采样都有利有弊 阅读全文