2015年9月11日

统计学习方法(六)——逻辑斯谛回归与最大熵模型

摘要: /*先把标题给写了,这样就能经常提醒自己*/转自别处有很多与此类似的文章也不知道谁是原创 因原文由少于错误 所以下文对此有修改并且做了适当的重点标记(横线见的内容没大明白 并且有些复杂,后面的运行流程依据前面的得出的算子进行分类)初步接触谓LR分类器(Logistic Regression Clas... 阅读全文

posted @ 2015-09-11 10:43 JueFan_C 阅读(758) 评论(0) 推荐(0) 编辑

2014年11月17日

Mysql中实现多表关联查询更新操作

摘要: 今天一下要记录一下才行了,每次都要去网上查找方法,每次都难找得要命Mysql在更新某些字段的数据时,有时候会依据其他表的数据进行更新,需要通过关联后对不同的行更新不同的值,传统的update set没法实现,可以用下面的方法来实现UPDATE `widetable_solr_field` a INN... 阅读全文

posted @ 2014-11-17 15:12 JueFan_C 阅读(945) 评论(0) 推荐(0) 编辑

2014年8月22日

Hive中抽取连续多天登录用户

摘要: 昨天群上有人发个阿里的面试题,题目描述大概如下:数据源:用户登录表,只有俩个字段,uid和dt试用HQL抽取出连续登录了K天的用户uid第一个想法就是直接用一个UDF解决,按uid分组,把dt收集起来然后在UDF里面判断是否满足条件SELECT uid, isExist(collect_... 阅读全文

posted @ 2014-08-22 11:13 JueFan_C 阅读(5460) 评论(4) 推荐(3) 编辑

2014年8月19日

日活跃用户统计函数

摘要: 题记: 在做运营统计的时候,一个最常见的指标是日活跃用户数(DAU),它的一般性概念为当日所有用户的去重,但是在大部分情况下,我们获取到的数据中会有登录用户与有匿名用户,而这部分用户是会出现重叠的。常规的做法是利用cookie或者imei(移动端)进行自关联,然后算出有多少用户同时是登录用户和匿名... 阅读全文

posted @ 2014-08-19 18:10 JueFan_C 阅读(1997) 评论(0) 推荐(0) 编辑

2014年7月14日

统计学习方法(五)——决策树

摘要: /*先把标题给写了,这样就能经常提醒自己*/ 决策树是一种容易理解的分类算法,它可以认为是if-then规则的一个集合。主要的优点是模型具有可读性,且分类速度较快,不用进行过多的迭代训练之类。决策树学习通常包括3个步骤:特征选择、决策树的生成和决策树的修剪。比较常用到的算法有ID3、C4.5和CA... 阅读全文

posted @ 2014-07-14 21:37 JueFan_C 阅读(3872) 评论(0) 推荐(0) 编辑

2014年6月25日

统计学习方法(四)——朴素贝叶斯法

摘要: /*先把标题给写了、这样就能经常提醒自己*/题记:今天下午去上厕所的一会儿时间,就把第四章给扫完了,说是扫完了主要是因为没有深入去看,对于某些证明都直接跳过了,看了一下里面的例子,大概懂个意思就行了1.朴素贝叶斯法 设输入空间为维向量的集合,输出空间为类标记集合,输入特征向量,输出类标记为,是和的... 阅读全文

posted @ 2014-06-25 11:33 JueFan_C 阅读(2564) 评论(4) 推荐(0) 编辑

统计学习方法(三)——K近邻法

摘要: /*先把标题给写了、这样就能经常提醒自己*/1. k近邻算法k临近算法的过程,即对一个新的样本,找到特征空间中与其最近的k个样本,这k个样本多数属于某个类,就把这个新的样本也归为这个类。算法输入:训练数据集其中为样本的特征向量,为实例的类别,i=1,2,…,N;样本特征向量x(新样本);输出:样本x... 阅读全文

posted @ 2014-06-25 11:32 JueFan_C 阅读(1364) 评论(0) 推荐(0) 编辑

统计学习方法(二)——感知机

摘要: /*先把标题给写了、这样就能经常提醒自己*/1. 感知机模型我们先来定义一下什么是感知机。所谓感知机,就是二类分类的线性分类模型,其输入为样本的特征向量,输出为样本的类别,取+1和-1二值,即通过某样本的特征,就可以准确判断该样本属于哪一类。顾名思义,感知机能够解决的问题首先要求特征空间是线性可分的... 阅读全文

posted @ 2014-06-25 11:31 JueFan_C 阅读(1684) 评论(2) 推荐(0) 编辑

2014年3月13日

Hive UDAF开发之同时计算最大值与最小值

摘要: 卷首语前一篇文章hive UDAF开发入门和运行过程详解(转)里面讲过UDAF的开发过程,其中说到如果要深入理解UDAF的执行,可以看看求平均值的UDF的源码本人在看完源码后,也还是没能十分理解里面的内容,于是动手再自己开发一个新的函数,试图多实践中理解它函数功能介绍函数的功能比较蛋疼,我们都知道Hive中有几个常用的聚合函数:sum,max,min,avg现在要用一个函数来同时实现俩个不同的功能,对于同一个key,要求返回指定value集合中的最大值与最小值这里面涉及到一个难点,函数接收到的数据只有一个,但是要同时产生出俩个新的数据出来,且具备一定的逻辑关系语言描述这东西我不大懂,想了好久, 阅读全文

posted @ 2014-03-13 12:23 JueFan_C 阅读(3237) 评论(1) 推荐(0) 编辑

2014年3月6日

hive UDAF开发入门和运行过程详解(转)

摘要: 介绍hive的用户自定义聚合函数(UDAF)是一个很好的功能,集成了先进的数据处理。hive有两种UDAF:简单和通用。顾名思义,简单的UDAF,写的相当简单的,但因为使用Java反射导致性能损失,而且有些特性不能使用,如可变长度参数列表。通用UDAF可以使用​​所有功能,但是UDAF就写的比较复杂,不直观。本文只介绍通用UDAF。UDAF是需要在hive的sql语句和group by联合使用,hive的group by对于每个分组,只能返回一条记录,这点和mysql不一样,切记。UDAF开发概览开发通用UDAF有两个步骤,第一个是编写resolver类,第二个是编写evaluator类。re 阅读全文

posted @ 2014-03-06 11:21 JueFan_C 阅读(1194) 评论(0) 推荐(0) 编辑

导航