JueFan_C - 博客园

统计学习方法（六）——逻辑斯谛回归与最大熵模型

摘要： /*先把标题给写了，这样就能经常提醒自己*/转自别处有很多与此类似的文章也不知道谁是原创因原文由少于错误所以下文对此有修改并且做了适当的重点标记(横线见的内容没大明白并且有些复杂，后面的运行流程依据前面的得出的算子进行分类)初步接触谓LR分类器(Logistic Regression Clas... 阅读全文

posted @ 2015-09-11 10:43 JueFan_C 阅读(873) 评论(0) 推荐(0)

Mysql中实现多表关联查询更新操作

摘要：今天一下要记录一下才行了，每次都要去网上查找方法，每次都难找得要命Mysql在更新某些字段的数据时，有时候会依据其他表的数据进行更新，需要通过关联后对不同的行更新不同的值，传统的update set没法实现，可以用下面的方法来实现UPDATE `widetable_solr_field` a INN... 阅读全文

posted @ 2014-11-17 15:12 JueFan_C 阅读(962) 评论(0) 推荐(0)

Hive中抽取连续多天登录用户

摘要：昨天群上有人发个阿里的面试题，题目描述大概如下：数据源：用户登录表，只有俩个字段，uid和dt试用HQL抽取出连续登录了K天的用户uid第一个想法就是直接用一个UDF解决，按uid分组，把dt收集起来然后在UDF里面判断是否满足条件SELECT uid, isExist(collect_... 阅读全文

posted @ 2014-08-22 11:13 JueFan_C 阅读(5538) 评论(4) 推荐(3)

日活跃用户统计函数

摘要：题记：在做运营统计的时候，一个最常见的指标是日活跃用户数（DAU），它的一般性概念为当日所有用户的去重，但是在大部分情况下，我们获取到的数据中会有登录用户与有匿名用户，而这部分用户是会出现重叠的。常规的做法是利用cookie或者imei（移动端）进行自关联，然后算出有多少用户同时是登录用户和匿名... 阅读全文

posted @ 2014-08-19 18:10 JueFan_C 阅读(2096) 评论(0) 推荐(0)

统计学习方法（五）——决策树

摘要： /*先把标题给写了，这样就能经常提醒自己*/ 决策树是一种容易理解的分类算法，它可以认为是if-then规则的一个集合。主要的优点是模型具有可读性，且分类速度较快，不用进行过多的迭代训练之类。决策树学习通常包括3个步骤：特征选择、决策树的生成和决策树的修剪。比较常用到的算法有ID3、C4.5和CA... 阅读全文

posted @ 2014-07-14 21:37 JueFan_C 阅读(4026) 评论(0) 推荐(0)

统计学习方法（四）——朴素贝叶斯法

摘要： /*先把标题给写了、这样就能经常提醒自己*/题记：今天下午去上厕所的一会儿时间，就把第四章给扫完了，说是扫完了主要是因为没有深入去看，对于某些证明都直接跳过了，看了一下里面的例子，大概懂个意思就行了1.朴素贝叶斯法设输入空间为维向量的集合，输出空间为类标记集合，输入特征向量，输出类标记为，是和的... 阅读全文

posted @ 2014-06-25 11:33 JueFan_C 阅读(2688) 评论(4) 推荐(0)

统计学习方法（三）——K近邻法

摘要： /*先把标题给写了、这样就能经常提醒自己*/1. k近邻算法k临近算法的过程，即对一个新的样本，找到特征空间中与其最近的k个样本，这k个样本多数属于某个类，就把这个新的样本也归为这个类。算法输入：训练数据集其中为样本的特征向量，为实例的类别，i=1,2,…,N；样本特征向量x（新样本）；输出：样本x... 阅读全文

posted @ 2014-06-25 11:32 JueFan_C 阅读(1451) 评论(0) 推荐(0)

统计学习方法（二）——感知机

摘要： /*先把标题给写了、这样就能经常提醒自己*/1. 感知机模型我们先来定义一下什么是感知机。所谓感知机，就是二类分类的线性分类模型，其输入为样本的特征向量，输出为样本的类别，取+1和-1二值，即通过某样本的特征，就可以准确判断该样本属于哪一类。顾名思义，感知机能够解决的问题首先要求特征空间是线性可分的... 阅读全文

posted @ 2014-06-25 11:31 JueFan_C 阅读(1759) 评论(2) 推荐(0)

摘要：卷首语前一篇文章hive UDAF开发入门和运行过程详解（转）里面讲过UDAF的开发过程，其中说到如果要深入理解UDAF的执行，可以看看求平均值的UDF的源码本人在看完源码后，也还是没能十分理解里面的内容，于是动手再自己开发一个新的函数，试图多实践中理解它函数功能介绍函数的功能比较蛋疼，我们都知道Hive中有几个常用的聚合函数：sum,max,min,avg现在要用一个函数来同时实现俩个不同的功能，对于同一个key，要求返回指定value集合中的最大值与最小值这里面涉及到一个难点，函数接收到的数据只有一个，但是要同时产生出俩个新的数据出来，且具备一定的逻辑关系语言描述这东西我不大懂，想了好久，阅读全文

posted @ 2014-03-13 12:23 JueFan_C 阅读(3278) 评论(1) 推荐(0)

hive UDAF开发入门和运行过程详解（转）

摘要：介绍hive的用户自定义聚合函数（UDAF）是一个很好的功能，集成了先进的数据处理。hive有两种UDAF：简单和通用。顾名思义，简单的UDAF，写的相当简单的，但因为使用Java反射导致性能损失，而且有些特性不能使用，如可变长度参数列表。通用UDAF可以使用所有功能，但是UDAF就写的比较复杂，不直观。本文只介绍通用UDAF。UDAF是需要在hive的sql语句和group by联合使用，hive的group by对于每个分组，只能返回一条记录，这点和mysql不一样，切记。UDAF开发概览开发通用UDAF有两个步骤，第一个是编写resolver类，第二个是编写evaluator类。re 阅读全文

posted @ 2014-03-06 11:21 JueFan_C 阅读(1259) 评论(0) 推荐(0)