会员
周边
众包
新闻
博问
闪存
赞助商
Chat2DB
所有博客
当前博客
我的博客
我的园子
账号设置
会员中心
简洁模式
...
退出登录
注册
登录
Yuppy在学习的路上
博客园
首页
新随笔
联系
订阅
管理
[置顶]
python日期函数udf-程序分享
摘要: 基于python函数的udf日期处理函数 1、基于最近在学习python,就是试试用python进行一下的日期处理udf函数的输出,亲测可以上传去到hive中使用。后面开始学习使用python爬虫抓取黄色网页,和试试骗一下阅读量(笑)。最后,再去搞搞算法和机器学习。突然觉得自己搞得挺杂的。没办法,谁
阅读全文
posted @ 2017-10-31 19:09 Yuppy在学习的路上
阅读(1363)
评论(0)
推荐(0)
2017年11月1日
用hive写一个获取本日期的季度初的sql
摘要: 由于项目需要获取(本季度的的发生额总和)/(本季度经历的天数)的数据(还有月均,年均的数据)。 判断季度的时候是一个难点,开始的时候写了一堆case when 来判断月份,后来写着写着发现,这样也太笨了。于是就开始想办法。 突然灵机一动,一个季度都是以3个月份为一个体的。何不先算出本日是第几季度,然
阅读全文
posted @ 2017-11-01 10:03 Yuppy在学习的路上
阅读(6808)
评论(0)
推荐(0)
2017年10月29日
UDF函数:客户连续三天经营判断方法的趣味实现
摘要: 最近有同事问了我一个关于数据处理的面试题,“如何在一张业务数据表中判断客户是否连续经营了三天”。当时给出的答案是如果是增量计算的话,只要每天把前三天的数据找出来,按客户,按日期GROUP BY一下,然后再看看COUNT是否等于3就行了。如果要考虑处理历史数据的话,就可能需要建一个每天对应前三天的临时
阅读全文
posted @ 2017-10-29 21:28 Yuppy在学习的路上
阅读(266)
评论(0)
推荐(0)
从零起步学python计划及感想
摘要: 从纯传统bi转型过来的技术顾问,比较有优势的是对业务的熟悉,对数据有敏感度,熟悉数据模型。但是长年累月基本都是用sql处理问题。目前还没有经历过sql解决不了的问题,一个sql解决不了就用临时表,几个sql解决(笑)。虽然不是最佳实现。但目前还都能凑合应付,但咱不能就此停步不前吧?整合这段时间项目有
阅读全文
posted @ 2017-10-29 21:25 Yuppy在学习的路上
阅读(932)
评论(0)
推荐(0)
2016年12月5日
通过Cloudera在hadoop生态圈中安装Sentry服务。
摘要: 写在张文章时,差点辣死我了。把sentry数据库密码搞掉了,导致hive,impala,hue都挂了。此事要引以为戒,以后要小心操作了。 a) 在cloudera上添加Sentry服务 b) 选中Sentry服务并继续 c) 使用集群主机Master节点作为Sentry Sever服务器(Gatew
阅读全文
posted @ 2016-12-05 14:00 Yuppy在学习的路上
阅读(2516)
评论(0)
推荐(0)
2016年10月28日
HBASE学习笔记-初步印象
摘要: HBASE概念: HBASE是一个分布式架构的数据库,通过对数据进行多层的分块打散储存。从而改写传统数据库的储存能力和读取速度。 HBASE的集群服务器: HBASE的集群主要分为Zookeeper集群,Master集群,RegionSever集群。 Zookeeper集群:储存Table的Regi
阅读全文
posted @ 2016-10-28 10:06 Yuppy在学习的路上
阅读(343)
评论(0)
推荐(0)
2016年10月21日
Hadoop是什么?一句话理解
摘要: Hadoop(MapReduce&HDFS) 1.学习目的(前言) 在从业了六年IT生涯里,做个实施顾问、业务顾问、BA需求分析师、项目经理,现在重新定位自己,在新公司做起了开发顾问,虽然经历过很多转折、跨度也有点大。但是抓住了机会,开始接触大数据行业了。虽然目前工作中的都是使用Hive SQL进行
阅读全文
posted @ 2016-10-21 11:07 Yuppy在学习的路上
阅读(22317)
评论(1)
推荐(0)
公告