会员
周边
众包
新闻
博问
闪存
赞助商
所有博客
当前博客
我的博客
我的园子
账号设置
简洁模式
...
退出登录
注册
登录
elsearch
博客园
首页
新随笔
联系
订阅
管理
上一页
1
2
3
4
5
6
7
8
9
···
12
下一页
2016年11月21日
大数据平台建设的思考
摘要: 笔者经历过几家公司,传统行业,互联网行业都经历过,每家公司对于数据的处理,使用都各不相同,但是总体上架构上都大同小异,传统行业有传统行业的整体架构,目前已基本形成一套套完整的解决方案,互联网行业目前已基本形成一套整体的开源解决方案。传统行业一般都是用的商用软件,一方面是为了系统的稳定,一方面也是少有
阅读全文
posted @ 2016-11-21 14:56 无尽的缥缈
阅读(532)
评论(0)
推荐(0)
编辑
2016年11月18日
hive中的一些参数
摘要: 动态分区 设置如下参数开启动态分区:hive.exec.dynamic.partition=true默认值:false描述:是否允许动态分区hive.exec.dynamic.partition.mode=nonstrict默认值:strict描述:strict是避免全分区字段是动态的,必须有至少一
阅读全文
posted @ 2016-11-18 10:53 无尽的缥缈
阅读(599)
评论(0)
推荐(0)
编辑
2016年11月17日
sqoop job 踩过的坑
摘要: sqoop 执行可以以job形式 也可以执行用命令执行,再用sqoopjob时,踩了几个坑,分享一下 1、服务器重启 由于服务器增加硬盘,需要重启后,发现sqoop job 无法执行,报连接数据库IO之类的错误,但是sqoop命令是可以执行的, 这也就奇怪了,刚开始以为是连接不上hadoop元数据库
阅读全文
posted @ 2016-11-17 13:53 无尽的缥缈
阅读(3284)
评论(1)
推荐(0)
编辑
【转】awk、nawk、mawk、gawk的简答介绍
摘要: 来自http://blog.sina.com.cn/s/blog_3d2d79aa0100h47h.html awk 是一种编程语言,用于在linux/unix下对文本和数据进行处理。数据可以来自标准输入、一个或多个文件,或其它命令的输出(即管道)。它支持用户自定义函数和 动态正则表达式等先进功能,
阅读全文
posted @ 2016-11-17 11:28 无尽的缥缈
阅读(576)
评论(0)
推荐(0)
编辑
awk用法
摘要: 目前虽然有很多工具可以代替awk,但是呢我还是认为awk还是非常重要,比如有时候load数据到hive,mysql发现数据有点问题,这样可以先对比文件和库中数据是否一致,这样awk就发挥用处了,还有从文本中统计一些简单的数据,awk可是信手拈来。在这也简单的介绍下awk的用法。 awk命令格式与选项
阅读全文
posted @ 2016-11-17 11:17 无尽的缥缈
阅读(270)
评论(0)
推荐(0)
编辑
2016年11月10日
hive 中窗口函数row_number,rank,dense_ran,ntile分析函数的用法
摘要: hive中一般取top n时,row_number(),rank,dense_ran()这三个函数就派上用场了, 先简单说下这三函数都是排名的,不过呢还有点细微的区别。 通过代码运行结果一看就明白了。 示例数据: sql语句 结果 从结果看出 rank() 排序相同时会重复,总数不会变 dense_
阅读全文
posted @ 2016-11-10 17:34 无尽的缥缈
阅读(24527)
评论(0)
推荐(2)
编辑
2016年11月2日
hive中order by,sort by, distribute by, cluster by的用法
摘要: 1、order by hive中的order by 和传统sql中的order by 一样,对数据做全局排序,加上排序,会新启动一个job进行排序,会把所有数据放到同一个reduce中进行处理,不管数据多少,不管文件多少,都启用一个reduce进行处理。如果指定了hive.mapred.mode=s
阅读全文
posted @ 2016-11-02 19:22 无尽的缥缈
阅读(3426)
评论(0)
推荐(0)
编辑
2016年10月18日
python连接mysql
摘要: 说明下版本 python 3.4 django 1.10 一、安装pymysql 因为python版本是3,所以就用pymysql。只是为了玩一玩,所以就用window。 安装直接到C:\Python34\Scripts用easy_install.exe pymysql3 这个命令安装,一次性安装成
阅读全文
posted @ 2016-10-18 16:13 无尽的缥缈
阅读(176)
评论(0)
推荐(0)
编辑
2016年10月17日
pycharm注册码
摘要: 43B4A73YYJ-eyJsaWNlbnNlSWQiOiI0M0I0QTczWVlKIiwibGljZW5zZWVOYW1lIjoibGFuIHl1IiwiYXNzaWduZWVOYW1lIjoiIiwiYXNzaWduZWVFbWFpbCI6IiIsImxpY2Vuc2VSZXN0cmljdGl
阅读全文
posted @ 2016-10-17 16:10 无尽的缥缈
阅读(127)
评论(0)
推荐(0)
编辑
2016年10月13日
数据仓库系列1-高质量数据建模
摘要: 一、前言: 虽然做数据工作5年了,从传统行业到互联网行业,感觉啥都懂点,但是没有一样可以拿出手的,干活时没问题,但是讲东西却存在问题,最近想系统的学习一下数据仓库只是,顺便记录下,也算是对学习的一个总结。 二、数据仓库 那么,何为数据仓库,根据百度百科介绍,数据仓库,英文名称为Data Wareho
阅读全文
posted @ 2016-10-13 14:11 无尽的缥缈
阅读(568)
评论(0)
推荐(0)
编辑
上一页
1
2
3
4
5
6
7
8
9
···
12
下一页