上一页 1 2 3 4 5 6 7 8 9 ··· 12 下一页
摘要: 笔者经历过几家公司,传统行业,互联网行业都经历过,每家公司对于数据的处理,使用都各不相同,但是总体上架构上都大同小异,传统行业有传统行业的整体架构,目前已基本形成一套套完整的解决方案,互联网行业目前已基本形成一套整体的开源解决方案。传统行业一般都是用的商用软件,一方面是为了系统的稳定,一方面也是少有 阅读全文
posted @ 2016-11-21 14:56 无尽的缥缈 阅读(532) 评论(0) 推荐(0) 编辑
摘要: 动态分区 设置如下参数开启动态分区:hive.exec.dynamic.partition=true默认值:false描述:是否允许动态分区hive.exec.dynamic.partition.mode=nonstrict默认值:strict描述:strict是避免全分区字段是动态的,必须有至少一 阅读全文
posted @ 2016-11-18 10:53 无尽的缥缈 阅读(599) 评论(0) 推荐(0) 编辑
摘要: sqoop 执行可以以job形式 也可以执行用命令执行,再用sqoopjob时,踩了几个坑,分享一下 1、服务器重启 由于服务器增加硬盘,需要重启后,发现sqoop job 无法执行,报连接数据库IO之类的错误,但是sqoop命令是可以执行的, 这也就奇怪了,刚开始以为是连接不上hadoop元数据库 阅读全文
posted @ 2016-11-17 13:53 无尽的缥缈 阅读(3284) 评论(1) 推荐(0) 编辑
摘要: 来自http://blog.sina.com.cn/s/blog_3d2d79aa0100h47h.html awk 是一种编程语言,用于在linux/unix下对文本和数据进行处理。数据可以来自标准输入、一个或多个文件,或其它命令的输出(即管道)。它支持用户自定义函数和 动态正则表达式等先进功能, 阅读全文
posted @ 2016-11-17 11:28 无尽的缥缈 阅读(576) 评论(0) 推荐(0) 编辑
摘要: 目前虽然有很多工具可以代替awk,但是呢我还是认为awk还是非常重要,比如有时候load数据到hive,mysql发现数据有点问题,这样可以先对比文件和库中数据是否一致,这样awk就发挥用处了,还有从文本中统计一些简单的数据,awk可是信手拈来。在这也简单的介绍下awk的用法。 awk命令格式与选项 阅读全文
posted @ 2016-11-17 11:17 无尽的缥缈 阅读(270) 评论(0) 推荐(0) 编辑
摘要: hive中一般取top n时,row_number(),rank,dense_ran()这三个函数就派上用场了, 先简单说下这三函数都是排名的,不过呢还有点细微的区别。 通过代码运行结果一看就明白了。 示例数据: sql语句 结果 从结果看出 rank() 排序相同时会重复,总数不会变 dense_ 阅读全文
posted @ 2016-11-10 17:34 无尽的缥缈 阅读(24527) 评论(0) 推荐(2) 编辑
摘要: 1、order by hive中的order by 和传统sql中的order by 一样,对数据做全局排序,加上排序,会新启动一个job进行排序,会把所有数据放到同一个reduce中进行处理,不管数据多少,不管文件多少,都启用一个reduce进行处理。如果指定了hive.mapred.mode=s 阅读全文
posted @ 2016-11-02 19:22 无尽的缥缈 阅读(3426) 评论(0) 推荐(0) 编辑
摘要: 说明下版本 python 3.4 django 1.10 一、安装pymysql 因为python版本是3,所以就用pymysql。只是为了玩一玩,所以就用window。 安装直接到C:\Python34\Scripts用easy_install.exe pymysql3 这个命令安装,一次性安装成 阅读全文
posted @ 2016-10-18 16:13 无尽的缥缈 阅读(176) 评论(0) 推荐(0) 编辑
摘要: 43B4A73YYJ-eyJsaWNlbnNlSWQiOiI0M0I0QTczWVlKIiwibGljZW5zZWVOYW1lIjoibGFuIHl1IiwiYXNzaWduZWVOYW1lIjoiIiwiYXNzaWduZWVFbWFpbCI6IiIsImxpY2Vuc2VSZXN0cmljdGl 阅读全文
posted @ 2016-10-17 16:10 无尽的缥缈 阅读(127) 评论(0) 推荐(0) 编辑
摘要: 一、前言: 虽然做数据工作5年了,从传统行业到互联网行业,感觉啥都懂点,但是没有一样可以拿出手的,干活时没问题,但是讲东西却存在问题,最近想系统的学习一下数据仓库只是,顺便记录下,也算是对学习的一个总结。 二、数据仓库 那么,何为数据仓库,根据百度百科介绍,数据仓库,英文名称为Data Wareho 阅读全文
posted @ 2016-10-13 14:11 无尽的缥缈 阅读(568) 评论(0) 推荐(0) 编辑
上一页 1 2 3 4 5 6 7 8 9 ··· 12 下一页