摘要: 同事最近在忙数据一致性比对工作,需要对不同文本文件中的数据进行比对,有的文件较大,记录较多,如果用普通的文本编辑器打开的话,很显然,会很卡,甚至打不开。基于此,可将该文本文件的数据导入到数据库中,在集合的层面进行比对。那么如何将文本文件的数据导入到数据库中呢?在这里,主要利用了Oracle的外部表特... 阅读全文
posted @ 2015-07-15 15:03 数据手艺人 阅读(1500) 评论(0) 推荐(0) 编辑
摘要: Hive 已是目前业界最为通用、廉价的构建大数据时代数据仓库的解决方案了,虽然也有 Impala 等后起之秀,但目前从功能、稳定性等方面来说,Hive 的地位尚不可撼动。其实这篇博文主要是想聊聊 SMB join 的,Join 是整个 MR/Hive 最为核心的部分之一,是每个 Hadoop/Hiv... 阅读全文
posted @ 2015-07-15 14:10 数据手艺人 阅读(760) 评论(2) 推荐(0) 编辑
摘要: 翻译Hive官方文档系列,文中括号中包含 注: 字样的,为我自行标注的,水平有限,翻译不是完美无缺的。如有疑问,请参照Hive官方文档对照查看。内容列表 Cloudera制作的Hive介绍视频 安装与配置 系统需求 安装Hive发行版 从Hive源码编译 运行Hive 配置管理概览 运行时配置 Hi... 阅读全文
posted @ 2015-07-15 10:19 数据手艺人 阅读(547) 评论(0) 推荐(0) 编辑
摘要: 在把hdfs上数据迁移到hive中的表时,若出现数据位NULL,是因为没有指定列分隔符。由于hive默认的分隔符是/u0001(Ctrl+A),为了平滑迁移,需要在创建表格时指定数据的分割符号,语法如下:[sql]view plaincopyprint?hive(default)>createext... 阅读全文
posted @ 2015-07-14 15:34 数据手艺人 阅读(3393) 评论(0) 推荐(0) 编辑
摘要: 一、 控制hive任务中的map数:1. 通常情况下,作业会通过input的目录产生一个或者多个map任务。主要的决定因素有: input的文件总个数,input的文件大小,集群设置的文件块大小(目前为128M, 可在hive中通过set dfs.block.size;命令查看到,该参数不能自定义修... 阅读全文
posted @ 2015-07-14 15:31 数据手艺人 阅读(408) 评论(0) 推荐(0) 编辑
摘要: hive内部表、外部表区别自不用说,可实际用的时候还是要小心。1. 内部表:[sql]view plaincopyprint?createtablett(namestring,agestring)location'/input/table_data';此时,会在hdfs上新建一个tt表的数据存放地,... 阅读全文
posted @ 2015-07-14 15:14 数据手艺人 阅读(1138) 评论(0) 推荐(0) 编辑
摘要: 1.Hive中的数据库:它是表的一个目录或者命名空间,用来避免表命名冲突,我们通常使用数据库来将生产表组织成逻辑组。基本命令:(1)创建一个数据库(如果不存在该数据库):create databaseif not existstime;(2)查看Hive中所包含的所有数据库:show databas... 阅读全文
posted @ 2015-07-14 15:09 数据手艺人 阅读(223) 评论(0) 推荐(0) 编辑
摘要: insert 语法格式为:1. 基本的插入语法:insert overwrite table tablename [partition(partcol1=val1,partclo2=val2)] select_statement;insert into table tablename [partit... 阅读全文
posted @ 2015-07-14 14:57 数据手艺人 阅读(2242) 评论(0) 推荐(0) 编辑
摘要: 我们为你的面试准备选择了 70 个你可能遇到的 shell 脚面问题及解答。了解脚本或至少知道基础知识对系统管理员来说至关重要,它也有助于你在工作环境中自动完成很多任务。在过去的几年里,我们注意到所有的 linux 工作职位都要求脚本技能。1) 如何向脚本传递参数 ?./script argumen... 阅读全文
posted @ 2015-07-14 08:29 数据手艺人 阅读(329) 评论(0) 推荐(0) 编辑
摘要: 最近,我大量阅读了Steve Yegge的文章。其中有一篇叫“Practicing Programming”(练习编程),写成于2005年,读后令我惊讶不已:与你所相信的恰恰相反,单纯地每天埋头于工作并不能算是真正意义上的锻炼——参加会议并不能锻炼你的人际交往能力;回复邮件并不能提高你的打字水平。你... 阅读全文
posted @ 2015-07-13 09:58 数据手艺人 阅读(184) 评论(0) 推荐(0) 编辑
摘要: 网页布局(layout)是CSS的一个重点应用。布局的传统解决方案,基于盒状模型,依赖display属性 +position属性 +float属性。它对于那些特殊布局非常不方便,比如,垂直居中就不容易实现。2009年,W3C提出了一种新的方案—-Flex布局,可以简便、完整、响应式地实现各种页面布局... 阅读全文
posted @ 2015-07-13 09:48 数据手艺人 阅读(257) 评论(0) 推荐(0) 编辑
摘要: 如果你想在你的职业生涯中获得成功,那么你需要的不仅仅是技术技能。成为一个真正优秀的程序员只能让你走到这里。如果想要更上一层楼,那么你必须具备软技能。但是,你怎么知道你缺乏什么软技能,以及你需要学习哪种软技能呢?这里我要推荐一个简单的测验,可用于自我评估软技能,并知道哪些领域可能是你需要学习的。那么,... 阅读全文
posted @ 2015-07-13 09:46 数据手艺人 阅读(213) 评论(0) 推荐(0) 编辑
摘要: 在这篇文章里,我想详细谈下为什么你要避免事务日志(Transaction Log)上的自动增长操作(Auto Growth operations)。很多运行的数据库服务器,对于事务日志,用的都是默认的日志文件大小和自动增长设置。人们有时会很依赖自动增长机制,因为它们刚好能正常工作。当然,如果它正常工... 阅读全文
posted @ 2015-07-13 09:45 数据手艺人 阅读(284) 评论(0) 推荐(0) 编辑
摘要: Hive中metastore(元数据存储)的三种方式:内嵌Derby方式Local方式Remote方式[一]、内嵌Derby方式这个是Hive默认的启动模式,一般用于单元测试,这种存储方式有一个缺点:在同一时间只能有一个进程连接使用数据库。hive-site.xml中jdbc URL、驱动、用户名、... 阅读全文
posted @ 2015-06-02 11:48 数据手艺人 阅读(4093) 评论(0) 推荐(0) 编辑
摘要: 阅读本文章可以带着下面问题:1.与传统数据库对比,找出他们的区别2.熟练写出增删改查(面试必备)创建表:hive> CREATE TABLE pokes (foo INT, bar STRING); Creates a table called pokes with two columns, th... 阅读全文
posted @ 2015-06-02 11:33 数据手艺人 阅读(442) 评论(0) 推荐(0) 编辑
摘要: 1.没有接触,不知道这个事物是什么,所以不会产生任何问题。2.接触了,但是不知道他是什么,反正我每天都在用。3.有一定的了解,不够透彻。那么hive,1.我们对它了解多少?2.它到底是什么?3.hive和hadoop是什么关系?扩展:hbase和hive是什么关系?Hive最初是应Facebook每... 阅读全文
posted @ 2015-06-02 11:29 数据手艺人 阅读(398) 评论(0) 推荐(0) 编辑
摘要: Hive的几种常见的数据导入方式这里介绍四种:(1)、从本地文件系统中导入数据到Hive表;(2)、从HDFS上导入数据到Hive表;(3)、从别的表中查询出相应的数据并导入到Hive表中;(4)、在创建表的时候通过从别的表中查询出相应的记录并插入到所创建的表中。一、从本地文件系统中导入数据到Hiv... 阅读全文
posted @ 2015-06-02 11:22 数据手艺人 阅读(1816) 评论(0) 推荐(0) 编辑
摘要: Hive 是基于Hadoop 构建的一套数据仓库分析系统,它提供了丰富的SQL查询方式来分析存储在Hadoop 分布式文件系统中的数据,可以将结构化的数据文件映射为一张数据库表,并提供完整的SQL查询功能,可以将SQL语句转换为MapReduce任务进行运行,通过自己的SQL 去查询分析需要的内容,... 阅读全文
posted @ 2015-06-02 11:17 数据手艺人 阅读(45096) 评论(1) 推荐(4) 编辑
摘要: 本文主要讲解三个问题: 1 使用Java编写MapReduce程序时,如何向map、reduce函数传递参数。 2 使用Streaming编写MapReduce程序(C/C++, Shell, Python)时,如何向map、reduce脚本传递参数。 3 使用Streaming编写Ma... 阅读全文
posted @ 2015-05-28 17:57 数据手艺人 阅读(9506) 评论(0) 推荐(3) 编辑
摘要: 一、存入数据类型Hbase里面,rowkey是按照字典序进行排序。存储的value值,当用filter进行数据筛选的时候,所用的比较算法也是字典序的。1、当存储的value值是float类型的时候,录入数据可以录入,但是读取出来的数据会存在问题会出问题例如:存入数据的代码:p = new Put(B... 阅读全文
posted @ 2015-05-28 10:35 数据手艺人 阅读(10008) 评论(0) 推荐(0) 编辑