摘要: All Hadoop sub-projects such as Hive, Pig, and HBase support Linux operating system. Therefore, you need to install any Linux flavored OS. The followi 阅读全文
posted @ 2016-07-14 14:24 数据手艺人 阅读(296) 评论(0) 推荐(0) 编辑
摘要: 一、Ganglia简介Ganglia 是 UC Berkeley 发起的一个开源监视项目,设计用于测量数以千计的节点。每台计算机都运行一个收集和发送度量数据(如处理器速度、内存使用量等)的名为 gmond 的守护进程。它将从操作系统和指定主机中收集。接收所有度量数据的主机可以显示这些数据并且可以将这... 阅读全文
posted @ 2015-11-26 17:10 数据手艺人 阅读(746) 评论(0) 推荐(0) 编辑
摘要: Ganglia是一个监控服务器,集群的开源软件,能够用曲线图表现最近一个小时,最近一天,最近一周,最近一月,最近一年的服务器或者集群的cpu负载,内存,网络,硬盘等指标。Ganglia的强大在于:ganglia服务端能够通过一台客户端收集到同一个网段的所有客户端的数据,ganglia集群服务端能够通... 阅读全文
posted @ 2015-11-26 17:00 数据手艺人 阅读(1164) 评论(0) 推荐(0) 编辑
摘要: 向任务传递定制参数获取任务待定的信息生成多个输出与关系数据库交互让输出做全局排序1、向任务传递作业定制的参数在编写Mapper和Reducer时,通常会想让一些地方可以配置。例如第5章的联结程序被固定地写为取第一个数据列作为联结键。如果用户可以在运行时指定某个列作为联结键,就会让程序更具普适性。ha... 阅读全文
posted @ 2015-11-26 12:51 数据手艺人 阅读(946) 评论(0) 推荐(1) 编辑
摘要: Hadoop程序开发的独门绝技在本地,伪分布和全分布模式下调试程序程序输出的完整性检查和回归测试日志和监控性能调优1、开发MapReduce程序[本地模式] 本地模式下的hadoop将所有的运行都放在一个单独的Java虚拟机中完成,并且使用的是本地文件系统(非HDFS)。在本地模式中运行的程序将所... 阅读全文
posted @ 2015-11-25 16:02 数据手艺人 阅读(679) 评论(0) 推荐(1) 编辑
摘要: 链接多个MapReduce作业执行多个数据集的联结生成Bloom filter1、链接MapReduce作业[顺序链接MapReduce作业]mapreduce-1 | mapreduce-2 | mapreduce-3 | ...[具有复杂依赖的MapReduce链接]有时,在复杂数据处理任务中的... 阅读全文
posted @ 2015-11-25 14:47 数据手艺人 阅读(1112) 评论(0) 推荐(1) 编辑
摘要: 基于hadoop的专利数据处理示例MapReduce程序框架用于计数统计的MapReduce基础程序支持用脚本语言编写MapReduce程序的hadoop流式API用于提升性能的Combiner1、获取专利数据集获取网址:http://www.nber.org/patents/使用数据集:cite7... 阅读全文
posted @ 2015-11-24 16:34 数据手艺人 阅读(823) 评论(0) 推荐(0) 编辑
摘要: 管理HDFS中的文件分析MapReduce框架中的组件读写输入输出数据1、HDFS文件操作[命令行方式]Hadoop的文件命令采取的形式为:hadoop fs -cmd 其中,cmd是具体的文件命令,而是一组数目可变的参数。(1)添加文件和目录 HDFS有一个默认的工作目录/user/$USER,... 阅读全文
posted @ 2015-11-24 11:14 数据手艺人 阅读(826) 评论(0) 推荐(1) 编辑
摘要: 什么是PythonPython的起源Python的特点下载Python安装Python运行PythonPython文档比较Python其他实现1、什么是PythonPython是一门优雅而健壮的编程语言,它继承了传统编译语言的强大性和通用性,同时也借鉴了简单脚本和解释语言的易用性。它可以帮你完成工作... 阅读全文
posted @ 2015-11-23 23:04 数据手艺人 阅读(299) 评论(0) 推荐(0) 编辑
摘要: Hadoop的结构组成安装Hadoop及其3种工作模式:单机、伪分布和全分布用于监控Hadoop安装的Web工具1、Hadoop的构造模块(1)NameNode(名字节点)Hadoop在分布式计算和分布式存储中都采用了主/从结构。NameNode位于HDFS的主端,它指导从端的DataNode执行底... 阅读全文
posted @ 2015-11-23 17:18 数据手艺人 阅读(677) 评论(0) 推荐(0) 编辑
摘要: 编写可扩展、分布式的数据密集型程序和基础知识理解Hadoop和MapReduce编写和运行一个基本的MapReduce程序1、什么是HadoopHadoop是一个开源的框架,可编写和运行分布式应用处理大规模数据。Hadoop与众不同之处在于以下几点:方便——Hadoop运行在由一般商用机器构成的大型... 阅读全文
posted @ 2015-11-23 15:34 数据手艺人 阅读(1504) 评论(0) 推荐(1) 编辑
摘要: 一【用户】sys\system\sysman\scott1、查看数据库所有用户(dba_users数据字典):select username from dba_users;2、查看当前用户:show user;3、启用(解锁)数据库用户:alter user username account unl... 阅读全文
posted @ 2015-07-23 17:47 数据手艺人 阅读(529) 评论(0) 推荐(0) 编辑
摘要: 比较两个字符串是否相等的办法是:if [ "$test"x = "test"x ]; then这里的关键有几点:1 使用单个等号2 注意到等号两边各有一个空格:这是unix shell的要求3 注意到"$test"x最后的x,这是特意安排的,因为当$test为空的时候,上面的表达式就变成了x = t... 阅读全文
posted @ 2015-07-21 16:06 数据手艺人 阅读(34659) 评论(0) 推荐(1) 编辑
摘要: 在写程序时,会用到条件判断,测试条件是否成立。很多时候,判断条件是多个的,这个时候需要用到逻辑操作符。shell脚本中常用的有哪些逻辑操作符呢?1、逻辑与: -a格式: conditon1 -a condition2结果:codition1和conditon2 都为真,才返回真,否则返回假。演示:测... 阅读全文
posted @ 2015-07-21 16:05 数据手艺人 阅读(515) 评论(0) 推荐(0) 编辑
摘要: 问题:对于’1,2,3,4,5’这样的字符串输出采用,分隔开的12345特征:在字符串中没有空格解决方法1:[plain]view plaincopy#!/bin/bashvar=’1,2,3,4,5’var=${var//,/}#这里是将var中的,替换为空格forelementin$vardoe... 阅读全文
posted @ 2015-07-21 16:04 数据手艺人 阅读(13254) 评论(0) 推荐(0) 编辑
摘要: Java代码如下:FileSystemfs=FileSystem.get(conf);in=fs.open(newPath("hdfs://192.168.130.54:19000/user/hmail/output/part-00000"));抛出异常如下:Exceptioninthread"ma... 阅读全文
posted @ 2015-07-16 10:40 数据手艺人 阅读(5917) 评论(0) 推荐(0) 编辑
摘要: 在Linux下安装Oracle软件之前,有相当工作需要准备,包括建立用户、配置内核参数、配置资源限制参数、配置Oracle用户环境等,十分繁琐。即便十分熟悉,也需要花费一定的精力来准备。说白了,做这些事情有点类似于低水平重复建设,虽没有多大技术含量,却又不得不做。现在将这些准备工作做成脚本,这样可以... 阅读全文
posted @ 2015-07-15 15:37 数据手艺人 阅读(401) 评论(0) 推荐(0) 编辑
摘要: 最近工作中,需对数据进行比对。在此之前,则需将数据导出。想到以前用过的spool命令,实验一番,分享如下:需建SQL执行脚本,内容如下:set feedback off --关掉行数显示set heading off --关掉标题行set termout off --关掉终端显示set ec... 阅读全文
posted @ 2015-07-15 15:28 数据手艺人 阅读(539) 评论(0) 推荐(0) 编辑
摘要: 在Oracle OCP考试中,相当一部分知识点涉及到对于Oracle常见函数的考查。尽管Oracle官方文档SQL Language Reference中Functions一章内列举了所有Oracle自带函数,但如果要系统的看一遍,还是要花费相当的精力,更何况还是英文呢。如果碰到一个不熟悉的,就查一... 阅读全文
posted @ 2015-07-15 15:21 数据手艺人 阅读(491) 评论(0) 推荐(0) 编辑
摘要: 因為開發需求,把對照表留下來一下。Chr(0)NullChr(29)分组符Chr(38)&Chr(48)0Chr(8)退格Chr(30)記錄分離符號Chr(39)‘Chr(49)1Chr(9)TabChr(31)單元分隔符號Chr(40)(Chr(50)2Chr(10)换行Chr(32)空格SPAC... 阅读全文
posted @ 2015-07-15 15:10 数据手艺人 阅读(2685) 评论(0) 推荐(0) 编辑