文章分类 -  Hadoop

1 2 3 4 下一页

hadoop:ls: `.': No such file or directory
摘要:hadoop fs -ls,添加路径 hadoop fs -ls / 阅读全文

posted @ 2017-06-30 16:31 1130136248 阅读(87) 评论(0) 推荐(0) 编辑

大数据博客
摘要:https://www.iteblog.com/ 阅读全文

posted @ 2017-01-18 21:38 1130136248 阅读(169) 评论(0) 推荐(0) 编辑

Hadoop MapReduce进阶 使用DataJoin包实现Join
摘要:概念: Hadoop有一个叫DataJoin的包为Data Join提供相应的框架。它的Jar包存在于contrib/datajoin/hadoop-*-datajoin。 为区别于其他的data join技术,我们称其为reduce-side join。(因为我们在reducer上作大多数的工作) 阅读全文

posted @ 2016-11-29 22:02 1130136248 阅读(156) 评论(0) 推荐(0) 编辑

hadoop中MapReduce多种join实现实例分析
摘要:原创作品,允许转载,转载时请务必以超链接形式标明文章 原始出处 、作者信息和本声明。否则将追究法律责任。http://zengzhaozheng.blog.51cto.com/8219051/1392961 一、概述 对 于RDBMS中的join操作大伙一定非常熟悉,写sql的时候要十分注意细节,稍 阅读全文

posted @ 2016-11-29 21:58 1130136248 阅读(138) 评论(0) 推荐(0) 编辑

列式存储与行式存储
摘要:以前不是特别明白列式存储和行式存储到底有什么区别,对于突然蹦出来的BigTable、HBase、Cassandra这些NoSQL数据库凭什么比MySQL集群,Oracle在分析存储上的强大?思来可以这样说说。 A. 存储 传统RDBMS以行单位做数据存储(字段为空则赋值为‘NULL'),列式存储数据 阅读全文

posted @ 2016-10-16 17:32 1130136248 阅读(213) 评论(0) 推荐(0) 编辑

几张图看懂列式存储
摘要:最近看到一篇很好资料,里面三言两语配上几个图就把列式存储(Column-based Storage)讲明白了,牛啊!最喜欢的就是这种浅显易懂就把背景知识讲得明明白白,而不是长篇大论的讲概念。 1 为什么要按列存储 列式存储(Columnar or column-based)是相对于传统关系型数据库的 阅读全文

posted @ 2016-10-16 17:31 1130136248 阅读(138) 评论(0) 推荐(0) 编辑

hadoop入门--简单的MapReduce案例
摘要:目录[-] 分析MapReduce执行过程 Mapper任务的执行过程详解 Reducer任务的执行过程详解 键值对的编号 例子:求每年最高气温 对分析的验证 分析MapReduce执行过程 Mapper任务的执行过程详解 Reducer任务的执行过程详解 键值对的编号 例子:求每年最高气温 对分析 阅读全文

posted @ 2016-06-15 18:06 1130136248 阅读(5456) 评论(2) 推荐(0) 编辑

一些Hadoop面试题及答案
摘要:1.Hadoop集群可以运行的3个模式? 单机(本地)模式 伪分布式模式 全分布式模式 2. 单机(本地)模式中的注意点? 在单机模式(standalone)中不会存在守护进程,所有东西都运行在一个JVM上。这里同样没有DFS,使用的是本地文件系统。单机模式适用于开发过程中运行MapReduce程序 阅读全文

posted @ 2016-05-23 11:34 1130136248 阅读(12980) 评论(0) 推荐(0) 编辑

MapReduce Hbase 实现词频统计(写入练习)
摘要:package mapred.hbase;import java.io.IOException;import java.util.StringTokenizer;import org.apache.hadoop.io.IntWritable;import org.apache.hadoop.io.T 阅读全文

posted @ 2016-05-18 15:38 1130136248 阅读(610) 评论(0) 推荐(0) 编辑

大数据架构师基础:hadoop家族,Cloudera产品系列等各种技术
摘要:大数据我们都知道hadoop,可是还会各种各样的技术进入我们的视野:Spark,Storm,impala,让我们都反映不过来。为了能够更好的架构 大数据项目,这里整理一下,供技术人员,项目经理,架构师选择合适的技术,了解大数据各种技术之间的关系,选择合适的语言。 我们可以带着下面问题来阅读本文章: 阅读全文

posted @ 2016-05-18 14:10 1130136248 阅读(245) 评论(0) 推荐(0) 编辑

日志 hadoop2.4汇总:hadoop2.4插件下载、完全分布式、伪分布、eclipse插件开发大全
摘要:hadoop2.4版本的发布,很多童鞋都想了解其新特性:它们做了哪些改变?该如何伪分布、完全分布安装?它们和前面版本有什么不同?这里做一个汇总一、hadoop2.4的改进Hadoop 2.4.0版本的改进 http://www.aboutyun.com/thread-7714-1-1.html阐述了 阅读全文

posted @ 2016-05-18 14:09 1130136248 阅读(176) 评论(0) 推荐(0) 编辑

使用配置hadoop中常用的Linux(ubuntu)命令
摘要:生成key: $ ssh-keygen -t dsa -P '' -f ~/.ssh/id_dsa $ cat ~/.ssh/id_dsa.pub >> ~/.ssh/authorized_keys -t 密钥类型可以用 -t 选项指定。如果没有指定则默认生成用于SSH-2的RSA密钥。 -f fi 阅读全文

posted @ 2016-05-18 14:08 1130136248 阅读(171) 评论(0) 推荐(0) 编辑

Hadoop开发常用的InputFormat和OutputFormat
摘要:在用hadoop的streaming读数据时,如果输入是sequence file,如果用“-inputformat org.apache.hadoop.mapred.SequenceFileInputFormat”配置读的话,读入的数据显示的话为乱码,其实是因为读入的还是sequence file 阅读全文

posted @ 2016-04-13 10:09 1130136248 阅读(169) 评论(0) 推荐(0) 编辑

Hadoop安全模式的理解
摘要:安全模式异常: 在hadoop的实践过程中,系统启动的时候去修改和删除文件有时候会报以下错误: org.apache.hadoop.dfs.SafeModeException: Cannotdelete/user/hadoop/input. Name node is in safe mode.从字面 阅读全文

posted @ 2016-04-12 21:55 1130136248 阅读(2293) 评论(0) 推荐(0) 编辑

lucene,solr,nutch,hadoop的区别和联系
摘要:apache lucene是apache下一个著名的开源搜索引擎内核,基于Java技术,处理索引,拼写检查,点击高亮和其他分析,分词等技术。 nutch和solr原来都是lucene下的子项目。但后来nutch独立成为独立项目。nutch是2004年由俄勒冈州立大学开源实验室模仿google搜索引擎 阅读全文

posted @ 2016-04-06 19:16 1130136248 阅读(257) 评论(0) 推荐(0) 编辑

Hadoop与Lucene和Nutch的关系
摘要:Hadoop中实现了 Google的GFS和MapReduce算法,使Hadoop成为了一个分布式的计算平台。Hadoop不仅是一个用于存储的分布式文件系统,而且是设计用来在由通用计算设备组成的大型集群上执行分布式应用的框架。Lucene是一个Java高性能全文索引引擎工具包可以方便的嵌入到各种实际 阅读全文

posted @ 2016-04-06 19:15 1130136248 阅读(184) 评论(0) 推荐(0) 编辑

Hadoop MapReduce 二次排序原理及其应用
摘要:1、首先说一下工作原理: 2、二次排序 3、具体步骤: 1 自定义key。 2 由于key是自定义的,所以还需要自定义一下类: 4 代码: 5 测试需求: 6 测试数据与结果: 7 原理图(点击查看大图): 8、推荐阅读: 9、REF: 1、首先说一下工作原理: 2、二次排序 3、具体步骤: 1 自 阅读全文

posted @ 2016-04-03 14:41 1130136248 阅读(366) 评论(0) 推荐(0) 编辑

Hadoop MapReduce工作详细流程(Partitioner/SortComparator/GroupingComparator)
摘要:map阶段 map阶段 1. 使用job.setInputFormatClass(TextInputFormat)做为输入格式。注意输出应该符合自定义Map中定义的输出。 2. 进入Mapper的map()方法,生成一个List。 3. 在map阶段的最后,会先调用job.setPartitione 阅读全文

posted @ 2016-04-03 14:34 1130136248 阅读(311) 评论(0) 推荐(0) 编辑

对Map/Reduce分区与分组的实例分析
摘要:201001 1003 abc 201002 1005 def 201003 1006 ghi 201004 1003 jkl 201005 1004 mno 201006 1005 pqr 复制代码 201001 1003 abc 201002 1005 def 201003 1006 ghi 2 阅读全文

posted @ 2016-04-03 14:28 1130136248 阅读(204) 评论(0) 推荐(0) 编辑

Hadoop中Writable和WritableComparable区别
摘要:Hadoop中Writable和WritableComparable区别 Hadoop的key和value的传递序列化需要涉及两个重要的接口Writable和WritableComparable 1> Writable: void write(DataOutput out) throws IOExc 阅读全文

posted @ 2016-04-01 19:57 1130136248 阅读(134) 评论(0) 推荐(0) 编辑

1 2 3 4 下一页
< 2025年3月 >
23 24 25 26 27 28 1
2 3 4 5 6 7 8
9 10 11 12 13 14 15
16 17 18 19 20 21 22
23 24 25 26 27 28 29
30 31 1 2 3 4 5

导航

统计

点击右上角即可分享
微信分享提示