随笔 - 2228  文章 - 4  评论 - 371  阅读 - 1109万

随笔分类 -  hadoop

1 2 下一页
hdfs,flume,hive,spark,storm
用sqoop将mysql的数据导入到hive表
摘要:一、先将mysql一张表的数据用sqoop导入到hdfs 1.1、先在mysql中准备一张测试用的表 下面 将 user_info表中的前100条数据导 导出来 只要id user_name和 age 这3个字段,数据存在hdfs 目录 /tmp/sqoop/user_info下。 阅读全文
posted @ 2018-06-19 22:57 duanxz 阅读(378) 评论(0) 推荐(0) 编辑
HDFS之五:Hadoop 拒绝远程 9000 端口访问
摘要:最近学习Hadoop 时发现在本机访问 hadoop 9000 端口没有问题,但是远程机器访问 9000端口时不能访问,通过telnet 命令诊断发现发现无法访问端口,经过网上搜索解决方案结合自己实践,总结解决办法一般有以下几点。 首先,利用netstat -tpnl查看的端口开放情况 下图中900 阅读全文
posted @ 2016-01-19 17:06 duanxz 阅读(12813) 评论(0) 推荐(0) 编辑
HDFS之四:HDFS原理解析(总体架构,读写操作流程)
摘要:前言 HDFS 是一个能够面向大规模数据使用的,可进行扩展的文件存储与传递系统。是一种允许文件通过网络在多台主机上分享的文件系统,可让多机器上的多用户分享文件和 存储空间。让实际上是通过网络来访问文件的动作,由程序与用户看来,就像是访问本地的磁盘一般。即使系统中有某些节点脱机,整体来说系统仍然可以持 阅读全文
posted @ 2016-01-05 20:56 duanxz 阅读(4530) 评论(0) 推荐(0) 编辑
HDFS之三:hdfs参数配置详解
摘要:1、hdfs-site.xml 参数配置 – dfs.name.dir – NameNode 元数据存放位置 – 默认值:使用core-site.xml中的hadoop.tmp.dir/dfs/name – dfs.block.size – 对于新文件切分的大小,单位byte。默认是64M,建议是1 阅读全文
posted @ 2016-01-05 19:27 duanxz 阅读(27035) 评论(0) 推荐(3) 编辑
Hadoop安装全教程 Ubuntu14.04+Java1.8.0+Hadoop2.7.6
摘要:最近听了一个关于大数据的大牛的经验分享,在分享的最后大牛给我们一个他之前写好的关于大数据和地理应用demo。这个demo需要在Linux环境上搭建Hadoop平台。这次就简单的分享一下我关于在 Linux虚拟机上搭建Hadoop平台的一些经验和遇到的一些问题以及问题的解决办法。 首先我们这次搭建的环 阅读全文
posted @ 2015-10-15 16:41 duanxz 阅读(701) 评论(0) 推荐(0) 编辑
Hbase之三:Hbase Shell使用入门
摘要:HBase 为用户提供了一个非常方便的使用方式, 我们称之为“HBase Shell”。HBase Shell 提供了大多数的 HBase 命令, 通过 HBase Shell 用户可以方便地创建、删除及修改表, 还可以向表中添加数据、列出表中的相关信息等。 删除键问题: 一、Xshell:写错HB 阅读全文
posted @ 2015-09-01 14:52 duanxz 阅读(3354) 评论(0) 推荐(0) 编辑
hadoop之一:概念和整体架构
摘要:什么是hadoop? Apache Hadoop是一款支持数据密集型分布式应用并以Apache 2.0许可协议发布的开源软件框架。它支持在商品硬件构建的大型集群上运行的应用程序。Hadoop是根据Google公司发表的MapReduce和Google档案系统的论文自行实作而成。 Hadoop框架透明 阅读全文
posted @ 2015-09-01 11:39 duanxz 阅读(1255) 评论(0) 推荐(0) 编辑
HBase之六:HBase的RowKey设计
摘要:数据模型 我们可以将一个表想象成一个大的映射关系,通过行健、行健+时间戳或行键+列(列族:列修饰符),就可以定位特定数据,Hbase是稀疏存储数据的,因此某些列可以是空白的, Row Key Time Stamp Column Family:c1 Column Family:c2 列 值 列 值 r 阅读全文
posted @ 2015-07-20 10:44 duanxz 阅读(36016) 评论(0) 推荐(1) 编辑
HBase之四--(3):hbasehbase分页查询
摘要:为了广大技术爱好者学习netty,在这里帮新浪微博@nettying宣传下他出版的新书 <netty权威指南>@nettying兄在华为NIO实践多年,这本书是他的技术和经验的一个结晶。Netty NIO反应堆线程模型,零copy,多包,半包处理,如果你对这些感兴趣,赶紧关注新浪微博@nettyin 阅读全文
posted @ 2015-05-22 16:04 duanxz 阅读(7547) 评论(3) 推荐(0) 编辑
HBase之一:HBase原理和设计
摘要:一、简介 HBase —— Hadoop Database的简称,Google BigTable的另一种开源实现方式,从问世之初,就为了解决用大量廉价的机器高速存取海量数据、实现数据分布式存储提供可靠的方案。从功能上来讲,HBase不折不扣是一个数据库,与我们熟悉的Oracle、MySQL、MSSQ 阅读全文
posted @ 2015-05-20 09:14 duanxz 阅读(2828) 评论(0) 推荐(3) 编辑
HDFS之二:HDFS文件系统JavaAPI接口
摘要:HDFS是存取数据的分布式文件系统,HDFS文件操作常有两种方式,一种是命令行方式,即Hadoop提供了一套与Linux文件命令类似的命令行工具。HDFS操作之一:hdfs命令行操作 另一种是JavaAPI,即利用Hadoop的Java库,采用编程的方式操作HDFS的文件。 要在java工程中操作h 阅读全文
posted @ 2015-05-19 09:42 duanxz 阅读(1364) 评论(0) 推荐(0) 编辑
HBase之四--(1):Java操作Hbase进行建表、删表以及对数据进行增删改查,条件查询
摘要:1、搭建环境 新建JAVA项目,添加的包有: 有关Hadoop的hadoop-core-0.20.204.0.jar 有关Hbase的hbase-0.90.4.jar、hbase-0.90.4-tests.jar以及Hbase资源包中lib目录下的所有jar包 2、主要程序 注意:可能大家没看到更新 阅读全文
posted @ 2015-05-19 09:34 duanxz 阅读(1234) 评论(0) 推荐(0) 编辑
HBase之七:事务和并发控制机制原理
摘要:作为一款优秀的非内存数据库,HBase和传统数据库一样提供了事务的概念,只是HBase的事务是行级事务,可以保证行级数据的原子性、一致性、隔离性以及持久性,即通常所说的ACID特性。为了实现事务特性,HBase采用了各种并发控制策略,包括各种锁机制、MVCC机制等。本文首先介绍HBase的两种基于锁 阅读全文
posted @ 2015-05-19 09:22 duanxz 阅读(3801) 评论(0) 推荐(0) 编辑
HBase源码分析:HTable put过程
摘要:HBase版本:0.94.15-cdh4.7.0 在 HBase中,大部分的操作都是在RegionServer完成的,Client端想要插入、删除、查询数据都需要先找到相应的 RegionServer。什么叫相应的RegionServer?就是管理你要操作的那个Region的RegionServer 阅读全文
posted @ 2015-05-18 19:53 duanxz 阅读(2261) 评论(1) 推荐(0) 编辑
HBase之四--(2):spring hadoop 访问hbase
摘要:1、 环境准备: Maven Eclipse Java Spring 2、 Maven pom.xml配置 3、 Spring和hadoop、hbase相关配置文件 其中标红的是spring hadoop xml命名空间配置。 Hadoop hbase相关配置文件如下: 对应的properties如 阅读全文
posted @ 2015-05-18 19:22 duanxz 阅读(1340) 评论(0) 推荐(0) 编辑
HBase之八--(1):HBase二级索引的设计(案例讲解)
摘要:摘要 最近做的一个项目涉及到了多条件的组合查询,数据存储用的是HBase,恰恰HBase对于这种场景的查询特别不给力,一般HBase的查询都是通过RowKey(要把多条件组合查询的字段都拼接在RowKey中显然不太可能),或者全表扫描再结合过滤器筛选出目标数据(太低效),所以通过设计HBase的二级 阅读全文
posted @ 2014-01-07 10:28 duanxz 阅读(958) 评论(0) 推荐(0) 编辑
HBase之五:hbase的region分区
摘要:一、Region 概念 Region是表获取和分布的基本元素,由每个列族的一个Store组成。对象层级图如下: Table (HBase table) Region (Regions for the table) Store (Store per ColumnFamily for each Regi 阅读全文
posted @ 2013-06-25 13:10 duanxz 阅读(61743) 评论(4) 推荐(4) 编辑
HBase之二:Hbase优化
摘要:1. 预先分区 默认情况下,在创建 HBase 表的时候会自动创建一个 Region 分区,当导入数据的时候,所有的 HBase 客户端都向这一个 Region 写数据,直到这个 Region 足够大了才进行切分。一种可以加快批量写入速度的方法是通过预先创建一些空的 Regions,这样当数据写入  阅读全文
posted @ 2013-06-25 11:20 duanxz 阅读(2139) 评论(0) 推荐(1) 编辑
HBase之八--(2):HBase二级索引之Phoenix
摘要:1. 介绍 Phoenix 是 Salesforce.com 开源的一个 Java 中间件,可以让开发者在Apache HBase 上执行 SQL 查询。Phoenix完全使用Java编写,代码位于 GitHub 上,并且提供了一个客户端可嵌入的 JDBC 驱动。 根据项目所述,Phoenix 被 阅读全文
posted @ 2013-06-24 16:32 duanxz 阅读(1545) 评论(0) 推荐(0) 编辑
HBase之八--(3):Hbase 布隆过滤器BloomFilter介绍
摘要:布隆过滤器( Bloom filters) 数据块索引提供了一个有效的方法,在访问一个特定的行时用来查找应该读取的HFile的数据块。但是它的效用是有限的。HFile数据块的默认大小是64KB,这个大小不能调整太多。 如果你要查找一个短行,只在整个数据块的起始行键上建立索引无法给你细粒度的索引信息。 阅读全文
posted @ 2013-06-18 09:05 duanxz 阅读(2394) 评论(1) 推荐(2) 编辑

1 2 下一页
< 2025年3月 >
23 24 25 26 27 28 1
2 3 4 5 6 7 8
9 10 11 12 13 14 15
16 17 18 19 20 21 22
23 24 25 26 27 28 29
30 31 1 2 3 4 5

点击右上角即可分享
微信分享提示