hadoop - 随笔分类 - duanxz

用sqoop将mysql的数据导入到hive表

摘要：一、先将mysql一张表的数据用sqoop导入到hdfs 1.1、先在mysql中准备一张测试用的表下面将 user_info表中的前100条数据导导出来只要id user_name和 age 这3个字段，数据存在hdfs 目录 /tmp/sqoop/user_info下。阅读全文

posted @ 2018-06-19 22:57 duanxz 阅读(378) 评论(0) 推荐(0) 编辑

HDFS之五：Hadoop 拒绝远程 9000 端口访问

摘要：最近学习Hadoop 时发现在本机访问 hadoop 9000 端口没有问题，但是远程机器访问 9000端口时不能访问，通过telnet 命令诊断发现发现无法访问端口，经过网上搜索解决方案结合自己实践，总结解决办法一般有以下几点。首先，利用netstat -tpnl查看的端口开放情况下图中900 阅读全文

posted @ 2016-01-19 17:06 duanxz 阅读(12813) 评论(0) 推荐(0) 编辑

HDFS之四：HDFS原理解析（总体架构，读写操作流程）

摘要：前言 HDFS 是一个能够面向大规模数据使用的，可进行扩展的文件存储与传递系统。是一种允许文件通过网络在多台主机上分享的文件系统，可让多机器上的多用户分享文件和存储空间。让实际上是通过网络来访问文件的动作，由程序与用户看来，就像是访问本地的磁盘一般。即使系统中有某些节点脱机，整体来说系统仍然可以持阅读全文

posted @ 2016-01-05 20:56 duanxz 阅读(4530) 评论(0) 推荐(0) 编辑

HDFS之三：hdfs参数配置详解

摘要：1、hdfs-site.xml 参数配置 – dfs.name.dir – NameNode 元数据存放位置 – 默认值：使用core-site.xml中的hadoop.tmp.dir/dfs/name – dfs.block.size – 对于新文件切分的大小，单位byte。默认是64M,建议是1 阅读全文

posted @ 2016-01-05 19:27 duanxz 阅读(27035) 评论(0) 推荐(3) 编辑

Hadoop安装全教程 Ubuntu14.04+Java1.8.0+Hadoop2.7.6

摘要：最近听了一个关于大数据的大牛的经验分享，在分享的最后大牛给我们一个他之前写好的关于大数据和地理应用demo。这个demo需要在Linux环境上搭建Hadoop平台。这次就简单的分享一下我关于在 Linux虚拟机上搭建Hadoop平台的一些经验和遇到的一些问题以及问题的解决办法。首先我们这次搭建的环阅读全文

posted @ 2015-10-15 16:41 duanxz 阅读(701) 评论(0) 推荐(0) 编辑

Hbase之三：Hbase Shell使用入门

摘要：HBase 为用户提供了一个非常方便的使用方式, 我们称之为“HBase Shell”。HBase Shell 提供了大多数的 HBase 命令, 通过 HBase Shell 用户可以方便地创建、删除及修改表, 还可以向表中添加数据、列出表中的相关信息等。删除键问题：一、Xshell：写错HB 阅读全文

posted @ 2015-09-01 14:52 duanxz 阅读(3354) 评论(0) 推荐(0) 编辑

hadoop之一：概念和整体架构

摘要：什么是hadoop？ Apache Hadoop是一款支持数据密集型分布式应用并以Apache 2.0许可协议发布的开源软件框架。它支持在商品硬件构建的大型集群上运行的应用程序。Hadoop是根据Google公司发表的MapReduce和Google档案系统的论文自行实作而成。 Hadoop框架透明阅读全文

posted @ 2015-09-01 11:39 duanxz 阅读(1255) 评论(0) 推荐(0) 编辑

HBase之六：HBase的RowKey设计

摘要：数据模型我们可以将一个表想象成一个大的映射关系，通过行健、行健+时间戳或行键+列（列族：列修饰符），就可以定位特定数据，Hbase是稀疏存储数据的，因此某些列可以是空白的， Row Key Time Stamp Column Family:c1 Column Family:c2 列值列值 r 阅读全文

posted @ 2015-07-20 10:44 duanxz 阅读(36016) 评论(0) 推荐(1) 编辑

HBase之四--(3)：hbasehbase分页查询

摘要：为了广大技术爱好者学习netty，在这里帮新浪微博@nettying宣传下他出版的新书 <netty权威指南>@nettying兄在华为NIO实践多年，这本书是他的技术和经验的一个结晶。Netty NIO反应堆线程模型，零copy，多包，半包处理，如果你对这些感兴趣，赶紧关注新浪微博@nettyin 阅读全文

posted @ 2015-05-22 16:04 duanxz 阅读(7547) 评论(3) 推荐(0) 编辑

HBase之一：HBase原理和设计

摘要：一、简介 HBase —— Hadoop Database的简称，Google BigTable的另一种开源实现方式，从问世之初，就为了解决用大量廉价的机器高速存取海量数据、实现数据分布式存储提供可靠的方案。从功能上来讲，HBase不折不扣是一个数据库，与我们熟悉的Oracle、MySQL、MSSQ 阅读全文

posted @ 2015-05-20 09:14 duanxz 阅读(2828) 评论(0) 推荐(3) 编辑

HDFS之二：HDFS文件系统JavaAPI接口

摘要：HDFS是存取数据的分布式文件系统，HDFS文件操作常有两种方式，一种是命令行方式，即Hadoop提供了一套与Linux文件命令类似的命令行工具。HDFS操作之一：hdfs命令行操作另一种是JavaAPI，即利用Hadoop的Java库，采用编程的方式操作HDFS的文件。要在java工程中操作h 阅读全文

posted @ 2015-05-19 09:42 duanxz 阅读(1364) 评论(0) 推荐(0) 编辑

HBase之四--(1)：Java操作Hbase进行建表、删表以及对数据进行增删改查，条件查询

摘要：1、搭建环境新建JAVA项目，添加的包有: 有关Hadoop的hadoop-core-0.20.204.0.jar 有关Hbase的hbase-0.90.4.jar、hbase-0.90.4-tests.jar以及Hbase资源包中lib目录下的所有jar包 2、主要程序注意：可能大家没看到更新阅读全文

posted @ 2015-05-19 09:34 duanxz 阅读(1234) 评论(0) 推荐(0) 编辑

HBase之七：事务和并发控制机制原理

摘要：作为一款优秀的非内存数据库，HBase和传统数据库一样提供了事务的概念，只是HBase的事务是行级事务，可以保证行级数据的原子性、一致性、隔离性以及持久性，即通常所说的ACID特性。为了实现事务特性，HBase采用了各种并发控制策略，包括各种锁机制、MVCC机制等。本文首先介绍HBase的两种基于锁阅读全文

posted @ 2015-05-19 09:22 duanxz 阅读(3801) 评论(0) 推荐(0) 编辑

HBase源码分析：HTable put过程

摘要：HBase版本：0.94.15-cdh4.7.0 在 HBase中，大部分的操作都是在RegionServer完成的，Client端想要插入、删除、查询数据都需要先找到相应的 RegionServer。什么叫相应的RegionServer？就是管理你要操作的那个Region的RegionServer 阅读全文

posted @ 2015-05-18 19:53 duanxz 阅读(2261) 评论(1) 推荐(0) 编辑

HBase之四--(2)：spring hadoop 访问hbase

摘要：1、环境准备： Maven Eclipse Java Spring 2、 Maven pom.xml配置 3、 Spring和hadoop、hbase相关配置文件其中标红的是spring hadoop xml命名空间配置。 Hadoop hbase相关配置文件如下：对应的properties如阅读全文

posted @ 2015-05-18 19:22 duanxz 阅读(1340) 评论(0) 推荐(0) 编辑

HBase之八--(1)：HBase二级索引的设计(案例讲解)

摘要：摘要最近做的一个项目涉及到了多条件的组合查询，数据存储用的是HBase，恰恰HBase对于这种场景的查询特别不给力，一般HBase的查询都是通过RowKey(要把多条件组合查询的字段都拼接在RowKey中显然不太可能)，或者全表扫描再结合过滤器筛选出目标数据(太低效)，所以通过设计HBase的二级阅读全文

posted @ 2014-01-07 10:28 duanxz 阅读(958) 评论(0) 推荐(0) 编辑

HBase之五：hbase的region分区

摘要：一、Region 概念 Region是表获取和分布的基本元素，由每个列族的一个Store组成。对象层级图如下： Table (HBase table) Region (Regions for the table) Store (Store per ColumnFamily for each Regi 阅读全文

posted @ 2013-06-25 13:10 duanxz 阅读(61743) 评论(4) 推荐(4) 编辑

HBase之二：Hbase优化

摘要：1. 预先分区默认情况下，在创建 HBase 表的时候会自动创建一个 Region 分区，当导入数据的时候，所有的 HBase 客户端都向这一个 Region 写数据，直到这个 Region 足够大了才进行切分。一种可以加快批量写入速度的方法是通过预先创建一些空的 Regions，这样当数据写入阅读全文

posted @ 2013-06-25 11:20 duanxz 阅读(2139) 评论(0) 推荐(1) 编辑

HBase之八--(2)：HBase二级索引之Phoenix

摘要：1. 介绍 Phoenix 是 Salesforce.com 开源的一个 Java 中间件，可以让开发者在Apache HBase 上执行 SQL 查询。Phoenix完全使用Java编写，代码位于 GitHub 上，并且提供了一个客户端可嵌入的 JDBC 驱动。根据项目所述，Phoenix 被阅读全文

posted @ 2013-06-24 16:32 duanxz 阅读(1545) 评论(0) 推荐(0) 编辑

HBase之八--(3)：Hbase 布隆过滤器BloomFilter介绍

摘要：布隆过滤器（ Bloom filters）数据块索引提供了一个有效的方法，在访问一个特定的行时用来查找应该读取的HFile的数据块。但是它的效用是有限的。HFile数据块的默认大小是64KB，这个大小不能调整太多。如果你要查找一个短行，只在整个数据块的起始行键上建立索引无法给你细粒度的索引信息。阅读全文

posted @ 2013-06-18 09:05 duanxz 阅读(2394) 评论(1) 推荐(2) 编辑

随笔分类 - hadoop

搜索

常用链接

我的标签

随笔分类

随笔档案

文章分类

阅读排行榜

评论排行榜

推荐排行榜

最新评论