hadoop读书笔记 - 随笔分类 - Aviva_ye

[hadoop读书笔记] 第十五章 sqoop1.4.6小实验 - 将mysq数据导入hive

摘要：安装hive 1、下载hive-2.1.1（搭配hadoop版本为2.7.3） 2、解压到文件夹下 /wdcloud/app/hive-2.1.1 3、配置环境变量 4、在mysql上创建元数据库hive_metastore编码选latin，并授权 5、新建hive-site.xml，内容如下： < 阅读全文

posted @ 2017-01-24 16:53 Aviva_ye 阅读(1771) 评论(0) 推荐(0) 编辑

[hadoop读书笔记] 第十五章 sqoop1.4.6小实验 - 将mysq数据导入HBASE

摘要：导入命令说明：--connect jdbc:mysql://192.168.200.250:3306/sqoop 表示远程或者本地 Mysql 服务的URI，3306是Mysql默认监听端口， sqoop 是数据库，若是其他数据库，如Oracle,只需修改URI即可。--table widgets 阅读全文

posted @ 2017-01-24 15:10 Aviva_ye 阅读(398) 评论(0) 推荐(0) 编辑

[hadoop读书笔记] 第十五章 sqoop1.4.6小实验 - 数据在mysq和hdfs之间的相互转换

摘要：P573 从mysql导入数据到hdfs 第一步：在mysql中创建待导入的数据 1、创建数据库并允许所有用户访问该数据库 mysql -h 192.168.200.250 -u root -p 2、创建表widgets 3、导入测试数据第二步：执行sqoop导入命令缺少mysql连接器先导入阅读全文

posted @ 2017-01-24 14:19 Aviva_ye 阅读(1961) 评论(0) 推荐(0) 编辑

[hadoop读书笔记] 第十章管理Hadoop集群

摘要：P375 Hadoop管理工具 dfsadmin - 查询HDFS状态信息，管理HDFS。 bin/hadoop dfsadmin -help 查询HDFS基本信息 fsck - 检查HDFS中文件的健康状况，查找在所有datanode中都确实的块以及过多或过少副本的块 [root@hadoop-a 阅读全文

posted @ 2017-01-23 15:15 Aviva_ye 阅读(222) 评论(0) 推荐(0) 编辑

[hadoop读书笔记] 第九章构建Hadoop集群

摘要：P322 运行datanode和tasktracker的典型机器配置（2010年）处理器：两个四核2-2.5GHz CPU 内存：16-46GN ECC RAM 磁盘存储器：4*1TB SATA 磁盘网络：千兆以太网 Hadoop一般使用多核CPu和多磁盘提升硬件功能 P323 小集群VS大集群阅读全文

posted @ 2017-01-23 12:17 Aviva_ye 阅读(499) 评论(0) 推荐(0) 编辑

[hadoop读书笔记] 第五章 MapReduce工作机制

摘要：P205 MapReduce的两种运行机制第一种：经典的MR运行机制 - MR 1 可以通过一个简单的方法调用来运行MR作业：Job对象上的submit()。也可以调用waitForCompletion()，用于提交以前没有提交的作业，并等待其完成。 Hadoop执行MR的方法依赖于两个配置设置阅读全文

posted @ 2017-01-22 17:33 Aviva_ye 阅读(1422) 评论(0) 推荐(1) 编辑

[hadoop读书笔记] 第四章 Hadoop I/O操作

摘要：P92 压缩 P102 序列化序列化：将结构化对象转为字节流便于在网上传输或写到磁盘进行永久性存储的过程用于进程之间的通信或者数据的永久存储反序列化：将字节流转为结构化对象的逆过程 Hadoop中的序列化：在Hadoop中，系统中多个节点上进程间的通信是通过远程过程传输RPC来实现的。 RPC 阅读全文

posted @ 2017-01-22 12:54 Aviva_ye 阅读(233) 评论(0) 推荐(0) 编辑

[hadoop读书笔记] Hadoop下各技术应用场景

摘要：1、数据采集使用Hadoop分析处理数据，需要装载大量从不同来源的数据到Hadoop集群。从不同来源大容量的数据加载到Hadoop，然后这个过程处理它，这具有一定的挑战。维护和确保数据的一致性，并确保资源的有效利用，选择正确的方法进行数据加载前有一些因素是要考虑的。 http://www.68dl 阅读全文

posted @ 2017-01-22 11:41 Aviva_ye 阅读(291) 评论(0) 推荐(0) 编辑

[hadoop读书笔记] 第三章 HDFS

摘要：P49 当数据集的大小超过一台计算机存储能力时，就有必要对数据集分区（partition）并将分区存储到若干台独立的计算机上。管理网络中跨多台计算机存储的系统就叫分布式文件系统 Distributed FileSystem 而基于Hadoop构建的DFS就称之为HDFS。 P49-50 HDFS的阅读全文

posted @ 2017-01-20 15:53 Aviva_ye 阅读(1246) 评论(0) 推荐(0) 编辑

[hadoop读书笔记] 第一章初识 Hadoop

摘要：P3-P4：目前遇见的问题很简单:硬盘容量不断提升，1TB的已成为主流，然而数据传输速度从1990年的4.4MB/s仅上升到当前约100MB/s 读取一个1TB的硬盘数据需要耗时至少2.5个小时。写入数据则会消耗更多时间。解决方法是从多个硬盘上读取，试想，若当前有100个盘，每个盘存储1%数据，则阅读全文

posted @ 2017-01-20 12:06 Aviva_ye 阅读(289) 评论(0) 推荐(0) 编辑

[hadoop读书笔记]前言

摘要：hadoop2.0+主要变化：全新的MapReduce 2，它建立在一个新的分布式资源管理系统之上，该系统称之为YARN。 YARN：分布式资源管理系统阅读全文

posted @ 2017-01-20 11:03 Aviva_ye 阅读(181) 评论(0) 推荐(0) 编辑

[hadoop读书笔记]译者序

摘要：一、并行数据库系统新一代高性能的数据库系统，是在MPP和集群并行计算环境的基础上建立的数据库系统。 MPP：大规模并行处理计算机：Massive Parallel Processor。指的是一种处理机技术。由大量通用微处理器构成的多处理机系统，适合多指令流多数据流处理。这样的系统是由许多松耦合处理阅读全文

posted @ 2017-01-20 10:49 Aviva_ye 阅读(241) 评论(0) 推荐(0) 编辑

Aviva_ye

随笔分类 - hadoop读书笔记

公告