随笔分类 -  hadoop读书笔记

hadoop权威指南第三版读书笔记
摘要:安装hive 1、下载hive-2.1.1(搭配hadoop版本为2.7.3) 2、解压到文件夹下 /wdcloud/app/hive-2.1.1 3、配置环境变量 4、在mysql上创建元数据库hive_metastore编码选latin,并授权 5、新建hive-site.xml,内容如下: < 阅读全文
posted @ 2017-01-24 16:53 Aviva_ye 阅读(1771) 评论(0) 推荐(0) 编辑
摘要:导入命令 说明:--connect jdbc:mysql://192.168.200.250:3306/sqoop 表示远程或者本地 Mysql 服务的URI,3306是Mysql默认监听端口, sqoop 是数据库,若是其他数据库,如Oracle,只需修改URI即可。--table widgets 阅读全文
posted @ 2017-01-24 15:10 Aviva_ye 阅读(398) 评论(0) 推荐(0) 编辑
摘要:P573 从mysql导入数据到hdfs 第一步:在mysql中创建待导入的数据 1、创建数据库并允许所有用户访问该数据库 mysql -h 192.168.200.250 -u root -p 2、创建表widgets 3、导入测试数据 第二步:执行sqoop导入命令 缺少mysql连接器 先导入 阅读全文
posted @ 2017-01-24 14:19 Aviva_ye 阅读(1961) 评论(0) 推荐(0) 编辑
摘要:P375 Hadoop管理工具 dfsadmin - 查询HDFS状态信息,管理HDFS。 bin/hadoop dfsadmin -help 查询HDFS基本信息 fsck - 检查HDFS中文件的健康状况,查找在所有datanode中都确实的块以及过多或过少副本的块 [root@hadoop-a 阅读全文
posted @ 2017-01-23 15:15 Aviva_ye 阅读(222) 评论(0) 推荐(0) 编辑
摘要:P322 运行datanode和tasktracker的典型机器配置(2010年) 处理器:两个四核2-2.5GHz CPU 内存:16-46GN ECC RAM 磁盘存储器:4*1TB SATA 磁盘 网络:千兆以太网 Hadoop一般使用多核CPu和多磁盘提升硬件功能 P323 小集群VS大集群 阅读全文
posted @ 2017-01-23 12:17 Aviva_ye 阅读(499) 评论(0) 推荐(0) 编辑
摘要:P205 MapReduce的两种运行机制 第一种:经典的MR运行机制 - MR 1 可以通过一个简单的方法调用来运行MR作业:Job对象上的submit()。也可以调用waitForCompletion(),用于提交以前没有提交的作业,并等待其完成。 Hadoop执行MR的方法依赖于两个配置设置 阅读全文
posted @ 2017-01-22 17:33 Aviva_ye 阅读(1422) 评论(0) 推荐(1) 编辑
摘要:P92 压缩 P102 序列化 序列化:将结构化对象转为字节流便于在网上传输或写到磁盘进行永久性存储的过程 用于进程之间的通信或者数据的永久存储 反序列化:将字节流转为结构化对象的逆过程 Hadoop中的序列化:在Hadoop中,系统中多个节点上进程间的通信是通过远程过程传输RPC来实现的。 RPC 阅读全文
posted @ 2017-01-22 12:54 Aviva_ye 阅读(233) 评论(0) 推荐(0) 编辑
摘要:1、数据采集 使用Hadoop分析处理数据,需要装载大量从不同来源的数据到Hadoop集群。从不同来源大容量的数据加载到Hadoop,然后这个过程处理它,这具有一定的挑战。维护和确保数据的一致性,并确保资源的有效利用,选择正确的方法进行数据加载前有一些因素是要考虑的。 http://www.68dl 阅读全文
posted @ 2017-01-22 11:41 Aviva_ye 阅读(291) 评论(0) 推荐(0) 编辑
摘要:P49 当数据集的大小超过一台计算机存储能力时,就有必要对数据集分区(partition)并将分区存储到若干台独立的计算机上。 管理网络中跨多台计算机存储的系统就叫分布式文件系统 Distributed FileSystem 而基于Hadoop构建的DFS就称之为HDFS。 P49-50 HDFS的 阅读全文
posted @ 2017-01-20 15:53 Aviva_ye 阅读(1246) 评论(0) 推荐(0) 编辑
摘要:P3-P4: 目前遇见的问题很简单:硬盘容量不断提升,1TB的已成为主流,然而数据传输速度从1990年的4.4MB/s仅上升到当前约100MB/s 读取一个1TB的硬盘数据需要耗时至少2.5个小时。写入数据则会消耗更多时间。解决方法是从多个硬盘上读取,试想,若当前有100个盘,每个盘存储1%数据,则 阅读全文
posted @ 2017-01-20 12:06 Aviva_ye 阅读(289) 评论(0) 推荐(0) 编辑
摘要:hadoop2.0+主要变化: 全新的MapReduce 2,它建立在一个新的分布式资源管理系统之上,该系统称之为YARN。 YARN:分布式资源管理系统 阅读全文
posted @ 2017-01-20 11:03 Aviva_ye 阅读(181) 评论(0) 推荐(0) 编辑
摘要:一、并行数据库系统 新一代高性能的数据库系统,是在MPP和集群并行计算环境的基础上建立的数据库系统。 MPP:大规模并行处理计算机:Massive Parallel Processor。指的是一种处理机技术。由大量通用微处理器构成的多处理机系统,适合多指令流多数据流处理。这样的系统是由许多松耦合处理 阅读全文
posted @ 2017-01-20 10:49 Aviva_ye 阅读(241) 评论(0) 推荐(0) 编辑

点击右上角即可分享
微信分享提示