Aviva_ye

2017年2月14日

摘要：【简介】官网：http://spark.apache.org/ 推荐学习博客：http://dblab.xmu.edu.cn/blog/spark/ spark是一个采用Scala语言进行开发，更快速更稳定的用于大规模数据处理的计算引擎。是Apache软件基金会最重要的三大分布式计算系统开源项目阅读全文

posted @ 2017-02-14 12:12 Aviva_ye 阅读(653) 评论(0) 推荐(0) 编辑

2017年1月24日

[hadoop读书笔记] 第十五章 sqoop1.4.6小实验 - 将mysq数据导入hive

摘要：安装hive 1、下载hive-2.1.1（搭配hadoop版本为2.7.3） 2、解压到文件夹下 /wdcloud/app/hive-2.1.1 3、配置环境变量 4、在mysql上创建元数据库hive_metastore编码选latin，并授权 5、新建hive-site.xml，内容如下： < 阅读全文

posted @ 2017-01-24 16:53 Aviva_ye 阅读(1771) 评论(0) 推荐(0) 编辑

[hadoop读书笔记] 第十五章 sqoop1.4.6小实验 - 将mysq数据导入HBASE

摘要：导入命令说明：--connect jdbc:mysql://192.168.200.250:3306/sqoop 表示远程或者本地 Mysql 服务的URI，3306是Mysql默认监听端口， sqoop 是数据库，若是其他数据库，如Oracle,只需修改URI即可。--table widgets 阅读全文

posted @ 2017-01-24 15:10 Aviva_ye 阅读(398) 评论(0) 推荐(0) 编辑

[hadoop读书笔记] 第十五章 sqoop1.4.6小实验 - 数据在mysq和hdfs之间的相互转换

摘要： P573 从mysql导入数据到hdfs 第一步：在mysql中创建待导入的数据 1、创建数据库并允许所有用户访问该数据库 mysql -h 192.168.200.250 -u root -p 2、创建表widgets 3、导入测试数据第二步：执行sqoop导入命令缺少mysql连接器先导入阅读全文

posted @ 2017-01-24 14:19 Aviva_ye 阅读(1960) 评论(0) 推荐(0) 编辑

2017年1月23日

[hadoop读书笔记] 第十章管理Hadoop集群

摘要： P375 Hadoop管理工具 dfsadmin - 查询HDFS状态信息，管理HDFS。 bin/hadoop dfsadmin -help 查询HDFS基本信息 fsck - 检查HDFS中文件的健康状况，查找在所有datanode中都确实的块以及过多或过少副本的块 [root@hadoop-a 阅读全文

posted @ 2017-01-23 15:15 Aviva_ye 阅读(221) 评论(0) 推荐(0) 编辑

[hadoop读书笔记] 第九章构建Hadoop集群

摘要： P322 运行datanode和tasktracker的典型机器配置（2010年）处理器：两个四核2-2.5GHz CPU 内存：16-46GN ECC RAM 磁盘存储器：4*1TB SATA 磁盘网络：千兆以太网 Hadoop一般使用多核CPu和多磁盘提升硬件功能 P323 小集群VS大集群阅读全文

posted @ 2017-01-23 12:17 Aviva_ye 阅读(498) 评论(0) 推荐(0) 编辑

2017年1月22日

[hadoop读书笔记] 第五章 MapReduce工作机制

摘要： P205 MapReduce的两种运行机制第一种：经典的MR运行机制 - MR 1 可以通过一个简单的方法调用来运行MR作业：Job对象上的submit()。也可以调用waitForCompletion()，用于提交以前没有提交的作业，并等待其完成。 Hadoop执行MR的方法依赖于两个配置设置阅读全文

posted @ 2017-01-22 17:33 Aviva_ye 阅读(1420) 评论(0) 推荐(1) 编辑

[hadoop读书笔记] 第四章 Hadoop I/O操作

摘要： P92 压缩 P102 序列化序列化：将结构化对象转为字节流便于在网上传输或写到磁盘进行永久性存储的过程用于进程之间的通信或者数据的永久存储反序列化：将字节流转为结构化对象的逆过程 Hadoop中的序列化：在Hadoop中，系统中多个节点上进程间的通信是通过远程过程传输RPC来实现的。 RPC 阅读全文

posted @ 2017-01-22 12:54 Aviva_ye 阅读(233) 评论(0) 推荐(0) 编辑

[hadoop读书笔记] Hadoop下各技术应用场景

摘要： 1、数据采集使用Hadoop分析处理数据，需要装载大量从不同来源的数据到Hadoop集群。从不同来源大容量的数据加载到Hadoop，然后这个过程处理它，这具有一定的挑战。维护和确保数据的一致性，并确保资源的有效利用，选择正确的方法进行数据加载前有一些因素是要考虑的。 http://www.68dl 阅读全文

posted @ 2017-01-22 11:41 Aviva_ye 阅读(289) 评论(0) 推荐(0) 编辑

2017年1月20日

[hadoop读书笔记] 第三章 HDFS

摘要： P49 当数据集的大小超过一台计算机存储能力时，就有必要对数据集分区（partition）并将分区存储到若干台独立的计算机上。管理网络中跨多台计算机存储的系统就叫分布式文件系统 Distributed FileSystem 而基于Hadoop构建的DFS就称之为HDFS。 P49-50 HDFS的阅读全文

posted @ 2017-01-20 15:53 Aviva_ye 阅读(1243) 评论(0) 推荐(0) 编辑

公告