上一页 1 2 3 4 5 6 7 8 9 10 ··· 27 下一页
摘要: 【简介】 官网:http://spark.apache.org/ 推荐学习博客:http://dblab.xmu.edu.cn/blog/spark/ spark是一个采用Scala语言进行开发,更快速更稳定的用于大规模数据处理的计算引擎。 是Apache软件基金会最重要的三大分布式计算系统开源项目 阅读全文
posted @ 2017-02-14 12:12 Aviva_ye 阅读(653) 评论(0) 推荐(0) 编辑
摘要: 安装hive 1、下载hive-2.1.1(搭配hadoop版本为2.7.3) 2、解压到文件夹下 /wdcloud/app/hive-2.1.1 3、配置环境变量 4、在mysql上创建元数据库hive_metastore编码选latin,并授权 5、新建hive-site.xml,内容如下: < 阅读全文
posted @ 2017-01-24 16:53 Aviva_ye 阅读(1771) 评论(0) 推荐(0) 编辑
摘要: 导入命令 说明:--connect jdbc:mysql://192.168.200.250:3306/sqoop 表示远程或者本地 Mysql 服务的URI,3306是Mysql默认监听端口, sqoop 是数据库,若是其他数据库,如Oracle,只需修改URI即可。--table widgets 阅读全文
posted @ 2017-01-24 15:10 Aviva_ye 阅读(398) 评论(0) 推荐(0) 编辑
摘要: P573 从mysql导入数据到hdfs 第一步:在mysql中创建待导入的数据 1、创建数据库并允许所有用户访问该数据库 mysql -h 192.168.200.250 -u root -p 2、创建表widgets 3、导入测试数据 第二步:执行sqoop导入命令 缺少mysql连接器 先导入 阅读全文
posted @ 2017-01-24 14:19 Aviva_ye 阅读(1960) 评论(0) 推荐(0) 编辑
摘要: P375 Hadoop管理工具 dfsadmin - 查询HDFS状态信息,管理HDFS。 bin/hadoop dfsadmin -help 查询HDFS基本信息 fsck - 检查HDFS中文件的健康状况,查找在所有datanode中都确实的块以及过多或过少副本的块 [root@hadoop-a 阅读全文
posted @ 2017-01-23 15:15 Aviva_ye 阅读(221) 评论(0) 推荐(0) 编辑
摘要: P322 运行datanode和tasktracker的典型机器配置(2010年) 处理器:两个四核2-2.5GHz CPU 内存:16-46GN ECC RAM 磁盘存储器:4*1TB SATA 磁盘 网络:千兆以太网 Hadoop一般使用多核CPu和多磁盘提升硬件功能 P323 小集群VS大集群 阅读全文
posted @ 2017-01-23 12:17 Aviva_ye 阅读(498) 评论(0) 推荐(0) 编辑
摘要: P205 MapReduce的两种运行机制 第一种:经典的MR运行机制 - MR 1 可以通过一个简单的方法调用来运行MR作业:Job对象上的submit()。也可以调用waitForCompletion(),用于提交以前没有提交的作业,并等待其完成。 Hadoop执行MR的方法依赖于两个配置设置 阅读全文
posted @ 2017-01-22 17:33 Aviva_ye 阅读(1420) 评论(0) 推荐(1) 编辑
摘要: P92 压缩 P102 序列化 序列化:将结构化对象转为字节流便于在网上传输或写到磁盘进行永久性存储的过程 用于进程之间的通信或者数据的永久存储 反序列化:将字节流转为结构化对象的逆过程 Hadoop中的序列化:在Hadoop中,系统中多个节点上进程间的通信是通过远程过程传输RPC来实现的。 RPC 阅读全文
posted @ 2017-01-22 12:54 Aviva_ye 阅读(233) 评论(0) 推荐(0) 编辑
摘要: 1、数据采集 使用Hadoop分析处理数据,需要装载大量从不同来源的数据到Hadoop集群。从不同来源大容量的数据加载到Hadoop,然后这个过程处理它,这具有一定的挑战。维护和确保数据的一致性,并确保资源的有效利用,选择正确的方法进行数据加载前有一些因素是要考虑的。 http://www.68dl 阅读全文
posted @ 2017-01-22 11:41 Aviva_ye 阅读(289) 评论(0) 推荐(0) 编辑
摘要: P49 当数据集的大小超过一台计算机存储能力时,就有必要对数据集分区(partition)并将分区存储到若干台独立的计算机上。 管理网络中跨多台计算机存储的系统就叫分布式文件系统 Distributed FileSystem 而基于Hadoop构建的DFS就称之为HDFS。 P49-50 HDFS的 阅读全文
posted @ 2017-01-20 15:53 Aviva_ye 阅读(1243) 评论(0) 推荐(0) 编辑
上一页 1 2 3 4 5 6 7 8 9 10 ··· 27 下一页