07 2016 档案

摘要:一、hive的压缩 1. hadoop的压缩 1)为什么需要压缩 MapReduce的性能瓶颈:网络IO、磁盘IO 数据量:对于MapReduce的优化,最主要、根本就是要能够减少数据量 Combiner:减少跨网络传输的数据量 压缩:将数据量减少,但是需要消耗CPU计算功能 2)哪些地方可以压缩 阅读全文
posted @ 2016-07-31 09:43 沙漏哟 阅读(242) 评论(0) 推荐(0) 编辑
摘要:一、Hive的JDBC连接 日志分析结果数据,存储在hive中 hive.server2.thrift.bind.host 如果需要远程连接,则改成主机名beifeng-hadoop-02,或者0.0.0.2(表示任何主机都可以连接) hiveserver2进程的启动:nohup hiveserve 阅读全文
posted @ 2016-07-30 09:08 沙漏哟 阅读(252) 评论(0) 推荐(0) 编辑
摘要:一、 第二阶段课程回顾 hadoop 2.x HDFS YARN MapReduce Zookeeper Hive 二、大数据协作框架 对日志类型的海量数据进行分析 hdfs mapreduce/hive 1. 数据来源 (1)RDBMS(Oracle、MySQL、DB2...) -> sqoop( 阅读全文
posted @ 2016-07-19 13:33 沙漏哟 阅读(332) 评论(0) 推荐(0) 编辑
摘要:https://cwiki.apache.org/confluence/display/Hive/LanguageManual 一、创建表 二、函数 show functions; describe function extended upper; select id, upper(name) fr 阅读全文
posted @ 2016-07-18 13:37 沙漏哟 阅读(163) 评论(0) 推荐(0) 编辑
摘要:一、Hive基本概念、安装部署与初步使用 1. 后续课程 Hive 项目:hadoop hive sqoop flume hbase 电商离线数据分析 CDH Storm:分布式实时计算框架 Spark: 2. 如何学习大数据技术 上课时候,认真听,勤做笔记; 遇到难理解的概念,马上记录下来; 课后 阅读全文
posted @ 2016-07-17 09:01 沙漏哟 阅读(172) 评论(0) 推荐(0) 编辑
摘要:7.16 一、回顾 二、HDFS Federation(联盟) Hadoop 2.2.0发布新特性 很多的大公司都在使用:BAT HDFS Federation + HDFS HA架构 互相隔开,但是数据存储共用 1、新特性介绍 ViewFs Guide 视图文件系统 HDFS Snapshots 阅读全文
posted @ 2016-07-16 09:28 沙漏哟 阅读(211) 评论(0) 推荐(0) 编辑
摘要:一、配置Linux (1)cat /etc/networks (2)cat /etc/sysconfig/network (3)vi /etc/udev/rules.d/70-persistent-net.rules eth1 改为eth0 (4)vi /etc/sysconfig/network- 阅读全文
posted @ 2016-07-11 15:32 沙漏哟 阅读(247) 评论(0) 推荐(0) 编辑
摘要:一、分布式集群安装1. Hadoop模式本地模式、伪分布模式、集群模式datanode 使用的机器上的磁盘,存储空间nodemanager使用的机器上的内存和CPU(计算和分析数据) 2. 搭建环境准备工作(1)克隆虚拟机,达到3台机器,分布式的架构即可重新搭建一个hadoop环境(2)克隆完成后, 阅读全文
posted @ 2016-07-10 21:14 沙漏哟 阅读(167) 评论(0) 推荐(0) 编辑
摘要:一、MapReduce编程模型1. 中心思想: 分而治之2. map(映射)3. 分布式计算模型,处理海量数据4. 一个简单的MR程序需要制定map()、reduce()、input、output5. 处理的数据放在input中、处理的结果放在output中6. MR程序>八股文7. MR在处理数据 阅读全文
posted @ 2016-07-10 21:13 沙漏哟 阅读(165) 评论(0) 推荐(0) 编辑
摘要:1. Hadoop 64位centos 下编译 hadoop 2.6.0 源码 2. 学习问题汇总 hadoop多次格式化后,导致datanode启动不了 3. HDFS Hadoop中NameNode存储的元数据记录和NameNode的启动过程 存储在HDFS上的文件,存储机制及数据安全性如何保证 阅读全文
posted @ 2016-07-07 16:57 沙漏哟 阅读(170) 评论(0) 推荐(0) 编辑
摘要:初学Linux,首先需要弄清Linux 标准目录结构 / root 启动Linux时使用的一些核心文件。如操作系统内核、引导程序Grub等。 home 存储普通用户的个人文件 ftp 用户所有服务 httpd samba user1 user2 bin 系统启动时需要的执行文件(二进制) sbin 阅读全文
posted @ 2016-07-05 13:01 沙漏哟 阅读(229) 评论(0) 推荐(0) 编辑
摘要:hadoop namenode -format多次格式化后,datanode启动不了 0.20.2版本解决方式:1、查看名称节点上(即在配置文件中配置的hadoop.tmp.dir参数路径)/usr/hadoop0.20.2/hadoop-huanghz/dfs/name/current/文件夹中V 阅读全文
posted @ 2016-07-05 10:54 沙漏哟 阅读(3612) 评论(0) 推荐(0) 编辑
摘要:一、Linux基础篇 1. 发行版本 redhat/centos/suse/debian/ 2. 目录结构 /bin /boot -> grub /dev /etc ->init.d sysconfig /home -> dmtsai Iccnet /lib -> modules /mnt /opt 阅读全文
posted @ 2016-07-04 16:09 沙漏哟 阅读(272) 评论(0) 推荐(0) 编辑
摘要:听歌: 网易云音乐,QQ音乐 摄影: CameraConnect,Replay,PhotoBooth,PhotoCollage,画中画相机,Creative Shape, 简拼,玩图,PicsArt,POCO相机,拼立得,Once,VSCO,Snapseed,PhotoBlender,素描绘画板 理 阅读全文
posted @ 2016-07-03 18:40 沙漏哟 阅读(351) 评论(0) 推荐(0) 编辑
摘要:一、MapReduce 1. mapreduce概念 2. mapreduce模板 3. 基于业务需求谢mr程序 4. wordcount程序编写 5. mapreduce shuffle 6. 阅读全文
posted @ 2016-07-03 16:42 沙漏哟 阅读(157) 评论(0) 推荐(0) 编辑
摘要:hdfs可视化界面: http://beifeng-hadoop-01:50070/dfshealth.html#tab-overview yarn可视化界面: http://beifeng-hadoop-01:8088/cluster 历史服务器可视化界面:http://beifeng-hadoo 阅读全文
posted @ 2016-07-03 09:54 沙漏哟 阅读(233) 评论(0) 推荐(0) 编辑
摘要:一、打包压缩 知识点: tar -zxvf -C PATH tar -jxvf tar -zcvf tar -jcvf tar:打包命令 -z 打包同时gzip压缩 -j 打包同时bzip2 -c 打包 -x 解压 -v 显示过程信息 -f 对普通文件进行操作 -C 指定解压路径 -t 查看包内容 阅读全文
posted @ 2016-07-02 18:10 沙漏哟 阅读(225) 评论(0) 推荐(0) 编辑
摘要:大数据离线计算hadoop2.x 三周(6天) markdown文本剪辑器 罗振宇--跨年演讲,时间的朋友 http://tech.163.com/16/0101/11/BC87H8DF000915BF.html 勤奋的男人和爱笑的女人运气都不会太差。 1. 什么是Hadoop 2. hadoop生 阅读全文
posted @ 2016-07-02 09:09 沙漏哟 阅读(252) 评论(0) 推荐(0) 编辑