随笔分类 - 大数据
摘要:datax简单入门 概述 什么是datax DataX 是阿里巴巴开源的一个异构数据源离线同步工具,致力于实现包括关系型数据库(MySQL、Oracle等)、HDFS、Hive、ODPS、HBase、FTP等各种异构数据源之间稳定高效的数据同步功能。 DataX的设计 为了解决异构数据源同步问题,D
阅读全文
摘要:这些都是视频中的课件,安装步骤来的,没有发现问题,老师讲的比较一般 一、安装Server服务 yum install -y oracle-j2sdk1.8-1.8.0+update181-1.x86_64 yum install -y enterprise-debuginfo-6.2.1-14260
阅读全文
摘要:下载包: https://archive.cloudera.com/cdh6/6.2.1/parcels/ https://archive.cloudera.com/cm6/6.2.1/redhat7/yum/RPMS/x86_64/ 安装依赖包 yum install -y cyrus-sasl-
阅读全文
摘要:我个人做实验分配了5台虚拟机,每台20G内存,150G存储,应该可以玩会了。 业务集群规划 一般而言,一个集群上很少只跑一个业务,大多数情况都是多个业务共享集群,实际上就是共享系统软硬件资源。这里通常涉及两大问题,其一是业务之间资源隔离问题,就是将各个业务在逻辑上隔离开来,互相不受影响,这个问题
阅读全文
摘要:ClouderaManager的产生背景和应用场景 Apache版本的大数据组件 优点 完全开源,更新速度很快 大数据组件在部署过程中可以深刻了解其底层原理 可以了解各个组件的依赖关系 缺点 部署过程极其复杂,超过20个节点的时候,手动部署已经超级累 各个组件部署完成后,各个为政,没有统一化管理界面
阅读全文
摘要:大数据架构和技术选型 大数据架构 源数据层: 1、sdk日志埋点 2、日志文件:爬虫日志、业务日志 3、关系型数据库:mysql、oracle等 数据采集层: 1、离线:flume、Sqoop、Nifi 2、实时:filebeat、nginx+lua 补充:当数据量达到5亿左右的时候,filebea
阅读全文
摘要:配置HADOOP_HOME和配置Path环境变量环境变量 创建一个Maven工程 <dependencies> <dependency> <groupId>junit</groupId> <artifactId>junit</artifactId> <version>RELEASE</version
阅读全文
摘要:jar包安装 注意:所有操作必须在root用户下完成 1 JDK解压、配置环境变量 JAVA_HOME和PATH,验证java-version(如下都需要验证是否配置成功) [root@192 opt]# mkdir /opt/module/ [root@192 opt]# tar -zxf jdk
阅读全文
摘要:1.基本语法 bin/hadoop fs 具体命令 OR bin/hdfs dfs 具体命令 dfs是fs的实现类。 2.命令大全 [root@hadoop002 hadoop-2.7.2]# hdfs dfs Usage: hadoop fs [generic options] [-appendT
阅读全文
摘要:HDFS产出背景及定义 Hadoop分布式文件系统(HDFS)被设计成适合运行在通用硬件(commodity hardware)上的分布式文件系统。它和现有的分布式文件系统有很多共同点。但同时,它和其他的分布式文件系统的区别也是很明显的。HDFS是一个高度容错性的系统,适合部署在廉价的机器上。HDF
阅读全文
摘要:集群配置 1. 集群部署规划 表2-3 hadoop002 hadoop003 hadoop004 HDFS NameNode DataNode DataNode SecondaryNameNode DataNode YARN NodeManager ResourceManager NodeMana
阅读全文
摘要:无密钥配置 (1)免密登录原理,如图所示 (2)生成公钥和私钥: [root@hadoop003 .ssh]# ssh-keygen -t rsa Generating public/private rsa key pair. Enter file in which to save the key
阅读全文
摘要:手上有4台阿里云,正好可以搭建集群,就要把刚刚配置的单节点的数据拷贝过去。 编写集群分发脚本xsync 1. scp(secure copy)安全拷贝 (1)scp定义: scp可以实现服务器与服务器之间的数据拷贝。(from server1 to server2) (2)基本语法 Linux sc
阅读全文
摘要:1 启动HDFS并运行MapReduce程序 a)配置:hadoop-env.sh Linux系统中获取JDK的安装路径: [root@hadoop001 hadoop-2.7.2]# echo $JAVA_HOME /opt/module/jdk1.8.0_144 [root@hadoop001
阅读全文
摘要:具体的官网链接为:https://hadoop.apache.org/docs/r2.10.0/hadoop-project-dist/hadoop-common/SingleCluster.html 官方Grep案例 [root@iZbp1efx14jd8471u20gpaZ hadoop-2.7
阅读全文
摘要:简介 主要记录了Hadoop各个组件的基本原理,处理过程和关键的知识点等,包括HDFS、YARN、MapReduce等。 铺垫 人产生数据的速度越来越快,机器则更加快,more data usually beats better algorithms,所以需要另外的一种处理数据的方法。 硬盘的容量增
阅读全文