大数据 - 随笔分类 - 天宇轩-王

datax入门

摘要：datax简单入门概述什么是datax DataX 是阿里巴巴开源的一个异构数据源离线同步工具，致力于实现包括关系型数据库(MySQL、Oracle等)、HDFS、Hive、ODPS、HBase、FTP等各种异构数据源之间稳定高效的数据同步功能。 DataX的设计为了解决异构数据源同步问题，D 阅读全文

posted @ 2020-09-08 23:46 天宇轩-王阅读(1153) 评论(0) 推荐(0)

CDH安装(二)

摘要：这些都是视频中的课件，安装步骤来的，没有发现问题，老师讲的比较一般一、安装Server服务 yum install -y oracle-j2sdk1.8-1.8.0+update181-1.x86_64 yum install -y enterprise-debuginfo-6.2.1-14260 阅读全文

posted @ 2020-07-20 22:11 天宇轩-王阅读(336) 评论(0) 推荐(0)

CDH安装(一)

摘要：下载包： https://archive.cloudera.com/cdh6/6.2.1/parcels/ https://archive.cloudera.com/cm6/6.2.1/redhat7/yum/RPMS/x86_64/ 安装依赖包 yum install -y cyrus-sasl- 阅读全文

posted @ 2020-07-20 22:03 天宇轩-王阅读(654) 评论(0) 推荐(0)

大数据服务规划

摘要：我个人做实验分配了5台虚拟机，每台20G内存，150G存储，应该可以玩会了。业务集群规划一般而言，一个集群上很少只跑一个业务，大多数情况都是多个业务共享集群，实际上就是共享系统软硬件资源。这里通常涉及两大问题，其一是业务之间资源隔离问题，就是将各个业务在逻辑上隔离开来，互相不受影响，这个问题阅读全文

posted @ 2020-07-20 13:40 天宇轩-王阅读(396) 评论(0) 推荐(0)

ClouderaManager的背景和介绍

摘要：ClouderaManager的产生背景和应用场景 Apache版本的大数据组件优点完全开源，更新速度很快大数据组件在部署过程中可以深刻了解其底层原理可以了解各个组件的依赖关系缺点部署过程极其复杂，超过20个节点的时候，手动部署已经超级累各个组件部署完成后，各个为政，没有统一化管理界面阅读全文

posted @ 2020-07-20 13:38 天宇轩-王阅读(940) 评论(0) 推荐(0)

大数据架构

摘要：大数据架构和技术选型大数据架构源数据层： 1、sdk日志埋点 2、日志文件：爬虫日志、业务日志 3、关系型数据库：mysql、oracle等数据采集层： 1、离线：flume、Sqoop、Nifi 2、实时：filebeat、nginx+lua 补充：当数据量达到5亿左右的时候，filebea 阅读全文

posted @ 2020-07-20 13:33 天宇轩-王阅读(670) 评论(0) 推荐(0)

HDFS的API操作

摘要：配置HADOOP_HOME和配置Path环境变量环境变量创建一个Maven工程 <dependencies> <dependency> <groupId>junit</groupId> <artifactId>junit</artifactId> <version>RELEASE</version 阅读全文

posted @ 2020-01-20 17:52 天宇轩-王阅读(246) 评论(0) 推荐(1)

Centos7编译Hadoop源码

摘要：jar包安装注意：所有操作必须在root用户下完成 1 JDK解压、配置环境变量 JAVA_HOME和PATH，验证java-version(如下都需要验证是否配置成功) [root@192 opt]# mkdir /opt/module/ [root@192 opt]# tar -zxf jdk 阅读全文

posted @ 2020-01-15 23:39 天宇轩-王阅读(424) 评论(0) 推荐(1)

HDFS的Shell操作

摘要：1．基本语法 bin/hadoop fs 具体命令 OR bin/hdfs dfs 具体命令 dfs是fs的实现类。 2．命令大全 [root@hadoop002 hadoop-2.7.2]# hdfs dfs Usage: hadoop fs [generic options] [-appendT 阅读全文

posted @ 2020-01-15 23:12 天宇轩-王阅读(244) 评论(0) 推荐(1)

HDFS概述

摘要：HDFS产出背景及定义 Hadoop分布式文件系统(HDFS)被设计成适合运行在通用硬件(commodity hardware)上的分布式文件系统。它和现有的分布式文件系统有很多共同点。但同时，它和其他的分布式文件系统的区别也是很明显的。HDFS是一个高度容错性的系统，适合部署在廉价的机器上。HDF 阅读全文

posted @ 2020-01-15 20:41 天宇轩-王阅读(173) 评论(0) 推荐(1)

Hadoop完全分布式模式

摘要：集群配置 1. 集群部署规划表2-3 hadoop002 hadoop003 hadoop004 HDFS NameNode DataNode DataNode SecondaryNameNode DataNode YARN NodeManager ResourceManager NodeMana 阅读全文

posted @ 2020-01-15 16:10 天宇轩-王阅读(750) 评论(0) 推荐(0)

免密登陆

摘要：无密钥配置（1）免密登录原理，如图所示（2）生成公钥和私钥： [root@hadoop003 .ssh]# ssh-keygen -t rsa Generating public/private rsa key pair. Enter file in which to save the key 阅读全文

posted @ 2020-01-15 00:21 天宇轩-王阅读(419) 评论(0) 推荐(1)

Hadoop的分发脚本编写

摘要：手上有4台阿里云，正好可以搭建集群，就要把刚刚配置的单节点的数据拷贝过去。编写集群分发脚本xsync 1. scp（secure copy）安全拷贝（1）scp定义： scp可以实现服务器与服务器之间的数据拷贝。（from server1 to server2）（2）基本语法 Linux sc 阅读全文

posted @ 2020-01-14 23:21 天宇轩-王阅读(657) 评论(0) 推荐(1)

Hadoop的伪分布式模式

摘要：1 启动HDFS并运行MapReduce程序 a）配置：hadoop-env.sh Linux系统中获取JDK的安装路径： [root@hadoop001 hadoop-2.7.2]# echo $JAVA_HOME /opt/module/jdk1.8.0_144 [root@hadoop001 阅读全文

posted @ 2020-01-14 21:47 天宇轩-王阅读(413) 评论(0) 推荐(1)

Hadoop的单机模式

摘要：具体的官网链接为：https://hadoop.apache.org/docs/r2.10.0/hadoop-project-dist/hadoop-common/SingleCluster.html 官方Grep案例 [root@iZbp1efx14jd8471u20gpaZ hadoop-2.7 阅读全文

posted @ 2020-01-13 22:44 天宇轩-王阅读(586) 评论(0) 推荐(1)

Hadoop介绍和安装(一)

摘要：简介主要记录了Hadoop各个组件的基本原理，处理过程和关键的知识点等，包括HDFS、YARN、MapReduce等。铺垫人产生数据的速度越来越快，机器则更加快，more data usually beats better algorithms，所以需要另外的一种处理数据的方法。硬盘的容量增阅读全文

posted @ 2020-01-13 21:33 天宇轩-王阅读(358) 评论(0) 推荐(0)

天宇轩-王

随笔分类 - 大数据

公告