miwaiwai

导航

大数据学习

 

 

 

 

大数据:

  1.分为2类方向

    1.实时方向

    2.离线方向

  2.3个技术栈:

    1.hdoop技术栈

    2.spark技术栈

    3.flink技术栈

  3.hadoop和spark是技能体系

  4.生成ssh秘钥命令:

    ssh-keygen -t rsa -b 4096

  5.每天机器之间建立互信,免密登录

    ssh-copy-id node1

    ssh-copy-id node2

    ssh-copy-id node3

  6.创建hadoop用户,设置相关hadoop密码

  7.设置hadoop账号之间的免密登录

  8.需要安装java环境

    1.创建文件夹,用来部署jdk,讲jdk和tomcat都按照部署到:/export/server内

      mkdir -p /export/server

    2.加压jdk安装文件

      tar -zxvf jdk-8u351-linux-x64.tar.gz -c  /export/server

    3.配置jdk的软连接

      ln -s /export/server/jdk1.8.0_351 /export/server/jdk

    4.配置JAVA_HOME环境变量,以及讲$JAVA_HOME/bin文件加入PATH环境变量中

      vi /etc/profile文件

      export JAVA_HOME=/export/server/jdk

      export PATH=$JAVA_HOME/bin

    5.关闭防火墙

    6.关闭selinux

    7.时区同步和网络同步

    8.

  9.公有云配置

    1.基础网络配置--->外网防火墙(安全组)

    2.创建主机

  10.apache hadoop是一款开源的分布式处理技术栈

    1.hadoop HDFS:分布式数据存储技术

    2.hadoop MapReduce:分布式数据计算技术

    3.Hadoop YARN:分部署资源调度技术

   2008年以后:

    1.Apache HbaseNoSql数据库

    2.Apache Kafka 分布式消息队列

    3.Apache Spark 分布式内存计算引擎

    4.Apache Flume流式数据传输工具

    5.Apache Hive 分布式sql平台

    6.Apache Flink 流计算平台

  特征:

    1.体积

    2.种类

    3.价值

    4.速度

    5.质量

 

 Hadoop安装:

 

 

 4个配置文件

 5.

 

 6.

 7.

 

 

 不良平台操作实例: hadoop fs -mkdir -p hdfs://NameNode1:8020/tmp/20231225yyp5.txt

不良信息操作实例:修改已存在文件的副本数,默认是3个副本:

    hadoop fs -setrep -R 3 hdfs://NameNode1:8020/tmp/20231225yyp12.txt

 

 HDFS文件系统只支持删除和追加文件系统

 

以4个副本进行上传文件:

  hadoop fs -D dfs.replication=4 -put test.txt hdfs://NameNode1:8020/tmp/20231225yyp12.txt

以4个副本进行创建目录

   hadoop fs -D dfs.replication=4 -mkdir  hdfs://NameNode1:8020/tmp/20231225yyp1234.txt

检查文件的副本数,块数:

  hadoop fsck  hdfs://NameNode1:8020/tmp/20231225yyp12.txt -files -blocks -locations

MapReduce是"分散->汇总"模式的分布式计算框架

  MapReduce提供了2个编程接口:

    1.Map:提供分散功能

    2.Reduce:提供了聚合功能

 

 

 

 

 

yarn的启动:

 

hadoop的MapReduce进行文件单词统计:

 

 

hive两大功能组件:

  1.元数据管理

  2.sql解析器

 

大数据的需要通过BI报表来进行展示

BI:Business Intelligence 商业智能

常用的BI软件:

  FineBI

  SuperSet

  PowerBI

  TableAu

 

posted on 2023-12-25 14:04  米歪歪  阅读(15)  评论(0编辑  收藏  举报