大数据学习

大数据:

　　1.分为2类方向

　　　　1.实时方向

　　　　2.离线方向

　　2.3个技术栈:

　　　　1.hdoop技术栈

　　　　2.spark技术栈

　　　　3.flink技术栈

　　3.hadoop和spark是技能体系

　　4.生成ssh秘钥命令:

　　　　ssh-keygen -t rsa -b 4096

　　5.每天机器之间建立互信,免密登录

　　　　ssh-copy-id node1

　　　　ssh-copy-id node2

　　　　ssh-copy-id node3

　　6.创建hadoop用户,设置相关hadoop密码

　　7.设置hadoop账号之间的免密登录

　　8.需要安装java环境

　　　　1.创建文件夹,用来部署jdk,讲jdk和tomcat都按照部署到:/export/server内

　　　　　　mkdir -p /export/server

　　　　2.加压jdk安装文件

　　　　　　tar -zxvf jdk-8u351-linux-x64.tar.gz -c /export/server

　　　　3.配置jdk的软连接

　　　　　　ln -s /export/server/jdk1.8.0_351 /export/server/jdk

　　　　4.配置JAVA_HOME环境变量,以及讲$JAVA_HOME/bin文件加入PATH环境变量中

　　　　　　vi /etc/profile文件

　　　　　　export JAVA_HOME=/export/server/jdk

　　　　　　export PATH=$JAVA_HOME/bin

　　　　5.关闭防火墙

　　　　6.关闭selinux

　　　　7.时区同步和网络同步

　　9.公有云配置

　　　　1.基础网络配置--->外网防火墙(安全组)

　　　　2.创建主机

　　10.apache hadoop是一款开源的分布式处理技术栈

　　　　1.hadoop HDFS:分布式数据存储技术

　　　　2.hadoop MapReduce:分布式数据计算技术

　　　　3.Hadoop YARN:分部署资源调度技术

　　2008年以后:

　　　　1.Apache HbaseNoSql数据库

　　　　2.Apache Kafka 分布式消息队列

　　　　3.Apache Spark 分布式内存计算引擎

　　　　4.Apache Flume流式数据传输工具

　　　　5.Apache Hive 分布式sql平台

　　　　6.Apache Flink 流计算平台

　　特征:

　　　　1.体积

　　　　2.种类

　　　　3.价值

　　　　4.速度

　　　　5.质量

Hadoop安装:

4个配置文件

不良平台操作实例: hadoop fs -mkdir -p hdfs://NameNode1:8020/tmp/20231225yyp5.txt

不良信息操作实例:修改已存在文件的副本数,默认是3个副本:

　　　　hadoop fs -setrep -R 3 hdfs://NameNode1:8020/tmp/20231225yyp12.txt

HDFS文件系统只支持删除和追加文件系统

以4个副本进行上传文件:

　　hadoop fs -D dfs.replication=4 -put test.txt hdfs://NameNode1:8020/tmp/20231225yyp12.txt

以4个副本进行创建目录

　　 hadoop fs -D dfs.replication=4 -mkdir hdfs://NameNode1:8020/tmp/20231225yyp1234.txt

检查文件的副本数,块数:

　　hadoop fsck hdfs://NameNode1:8020/tmp/20231225yyp12.txt -files -blocks -locations

MapReduce是"分散->汇总"模式的分布式计算框架

　　MapReduce提供了2个编程接口:

　　　　1.Map:提供分散功能

　　　　2.Reduce:提供了聚合功能

yarn的启动:

hadoop的MapReduce进行文件单词统计:

hive两大功能组件:

　　1.元数据管理

　　2.sql解析器

大数据的需要通过BI报表来进行展示

BI:Business Intelligence 商业智能

常用的BI软件:

　　FineBI

　　SuperSet

　　PowerBI

　　TableAu

posted on 2023-12-25 14:04 米歪歪阅读(15) 评论(0) 编辑收藏举报

会员力量，点亮园子希望

刷新页面返回顶部

miwaiwai

导航

公告

大数据学习