大数据学习
大数据:
1.分为2类方向
1.实时方向
2.离线方向
2.3个技术栈:
1.hdoop技术栈
2.spark技术栈
3.flink技术栈
3.hadoop和spark是技能体系
4.生成ssh秘钥命令:
ssh-keygen -t rsa -b 4096
5.每天机器之间建立互信,免密登录
ssh-copy-id node1
ssh-copy-id node2
ssh-copy-id node3
6.创建hadoop用户,设置相关hadoop密码
7.设置hadoop账号之间的免密登录
8.需要安装java环境
1.创建文件夹,用来部署jdk,讲jdk和tomcat都按照部署到:/export/server内
mkdir -p /export/server
2.加压jdk安装文件
tar -zxvf jdk-8u351-linux-x64.tar.gz -c /export/server
3.配置jdk的软连接
ln -s /export/server/jdk1.8.0_351 /export/server/jdk
4.配置JAVA_HOME环境变量,以及讲$JAVA_HOME/bin文件加入PATH环境变量中
vi /etc/profile文件
export JAVA_HOME=/export/server/jdk
export PATH=$JAVA_HOME/bin
5.关闭防火墙
6.关闭selinux
7.时区同步和网络同步
8.
9.公有云配置
1.基础网络配置--->外网防火墙(安全组)
2.创建主机
10.apache hadoop是一款开源的分布式处理技术栈
1.hadoop HDFS:分布式数据存储技术
2.hadoop MapReduce:分布式数据计算技术
3.Hadoop YARN:分部署资源调度技术
2008年以后:
1.Apache HbaseNoSql数据库
2.Apache Kafka 分布式消息队列
3.Apache Spark 分布式内存计算引擎
4.Apache Flume流式数据传输工具
5.Apache Hive 分布式sql平台
6.Apache Flink 流计算平台
特征:
1.体积
2.种类
3.价值
4.速度
5.质量
Hadoop安装:
4个配置文件
5.
6.
7.
不良平台操作实例: hadoop fs -mkdir -p hdfs://NameNode1:8020/tmp/20231225yyp5.txt
不良信息操作实例:修改已存在文件的副本数,默认是3个副本:
hadoop fs -setrep -R 3 hdfs://NameNode1:8020/tmp/20231225yyp12.txt
HDFS文件系统只支持删除和追加文件系统
以4个副本进行上传文件:
hadoop fs -D dfs.replication=4 -put test.txt hdfs://NameNode1:8020/tmp/20231225yyp12.txt
以4个副本进行创建目录
hadoop fs -D dfs.replication=4 -mkdir hdfs://NameNode1:8020/tmp/20231225yyp1234.txt
检查文件的副本数,块数:
hadoop fsck hdfs://NameNode1:8020/tmp/20231225yyp12.txt -files -blocks -locations
MapReduce是"分散->汇总"模式的分布式计算框架
MapReduce提供了2个编程接口:
1.Map:提供分散功能
2.Reduce:提供了聚合功能
yarn的启动:
hadoop的MapReduce进行文件单词统计:
hive两大功能组件:
1.元数据管理
2.sql解析器
大数据的需要通过BI报表来进行展示
BI:Business Intelligence 商业智能
常用的BI软件:
FineBI
SuperSet
PowerBI
TableAu
【推荐】国内首个AI IDE,深度理解中文开发场景,立即下载体验Trae
【推荐】编程新体验,更懂你的AI,立即体验豆包MarsCode编程助手
【推荐】抖音旗下AI助手豆包,你的智能百科全书,全免费不限次数
【推荐】轻量又高性能的 SSH 工具 IShell:AI 加持,快人一步
· DeepSeek 开源周回顾「GitHub 热点速览」
· 物流快递公司核心技术能力-地址解析分单基础技术分享
· .NET 10首个预览版发布:重大改进与新特性概览!
· AI与.NET技术实操系列(二):开始使用ML.NET
· .NET10 - 预览版1新功能体验(一)