大数据入门001
1:大数据特性
解决的功能:海量数据存储,海量数据运算
大:数据体量大
多:种类和来源多样化【结构化数据:文字,数字 非结构化:图片,视频,音频 半结构化:json】
值:低价值密度
快:速度快【数据增长速度快,数据处理速度快,获取数据的速度快】
信:数据的质量
excel 单个 sheet 列存储的最大数据量是 6w多条,两个sheet 页之间数据隔离的
mysql 单个表存储的数据量达到百万级别之后就会非常卡
大数据主要解决:
1:存储,存不下
2:查询慢,计算问题
2:大数据分析业务步骤
1:明确数据分析的目的和思路 搞清楚数据在哪里,我要做什么 2:数据收集:sqoop,flume 读取数据,数据在哪里 3:数据处理【提取,清洗,转化,加载】sqoop,kettle,mapreduce 对数据进行处理,过滤掉不需要的数据 4:数据分析:统计,建模,挖掘【hive,spark,flink】 指标统计,根据需求算出结果,存储结果 5:数据可视化【superset,echarts,BI工具】 结果放入查询结果非常快的数据库 hbase,redis,mysql 6:报告
【推荐】国内首个AI IDE,深度理解中文开发场景,立即下载体验Trae
【推荐】编程新体验,更懂你的AI,立即体验豆包MarsCode编程助手
【推荐】抖音旗下AI助手豆包,你的智能百科全书,全免费不限次数
【推荐】轻量又高性能的 SSH 工具 IShell:AI 加持,快人一步
· 被坑几百块钱后,我竟然真的恢复了删除的微信聊天记录!
· 没有Manus邀请码?试试免邀请码的MGX或者开源的OpenManus吧
· 【自荐】一款简洁、开源的在线白板工具 Drawnix
· 园子的第一款AI主题卫衣上架——"HELLO! HOW CAN I ASSIST YOU TODAY
· Docker 太简单,K8s 太复杂?w7panel 让容器管理更轻松!