大数据入门001

1:大数据特性

复制代码
解决的功能:海量数据存储,海量数据运算
大:数据体量大
多:种类和来源多样化【结构化数据:文字,数字    非结构化:图片,视频,音频    半结构化:json】
值:低价值密度
快:速度快【数据增长速度快,数据处理速度快,获取数据的速度快】
信:数据的质量

excel 单个 sheet 列存储的最大数据量是 6w多条,两个sheet 页之间数据隔离的
mysql 单个表存储的数据量达到百万级别之后就会非常卡
大数据主要解决:
  1:存储,存不下
  2:查询慢,计算问题
复制代码

2:大数据分析业务步骤

1:明确数据分析的目的和思路      搞清楚数据在哪里,我要做什么
2:数据收集:sqoop,flume      读取数据,数据在哪里
3:数据处理【提取,清洗,转化,加载】sqoop,kettle,mapreduce      对数据进行处理,过滤掉不需要的数据
4:数据分析:统计,建模,挖掘【hive,spark,flink】  指标统计,根据需求算出结果,存储结果
5:数据可视化【superset,echarts,BI工具】  结果放入查询结果非常快的数据库   hbase,redis,mysql
6:报告

 

posted @   至高无上10086  阅读(8)  评论(0编辑  收藏  举报
相关博文:
阅读排行:
· 被坑几百块钱后,我竟然真的恢复了删除的微信聊天记录!
· 没有Manus邀请码?试试免邀请码的MGX或者开源的OpenManus吧
· 【自荐】一款简洁、开源的在线白板工具 Drawnix
· 园子的第一款AI主题卫衣上架——"HELLO! HOW CAN I ASSIST YOU TODAY
· Docker 太简单,K8s 太复杂?w7panel 让容器管理更轻松!
点击右上角即可分享
微信分享提示