大数据入门001

1:大数据特性

解决的功能:海量数据存储,海量数据运算
大:数据体量大
多:种类和来源多样化【结构化数据:文字,数字    非结构化:图片,视频,音频    半结构化:json】
值:低价值密度
快:速度快【数据增长速度快,数据处理速度快,获取数据的速度快】
信:数据的质量

excel 单个 sheet 列存储的最大数据量是 6w多条,两个sheet 页之间数据隔离的
mysql 单个表存储的数据量达到百万级别之后就会非常卡
大数据主要解决:
  1:存储,存不下
  2:查询慢,计算问题

2:大数据分析业务步骤

1:明确数据分析的目的和思路      搞清楚数据在哪里,我要做什么
2:数据收集:sqoop,flume      读取数据,数据在哪里
3:数据处理【提取,清洗,转化,加载】sqoop,kettle,mapreduce      对数据进行处理,过滤掉不需要的数据
4:数据分析:统计,建模,挖掘【hive,spark,flink】  指标统计,根据需求算出结果,存储结果
5:数据可视化【superset,echarts,BI工具】  结果放入查询结果非常快的数据库   hbase,redis,mysql
6:报告

 

posted @ 2024-04-22 18:03  至高无上10086  阅读(4)  评论(0编辑  收藏  举报