侧边栏

大数据知识梳理(大数据发展)(整理中。。。)

大数据知识梳理(整理中。。。)

数据化浪潮 

第一次 pc
第二次 移动
第三次 大数据 物联网

促进
价格 数据的产量 (存储 不舍得删 之前 每年删一次)

摩尔定律

大数据的时代

第一阶段 沃尔玛 数据库 商店的记录萌芽
第二阶段 博客 微博 :有限的数据 发展
第三阶段 感知系统的阶段 物联网的到来促使大数据的到来 传感器 摄像头 每时每刻都在收集数据 成熟、

什么是大数据
4V 必须提到
数据量大 每年50%的增长
数据类型多
处理速度非常快 妙级
价值密度低

数据的影响
实验
理论
计算
数据 不知道场景 发现问题

全样而非抽样
效率而非精确 之前追求效率 追求精确度 现在则不需要精确度而追求效率
相关而非因果 只追求专注相关

大数据的应用
之前的影视剧跟风 亮剑 影视 群众演员不够
流感 用户数据 谷歌的收集 和 疾控中心的上报一样

大数据技术 最核心的两个技术 分布式存储 分布式处理
没有一个产品解决所有问题 流计算Flink storm 批处理mapreduce spark 图计算Giraph 查询分析计算 Hive

大数据 云计算 物联网的关系

云计算解决的两个核心问题 分布式处理和分布式存储 虚拟化(vpn)和多租户 百度云 Iaas 基础设施即服务-服务器-cpu-硬件 PaaS平台即服务-搭建环境-开发环境和接口 浏览器 上网即可 SaaS-软件即服务-以服务的形似-联网即可

云计算的数据中心 收费 (高速公路)冷 电力 安全 30-50个亿 55%空调 45%--70%风扇-30%CPU--10%计算

政务云 教育云 医疗云 智慧交通

物联网 IOT 人物 物物 四层-感知层 传感器 --网络层-互联网 电网 电信网--处理层 业务支撑平台 --应用层 智能交通 农业 家居等

物联网关键技术 感知技术 二维码-规范的矩阵 0101黑白 RFID--公交卡 没电 不供电 芯片 电磁感应 切割电流

应用 智能交通 医疗 环境
产业 --

云计算为大数据提供分布式存储和分布式处理 之前都叫云计算没有大数据 大数据继承云计算 物联网是大数据的数据的来源

大数据处理架构 Hadoop

Hadoop是Apache旗下的
Java语言开发
核心是HDFS和Map Reduce 海量数据的分布式存储和处理
开源 用的比较多 社区强大

对海量数据的处理框架 高可靠 高效 可伸缩--加减节点 高容错 成本低--之前高等机器 运行在Linux上 支持多种编程语言 开发

大企业 访问层--大数据处理--数据来源
HDFS 存储 处理 离线处理--mr hive Hbase--实时处理
Yarn 资源调度 现在的mapreduce 只负责计算2.0中
apache 不好用 安装麻烦 但是免费
星环 国内
Hadoop社区的贡献 华为第一 比起谷歌
yarn 调度资源 cpu 网络 内存
Spark 内存计算 Map Reduce用磁盘计算
Hadoop的安装与使用
Linux的选择
内存 4G 64位
虚拟机还是双系统
shell
sudo
Hadoop 单击模式 默认模式
伪分布式
分布式处理
虚拟机 cpu虚拟化
安装
1.创建Hadoop用户
2.SSH登陆权限设置
3.安装Java环境
4.单击安装配置
5.伪分布式安装配置

(整理中。。。)

posted @ 2020-09-15 16:00  菜鸟-传奇  阅读(313)  评论(0编辑  收藏  举报