大数据知识梳理（大数据发展）（整理中。。。）

大数据知识梳理（整理中。。。）

数据化浪潮

第一次 pc
第二次移动
第三次大数据物联网

促进
价格数据的产量（存储不舍得删之前每年删一次）

摩尔定律

大数据的时代

第一阶段沃尔玛数据库商店的记录萌芽
第二阶段博客微博：有限的数据发展
第三阶段感知系统的阶段物联网的到来促使大数据的到来传感器摄像头每时每刻都在收集数据成熟、

什么是大数据
4V 必须提到
数据量大每年50%的增长
数据类型多
处理速度非常快妙级
价值密度低

数据的影响
实验
理论
计算
数据不知道场景发现问题

全样而非抽样
效率而非精确之前追求效率追求精确度现在则不需要精确度而追求效率
相关而非因果只追求专注相关

大数据的应用
之前的影视剧跟风亮剑影视群众演员不够
流感用户数据谷歌的收集和疾控中心的上报一样

大数据技术最核心的两个技术分布式存储分布式处理
没有一个产品解决所有问题流计算Flink storm 批处理mapreduce spark 图计算Giraph 查询分析计算 Hive

大数据云计算物联网的关系

云计算解决的两个核心问题分布式处理和分布式存储虚拟化(vpn)和多租户百度云 Iaas 基础设施即服务-服务器-cpu-硬件 PaaS平台即服务-搭建环境-开发环境和接口浏览器上网即可 SaaS-软件即服务-以服务的形似-联网即可

云计算的数据中心收费（高速公路）冷电力安全 30-50个亿 55%空调 45%--70%风扇-30%CPU--10%计算

政务云教育云医疗云智慧交通

物联网 IOT 人物物物四层-感知层传感器 --网络层-互联网电网电信网--处理层业务支撑平台 --应用层智能交通农业家居等

物联网关键技术感知技术二维码-规范的矩阵 0101黑白 RFID--公交卡没电不供电芯片电磁感应切割电流

应用智能交通医疗环境
产业 --

云计算为大数据提供分布式存储和分布式处理之前都叫云计算没有大数据大数据继承云计算物联网是大数据的数据的来源

大数据处理架构 Hadoop

Hadoop是Apache旗下的
Java语言开发
核心是HDFS和Map Reduce 海量数据的分布式存储和处理
开源用的比较多社区强大

对海量数据的处理框架高可靠高效可伸缩--加减节点高容错成本低--之前高等机器运行在Linux上支持多种编程语言开发

大企业访问层--大数据处理--数据来源
HDFS 存储处理离线处理--mr hive Hbase--实时处理
Yarn 资源调度现在的mapreduce 只负责计算2.0中
apache 不好用安装麻烦但是免费
星环国内
Hadoop社区的贡献华为第一比起谷歌
yarn 调度资源 cpu 网络内存
Spark 内存计算 Map Reduce用磁盘计算
Hadoop的安装与使用
Linux的选择
内存 4G 64位
虚拟机还是双系统
shell
sudo
Hadoop 单击模式默认模式
伪分布式
分布式处理
虚拟机 cpu虚拟化
安装
1.创建Hadoop用户
2.SSH登陆权限设置
3.安装Java环境
4.单击安装配置
5.伪分布式安装配置

（整理中。。。）

posted @ 2020-09-15 16:00 菜鸟-传奇阅读(316) 评论(0) 编辑收藏举报

刷新页面返回顶部

登录后才能查看或发表评论，立即登录或者逛逛博客园首页

公告

昵称：菜鸟-传奇
园龄： 6年7个月
粉丝： 558
关注： 18

+加关注

2025年3月

日

一

二

三

四

五

六

菜鸟-传奇

愿路途漫长，以后莫失莫忘。愿你不骄不躁，安稳顺心。

大数据知识梳理（大数据发展）（整理中。。。）

大数据知识梳理（整理中。。。）

数据化浪潮

大数据的时代

大数据云计算物联网的关系

大数据处理架构 Hadoop

愿路途漫长，以后莫失莫忘。愿你不骄不躁，安稳顺心。

公告

搜索

我的标签

积分与排名

随笔分类 (518)

文章分类 (24)

阅读排行榜

评论排行榜

推荐排行榜

菜鸟-传奇

愿路途漫长，以后莫失莫忘。 愿你不骄不躁，安稳顺心。

大数据知识梳理（大数据发展）（整理中。。。）

大数据知识梳理（整理中。。。）

数据化浪潮

大数据的时代

大数据 云计算 物联网的关系

大数据处理架构 Hadoop

公告

搜索

我的标签

积分与排名

随笔分类 (518)

文章分类 (24)

阅读排行榜

评论排行榜

推荐排行榜

愿路途漫长，以后莫失莫忘。愿你不骄不躁，安稳顺心。

大数据云计算物联网的关系