每日总结|9.19-初步了解大数据技术(一)
拜托,这里是博客园欸,我每天写流水账,我觉得没有尊重“博客”两个字。
大数据技术的学习——————————
大数据不仅仅是数据的“大量化”,而是包含“快速化”,“多样化”和“价值化”等多重属性。大数据是由结构化和非结构化数据组成的。
大数据技术需要解决的难题:
1、海量数据如何存储?
很早以前,对于处理庞大的数据量时,采用的解决方案时使用NFS(网络文件系统)将数据分开存储。
缺点:海量数据分析方面不能够充分利用多台计算机同时进行分析。
解决思路:横向扩展-用多台节点分布式集群处理(通过将增加节点数量提高处理能力)
优点:成本相对低,易于线性扩展
缺点:
如何调度资源?
任务如何监控?
中间结果如何调度?
系统如何容错?
如何实现众多节点间的协调?
分布式计算的复杂性就体现在这五个问题上。
什么是Hadoop?
Hadoop是一个开源的可运行于大规模集群上的分布式文件系统和运行处理的框架。擅长于在廉价机器上搭建的集群上进行海量数据(结构化和非结构化)的存储与离线处理。它是一门用来处理大数据的技术,就是用来解决上述提到的分布式计算里面的五个技术难题的。
Hadoop的项目结构
已经说了它是一个框架。
Hadoop的核心是HDFS和Mapreduce,Hadoop2.0还包括YARN