随笔分类 - 大数据
摘要:hadoop搭建: 环境搭建:利用分发脚本在所有服务器上部署java和hadoop 组件部署:三个重要组件分别部署在三台服务器上,并修改配置文件 启动集群并测试功能:格式化后分别启动组件并上传文件,配置历史服务器和日志功能 服务器相关概念 类型:文件服务器、数据库服务器、WEB服务器 特点:高处理能
阅读全文
摘要:HDFS基本概念 是一个文件系统,用于存储文件,通过目录树来定位文件;是分布式的,由多个服务器联合起来实现其功。 适合场景:一次写入,多次读出,不可更改。文件写入后就不需要再改变 HDFS特征 优点 高容错,文件报错多个副本 适合处理大数据,数据规模到GB、TB甚至TP;文件数量多到百万级以上均可处
阅读全文
摘要:MapReduce 一个分布式运算程序的编程框架,用户开发“基于Hadoop的数据分析应用”的核心框架。 优点: 易于编程,用户只关心业务逻辑,实现框架的接口 良好的扩展性。可动态增加服务器,解决计算资源不够的问题 高容错性。任意节点挂掉可以将任务转移至其他节点 适合海量数据计算。(TB/PB级别)
阅读全文