摘要:
HDFS简介: HDFS在设计时就充分考虑了实际应用环境的特点,即硬件出错在普通服务集群中是一种常态,而不是异常。 因此HDFS主要实现了以下目标: HDFS的局限: HDFS的相关概念: 块:在传统的文件系统中,为了提高磁盘读写效率,一般以数据块为单位,而不是以次节为单位。查找数据的存储位置时,通 阅读全文
摘要:
1.分布式文件系统概述 分布式文件系统是一种通过网络实现文件在多台主机上进行分布式存储的文件系统。 普通的文件系统只需要单个计算机节点就可以完成文件的存储和处理,而分布式文件系统把文件分成一定量的数据块,分布存储到多个计算机节点上,成千上万的计算机节点构成计算机集群。而目前分布式文件系统所采用的计算 阅读全文
摘要:
Hadoop简介 Hadoop是Apache软件基金会旗下的一个开源分布式计算平台,为用户提供了系统底层细节透明的分布式基础架构。它是基于java语言开发的,具有很好的跨平台特性,其核心是分布式文件系统HDFS(Hadoop Dirstibuted File System)和 MapReduce。 阅读全文
摘要:
大数据概念:数据量大,数据类型繁多,处理速度快,价值密度低 。 大数据的影响: 思维方面:全样而非抽样,效率而非精确,相关而非因果。 关键技术:数据采集,数据存储与管理,数据处理与分析,数据隐私和安全。 两大核心技术:分布式存储:如GFS 和 HDFS 分布式处理:如MapReduce 和 Spar 阅读全文
摘要:
面向过程的程序是把所要完成的任务看成一个一个的步骤,然后通过完成每一个步骤的程序,进而写出整个程序。 面向对象的程序是将所要完成的任务分为一个一个抽象的对象,对象拥有自己的属性和方法,程序的执行就是一系列消息在对象之间的传递。 假设我们要打印学生的姓名和成绩。面向过程的方法是 面向对象的方法是 对象 阅读全文
摘要:
python的文件操作方法: file.readline() 读取下一行文件,返回含有内容的字符串 file.readlines() 读取整个文件,返回一个字符串列表 file.read() 读取整个文件,返回一个字符串 f = open("filename","mode") 打开一个文件,mode 阅读全文