manzi

导航

2019年4月29日 #

单机实现1T大文件的计算

摘要: 需求:文件大小1T,存储方式为行存储,其中有两行内容一致,但不确定行位置,需要找出相同两行数据; 要求:单机,内存不超过128M,不可能放下全量数据 解决方案一: 不考虑时间成本,冒泡排序原理,逐行比较,读出第一行数据与后面每一行数据比较,没有相等则继续读取第二行再比较。。。。理论上是可以实现的,只 阅读全文

posted @ 2019-04-29 18:52 manzi 阅读(298) 评论(0) 推荐(0) 编辑

HDFS基本架构及概念介绍

摘要: 简单介绍 l 设计思想 分而治之:将大文件、大批量文件,分布式存放在大量服务器上,以便于采取分而治之的方式对海量数据进行运算分析; l 在大数据系统中作用: 为各类分布式运算框架(如:mapreduce,spark,tez,……)提供数据存储服务 l 重点概念:文件切块,副本存放,元数据 HDFS概 阅读全文

posted @ 2019-04-29 17:35 manzi 阅读(2178) 评论(0) 推荐(0) 编辑