摘要: Hadoop配备了一套的基本数据I/O操作,例如数据的压缩,数据完成行。但由于需要考虑大数据的问题,hadoop也自己开发了例如序列化框架,在磁盘的数据结构 数据完整性,通常使用计算一个checksum,在原始数据和之后的数据传输中,通常使用CRC-32,HDFS使用更高效的方法CRC-32C 在h 阅读全文
posted @ 2016-03-04 19:24 dalu610 阅读(177) 评论(0) 推荐(0) 编辑
摘要: 理想的世界,一个YARN应用请求将会立刻得到授予。而现实世界,资源是受限制的,在一个忙碌的集群中,一个应用经常需要等待他请求的资源。YARN调度负责这个事情,分配资源给应用通过一些方式定义。调度是一个困难的问题也没有所谓最好的方法。 YARN有三种调度,FIFO,Capacity,Fair Sche 阅读全文
posted @ 2016-03-04 15:35 dalu610 阅读(209) 评论(0) 推荐(0) 编辑
摘要: https://www.kaggle.com/omarelgabry/titanic/a-journey-through-titanic/discussion 这个是个很不错的python方法,下面的我也参与了讨论。 Hi, Why did you drop dummy_variables for 阅读全文
posted @ 2016-03-04 10:46 dalu610 阅读(297) 评论(0) 推荐(0) 编辑