摘要:
本文来自Spark Streaming项目带头人 Tathagata Das的博客文章,他现在就职于Databricks公司。过去曾在UC Berkeley的AMPLab实验室进行大数据和Spark Streaming的研究工作。本文主要谈及了Spark Streaming容错的改进和零数据丢失。 阅读全文
摘要:
1.起因 公司hadoop集群里的datanonde和tasktracker节点负载主要集中于晚上到凌晨,平日工作时间负载不是很高。但在工作时间内,公司业务人员有实时查询需求,现在主要 借助于hive提供业务人员日常查询。总所周知,hive是一个基于MR的类SQL查询工具,它会把输入的查询SQL解释 阅读全文
摘要:
SecureCR 下的文件传输协议有ASCII 、Xmodem 、Ymodem 、Zmodem ASCII:这是最快的传输协议,但只能传送文本文件。 Xmodem:这种古老的传输协议速度较慢,但由于使用了CRC错误侦测方法,传输的准确率可高达99.6%。 Ymodem:这是Xmodem的改良版,使用 阅读全文
摘要:
前言 在当今每日信息量巨大的社会中,源源不断的数据需要被安全的存储.等到数据的规模越来越大的时候,也许瓶颈就来了,没有存储空间了.这时候怎么办,你也许会说,加机器解决,显然这是一个很简单直接但是又显得有些欠缺思考的办法.无谓的加机器只会带来无限上升的成本消耗,更好的办法应该是做到更加精细化的数据存储 阅读全文