摘要: 大数据最烦的就是数据质量差,为了把数据导入到sequoiadb中,需要要求文本是UTF-8模式的,使用enca查看文件编码是gb2312,然后是enca转utf-8报错。google了整个地球都不知道原因,尝试使用python进行转码# -*- coding: utf-8 -*-import cod... 阅读全文
posted @ 2015-10-28 18:12 高兴的博客 阅读(2021) 评论(1) 推荐(0) 编辑
摘要: Spark作为一个新的分布式计算引擎正慢慢流行起来,越来越来的企业也准备用它的替换MapReduce,根据自己在工作的一些体会谈谈的优势。 分布式计算归根到底还是一个Map和Reduce操作,Map操作对每个数据块进行计算,Reduce操作对结果进行汇总,现在一些NoSQL分布式数据库其实也是这么一 阅读全文
posted @ 2015-10-28 11:28 高兴的博客 阅读(2141) 评论(0) 推荐(1) 编辑