2016年3月10日

10G数据不用框架快速去重

摘要: 试想一下,如果有10G数据,或者更多;怎么才能够快速地去重呢?你会说将数据导入到数据库(mysql等)进行去重,或者用java写个程序进行去重,或者用Hadoop进行处理。如果是大量的数据要写入数据库也不是一件容易的事情,首先你需要开发一个程序将数据写入数据库,然后再用数据库的se... 阅读全文

posted @ 2016-03-10 11:32 爱你一万年123 阅读(178) 评论(0) 推荐(0) 编辑

Spark学习笔记(一)--Spark架构

摘要: Spark架构采用了分布式计算中的Master-Slave模型。Master是对应集群中的含有Master进程的节点,Slave是集群中含有Worker进程的节点。Master作为整个集群的控制器,负责整个集群的正常运行;Worker相当于是计算节点,接收主节点命令与进行状态汇报;... 阅读全文

posted @ 2016-03-10 11:15 爱你一万年123 阅读(579) 评论(0) 推荐(0) 编辑

导航