随笔分类 -  大数据

摘要:如何使用Spark ALS实现协同过滤 阅读全文
posted @ 2017-10-12 18:12 花弄影 阅读(616) 评论(0) 推荐(0) 编辑
摘要:一.经验 1.Spark Streaming包含三种计算模式:nonstate .stateful .window 2.kafka可通过配置文件使用自带的zookeeper集群 3.Spark一切操作归根结底是对RDD的操作 4.部署Spark任务,不用拷贝整个架包,只需拷贝被修改的文件,然后在目标 阅读全文
posted @ 2017-10-12 12:56 花弄影 阅读(8586) 评论(0) 推荐(1) 编辑
摘要:HDFS是Hadoop应用程序使用的主要分布式存储。HDFS集群主要由管理文件系统元数据的NameNode和存储实际数据的DataNodes组成,HDFS架构图描述了NameNode,DataNode和客户端之间的基本交互。客户端联系NameNode进行文件元数据或文件修改,并直接使用DataNod 阅读全文
posted @ 2017-06-21 23:36 花弄影 阅读(492) 评论(0) 推荐(0) 编辑
摘要:环境:Centos6.9+jdk+hadoop1.下载hadoop的tar包,这里以hadoop2.6.5版本为例,下载地址https://archive.apache.org/dist/hadoop/common/hadoop-2.6.5/hadoop-2.6.5.tar.gz2.修改linux虚 阅读全文
posted @ 2017-06-17 09:16 花弄影 阅读(530) 评论(0) 推荐(0) 编辑

点击右上角即可分享
微信分享提示