随笔分类 - 大数据
摘要:如何使用Spark ALS实现协同过滤
阅读全文
摘要:一.经验 1.Spark Streaming包含三种计算模式:nonstate .stateful .window 2.kafka可通过配置文件使用自带的zookeeper集群 3.Spark一切操作归根结底是对RDD的操作 4.部署Spark任务,不用拷贝整个架包,只需拷贝被修改的文件,然后在目标
阅读全文
摘要:HDFS是Hadoop应用程序使用的主要分布式存储。HDFS集群主要由管理文件系统元数据的NameNode和存储实际数据的DataNodes组成,HDFS架构图描述了NameNode,DataNode和客户端之间的基本交互。客户端联系NameNode进行文件元数据或文件修改,并直接使用DataNod
阅读全文
摘要:环境:Centos6.9+jdk+hadoop1.下载hadoop的tar包,这里以hadoop2.6.5版本为例,下载地址https://archive.apache.org/dist/hadoop/common/hadoop-2.6.5/hadoop-2.6.5.tar.gz2.修改linux虚
阅读全文