摘要:
SparkSql整合Hive 需要Hive的元数据,hive的元数据存储在Mysql里,sparkSql替换了yarn,不需要启动yarn,需要启动hdfs 首先你得有hive,然后你得有spark,如果是高可用hadoop还得有zookeeper,还得有dfs(hadoop中的) 我这里有3台节点 阅读全文
该文被密码保护。 阅读全文
摘要:
数据源: 用户信息数据+用户交易数据=业务数据(来自业务系统的数据库中) 用户访问日志数据:点击流数据 数据采集:sqoop定时抽取数据库表(增量数据)=》hadoop集群;flume采集点击流数据=>hadoop集群 hadoop集群:HDFS:按天进行分布存储 hive建立数据仓库=>spark 阅读全文