I love myself and love all love self's people

}
摘要: SparkSql整合Hive 需要Hive的元数据,hive的元数据存储在Mysql里,sparkSql替换了yarn,不需要启动yarn,需要启动hdfs 首先你得有hive,然后你得有spark,如果是高可用hadoop还得有zookeeper,还得有dfs(hadoop中的) 我这里有3台节点 阅读全文
posted @ 2019-07-25 20:07 强行快乐~ 阅读(382) 评论(0) 推荐(0) 编辑
该文被密码保护。 阅读全文
posted @ 2019-07-25 17:19 强行快乐~ 阅读(0) 评论(0) 推荐(0) 编辑
摘要: 数据源: 用户信息数据+用户交易数据=业务数据(来自业务系统的数据库中) 用户访问日志数据:点击流数据 数据采集:sqoop定时抽取数据库表(增量数据)=》hadoop集群;flume采集点击流数据=>hadoop集群 hadoop集群:HDFS:按天进行分布存储 hive建立数据仓库=>spark 阅读全文
posted @ 2019-07-25 12:53 强行快乐~ 阅读(220) 评论(0) 推荐(0) 编辑

联系qq:1035133465