2019 年 7月 25 日随笔档案 - 强行快乐~

2019年7月25日

摘要： SparkSql整合Hive 需要Hive的元数据，hive的元数据存储在Mysql里，sparkSql替换了yarn,不需要启动yarn，需要启动hdfs 首先你得有hive,然后你得有spark,如果是高可用hadoop还得有zookeeper,还得有dfs(hadoop中的) 我这里有3台节点阅读全文

posted @ 2019-07-25 20:07 强行快乐~ 阅读(382) 评论(0) 推荐(0) 编辑

戒毒篇1

该文被密码保护。阅读全文

posted @ 2019-07-25 17:19 强行快乐~ 阅读(0) 评论(0) 推荐(0) 编辑

用户画像数据处理流程

摘要：数据源: 用户信息数据+用户交易数据=业务数据（来自业务系统的数据库中）用户访问日志数据:点击流数据数据采集:sqoop定时抽取数据库表（增量数据）=》hadoop集群；flume采集点击流数据=>hadoop集群 hadoop集群:HDFS:按天进行分布存储 hive建立数据仓库=>spark 阅读全文

posted @ 2019-07-25 12:53 强行快乐~ 阅读(220) 评论(0) 推荐(0) 编辑

I love myself and love all love self's people

BigData权威指南

公告