07 2019 档案

摘要:在spark 任务时,必须注意cache的中间的的复用job,后续unpersist掉 一、数据仓库建模理论 1.在数据仓库领域有两个派系:Bill Inmon建模方法论和Ralph Kimball建模方法论 •Bill Inmon被称为“数据仓库之父” •Ralph Kimball被称为“商业智能 阅读全文
posted @ 2019-07-29 23:45 夜半钟声到客船 阅读(613) 评论(0) 推荐(0) 编辑
摘要:通常说的大数据平台主要包括三部分: 数据相关的工具、产品和技术: – 批量数据采集传输sqoop,spark – 离线数据处理Hadoop,Hive,Spark – 实时流处理Storm,Spark Streaming,Flink • 数据资产: – 公司业务本身产生和沉淀的数据 – 公司运作产生的 阅读全文
posted @ 2019-07-24 23:54 夜半钟声到客船 阅读(327) 评论(0) 推荐(0) 编辑
只有注册用户登录后才能阅读该文。
posted @ 2019-07-22 23:24 夜半钟声到客船 编辑
摘要:?xml version="1.0" encoding="UTF-8"?> <assembly xmlns="http://maven.apache.org/plugins/maven-assembly-plugin/assembly/1.1.0" xmlns:xsi="http://www.w3. 阅读全文
posted @ 2019-07-17 22:04 夜半钟声到客船 阅读(4259) 评论(1) 推荐(0) 编辑
摘要:4.hive优化 1)跑sql的时候会出现的参数: In order to change the average load for a reducer (in bytes): set hive.exec.reducers.bytes.per.reducer= 如果大于,就会多生成一个reduce =1024 set hive.exec.reducers.max... 阅读全文
posted @ 2019-07-14 23:18 夜半钟声到客船 阅读(335) 评论(0) 推荐(0) 编辑
摘要:1.hive的基础sql 建立测试数据表: 文章表:里面存入一段话,一个字段 (1)hive进行wordcount的统计 (2)经典的行转列 统计分析 要求转换为以下形式: (3)经典函数 时间计算 的使用 udata.user_id udata.item_id udata.rating udata 阅读全文
posted @ 2019-07-03 23:18 夜半钟声到客船 阅读(560) 评论(0) 推荐(0) 编辑

点击右上角即可分享
微信分享提示