07 2019 档案
摘要:在spark 任务时,必须注意cache的中间的的复用job,后续unpersist掉 一、数据仓库建模理论 1.在数据仓库领域有两个派系:Bill Inmon建模方法论和Ralph Kimball建模方法论 •Bill Inmon被称为“数据仓库之父” •Ralph Kimball被称为“商业智能
阅读全文
摘要:通常说的大数据平台主要包括三部分: 数据相关的工具、产品和技术: – 批量数据采集传输sqoop,spark – 离线数据处理Hadoop,Hive,Spark – 实时流处理Storm,Spark Streaming,Flink • 数据资产: – 公司业务本身产生和沉淀的数据 – 公司运作产生的
阅读全文
摘要:?xml version="1.0" encoding="UTF-8"?> <assembly xmlns="http://maven.apache.org/plugins/maven-assembly-plugin/assembly/1.1.0" xmlns:xsi="http://www.w3.
阅读全文
摘要:4.hive优化 1)跑sql的时候会出现的参数: In order to change the average load for a reducer (in bytes): set hive.exec.reducers.bytes.per.reducer= 如果大于,就会多生成一个reduce =1024 set hive.exec.reducers.max...
阅读全文
摘要:1.hive的基础sql 建立测试数据表: 文章表:里面存入一段话,一个字段 (1)hive进行wordcount的统计 (2)经典的行转列 统计分析 要求转换为以下形式: (3)经典函数 时间计算 的使用 udata.user_id udata.item_id udata.rating udata
阅读全文