07 2019 档案

数仓学习2

摘要：在spark 任务时，必须注意cache的中间的的复用job，后续unpersist掉一、数据仓库建模理论 1.在数据仓库领域有两个派系：Bill Inmon建模方法论和Ralph Kimball建模方法论 •Bill Inmon被称为“数据仓库之父” •Ralph Kimball被称为“商业智能阅读全文

posted @ 2019-07-29 23:45 夜半钟声到客船阅读(613) 评论(0) 推荐(0) 编辑

数仓学习1

摘要：通常说的大数据平台主要包括三部分：数据相关的工具、产品和技术： – 批量数据采集传输sqoop，spark – 离线数据处理Hadoop，Hive，Spark – 实时流处理Storm，Spark Streaming，Flink • 数据资产： – 公司业务本身产生和沉淀的数据 – 公司运作产生的阅读全文

posted @ 2019-07-24 23:54 夜半钟声到客船阅读(327) 评论(0) 推荐(0) 编辑

线性回归与逻辑回归

只有注册用户登录后才能阅读该文。

posted @ 2019-07-22 23:24 夜半钟声到客船编辑

maven打包依赖jar与不依赖jar

摘要：?xml version="1.0" encoding="UTF-8"?> <assembly xmlns="http://maven.apache.org/plugins/maven-assembly-plugin/assembly/1.1.0" xmlns:xsi="http://www.w3. 阅读全文

posted @ 2019-07-17 22:04 夜半钟声到客船阅读(4259) 评论(1) 推荐(0) 编辑

hive2

摘要：4.hive优化 1)跑sql的时候会出现的参数： In order to change the average load for a reducer (in bytes): set hive.exec.reducers.bytes.per.reducer= 如果大于，就会多生成一个reduce =1024 set hive.exec.reducers.max... 阅读全文

posted @ 2019-07-14 23:18 夜半钟声到客船阅读(335) 评论(0) 推荐(0) 编辑

hive学习

摘要：1.hive的基础sql 建立测试数据表：文章表：里面存入一段话，一个字段（1）hive进行wordcount的统计（2）经典的行转列统计分析要求转换为以下形式： (3)经典函数时间计算的使用 udata.user_id udata.item_id udata.rating udata 阅读全文

posted @ 2019-07-03 23:18 夜半钟声到客船阅读(560) 评论(0) 推荐(0) 编辑

公告

昵称：夜半钟声到客船
园龄： 6年1个月
粉丝： 10
关注： 12

+加关注

2025年3月

日

一

二

三

四

五

六

落霞与孤鹜齐飞

中山桥砖厂搬砖者

07 2019 档案

公告

搜索

常用链接

我的标签

随笔分类

随笔档案

阅读排行榜

评论排行榜

推荐排行榜

最新评论