02 2018 档案
摘要:一、概述 在多维分析的商业智能解决方案中,根据事实表和维度表的关系,又可将常见的模型分为星型模型和雪花型模型。在设计逻辑型数据的模型的时候,就应考虑数据是按照星型模型还是雪花型模型进行组织。 当所有维表都直接连接到“ 事实表”上时,整个图解就像星星一样,故将该模型称为星型模型, 星型架构是一种非正规
阅读全文
摘要:一、概述 数据模型是数据管理的分析工具和交流的有力手段;同时,还能够很好地保证数据的一致性,是实现商务智能(Business Intelligence)的重要基础。因此建立、管理一个企业级的数据模型,应该遵循标准的命名和设计规范。 二、命名规范 1.表属性规范 表名 ODS层表名 前缀为ODS_应用
阅读全文
摘要:一、什么是数据模型 数据模型是抽象描述现实世界的一种工具和方法,是通过抽象的实体及实体之间联系的形式,来表示现实世界中事务的相互关系的一种映射。在这里,数据模型表现的抽象的是实体和实体之间的关系,通过对实体和实体之间关系的定义和描述,来表达实际的业务中具体的业务关系。 数据仓库模型是数据模型中针对特
阅读全文
摘要:一、简介 1.什么是数据仓库 数据仓库(Data Warehouse)是一个面向主题的(Subject Oriented )、集成的(Integrated)、相对稳定的(Non-Volatile)、反映历史变化(Time Variant)的数据集合,用于支持管理决策和信息的全局共享。 //请熟练记忆
阅读全文
摘要:推荐书籍:《网站分析实战——如何以数据驱动决策,提升网站价值》 相关随笔:http://blog.csdn.net/u014033218/article/details/76847263 一、网站点击流数据分析项目业务背景 1.什么是点击流数据 1.web访问日志 日志示例: 2.点击流数据模型 点
阅读全文
摘要:一、概述 1.sqoop是什么 从其官网:http://sqoop.apache.org/ Apache Sqoop(TM) is a tool designed for efficiently transferring bulk data between Apache Hadoop and str
阅读全文
摘要:一、概述 很多时候,很多工具类其实spring中就已经提供,常用的工具类有: 参考:https://www.cnblogs.com/langtianya/p/3875103.html 内置的resouce类型 UrlResource ClassPathResource FileSystemResou
阅读全文
摘要:一、概述 1.azkaban是什么 通过官方文档:https://azkaban.github.io/ Azkaban is a batch workflow job scheduler created at LinkedIn to run Hadoop jobs. Azkaban resolves
阅读全文
摘要:一、概述 1.什么是flume 官网的介绍:http://flume.apache.org/ Flume is a distributed, reliable, and available service for efficiently collecting, aggregating, and mo
阅读全文
摘要:一、hive函数 1.内置运算符与内置函数 函数分类: 查看函数信息: 常用的分析函数之rank() row_number(),参考:https://www.cnblogs.com/wujin/p/6051768.html 常用20个内置函数: https://www.cnblogs.com/kim
阅读全文
摘要:一、基本操作 1.DDL 官网的DDL语法教程:点击查看 建表语句 data_type : primitive_type | array_type | map_type | struct_type | union_type -- (Note: Available in Hive 0.7.0 and
阅读全文
摘要:一、基本概念 1.什么是hive The Apache Hive ™ data warehouse software facilitates reading, writing, and managing large datasets residing in distributed storage u
阅读全文
摘要:一、概述 1.是什么 简单说, Thymeleaf 是一个跟 Velocity、FreeMarker 类似的模板引擎,它可以完全替代 JSP 。 2.feature 1.Thymeleaf 在有网络和无网络的环境下皆可运行,即它可以让美工在浏览器查看页面的静态效果,也可以让程序员在服务器查看带数据的
阅读全文
摘要:一、概述 1.先导 mybatis入门随笔:http://www.cnblogs.com/jiangbei/p/6884641.html 2.引入依赖 //其他必须的依赖还包括mysql连接,web依赖(web项目),此处贴出完整依赖(有部分依赖例如jpa此处可不选) <?xml version="
阅读全文
摘要:一、方法名解析 1.引言 回顾HelloWorld项目中的dao接口 可以看到,这个接口中我们只是声明了方法而没有写实现,但是却是能用的,这便得益于JPA的方法名解析了 2.简单条件查询 按照 Spring Data 的规范,查询方法以 find | read | get 开头 涉及条件查询时,条件
阅读全文
摘要:一、概述 官网:https://projects.spring.io/spring-data-jpa/ 1.什么是spring-data-jpa Spring Data JPA, part of the larger Spring Data family, makes it easy to easi
阅读全文
摘要:一、实现的方式概述 注意以下的热部署方式在IDEA是默认没有打开自动编译的,手动编译需要快捷键(Ctrl+Shift+F9),自动编译的修改配置如下:(注意刷新不要太快,会有1-2秒延迟) File-Settings-Compiler-Build Project automatically 二、sp
阅读全文
摘要:一、概述 在应用运行的时升级软件,无需重新启动的方式有两种,热部署和热加载。 对于Java应用程序来说, 热部署就是在服务器运行时重新部署项目,——生产环境 热加载即在在运行时重新加载class,从而升级应用。——开发环境 二、实现原理 热加载的实现原理主要依赖java的类加载机制,在实现方式可以概
阅读全文
摘要:一、概述 基础知识,参考:https://www.cnblogs.com/ysw-go/p/5447056.html 二、springboot的单元测试 1.入门测试类 最重要的不要忘记类上面的依赖,以及类里面方法上的@Test(底层是jUnit) 这样,就可以看到相关结果了: // 为了高大上一点
阅读全文
摘要:补充 springboot中也是一样的可以对结果进行统一格式的包装,这样也就方便了前台的统一接收处理了; 1.结果集包装类 package com.example.demo.bean; /** * 结果包装 * * @author zcc ON 2018/2/9 **/ public class R
阅读全文
摘要:一、AOP使用示例 AOP的概述在spring篇已经存在,这里不再赘述 1.准备 引入依赖 2.编写Aspect类 这里需要特别注意类上面的两个注解,别忘记@Componet! 3.验证 发送请求: 查看日志: 并且也容易看出,这是在它之前执行的,也就验证了这是Before注解! 二、AOP表达式与
阅读全文
摘要:一、概述 1.准备 先把快速入门篇的结构调整一下,按照自己的喜好或者要求调整: 2.需求 基于快速入门篇增加一个女生的需求,禁止添加未成年(18岁以下) 3.实现 第一步:在bean的属性上加对应约束注解 package com.example.demo.bean; import javax.per
阅读全文
摘要:一、入门 概念就不再赘述了,由于一般我们是通过service控制事务,这里给出注解式的示例: controller层就可以调用了: 还有更多关于隔离级别等的控制: 参考:http://blog.didispace.com/springboottransactional/
阅读全文
摘要:一、Spring-Data-Jpa的引入 先给出官方文档:https://docs.spring.io/spring-data/jpa/docs/current/reference/html/ IBM的相关教程:https://www.ibm.com/developerworks/cn/openso
阅读全文
摘要:一、概述 controller的分类: 相关的使用方式和springMVC的类似了,细节不再赘述 二、Controller使用 1.使用@controller注解 直接使用会报一个错: 原因是缺少了模板的渲染,springboot支持的模板如下: Thymeleaf FreeMarker Veloc
阅读全文
摘要:一、概述 application.properties就是springboot的属性配置文件 在使用spring boot过程中,可以发现项目中只需要极少的配置就能完成相应的功能,这归功于spring boot中的模块化配置,在pom.xml中依赖的每个Starter都有默认配置,而这些默认配置足以
阅读全文
摘要:一、起步 1.先导 凡技术必登其官网的原则,官网走一波:https://projects.spring.io/spring-boot/#quick-start 极力推荐一个springboot教程:https://gitee.com/didispace/SpringBoot-Learning 2.s
阅读全文
摘要:一、HA概述 1.引言 正式引入HA机制是从hadoop2.0开始,之前的版本中没有HA机制 2.运行机制 实现高可用最关键的是消除单点故障 hadoop-ha严格来说应该分成各个组件的HA机制——HDFS的HA、YARN的HA 详解: 通过双namenode消除单点故障 双namenode协调工作
阅读全文
摘要:一、自定义in/outputFormat 1.需求 现有一些原始日志需要做增强解析处理,流程: 1、 从原始日志文件中读取数据 2、 根据日志中的一个URL字段到外部知识库中获取信息增强到原始日志 3、 如果成功增强,则输出到增强结果目录;如果增强失败,则抽取原始数据中URL字段输出到待爬清单目录
阅读全文
摘要:一、数据倾斜分析——mapJoin 1.背景 接上一个day的Join算法,我们的解决join的方式是:在reduce端通过pid进行串接,这样的话: 例如订单中的小米5卖的比较好(截止博客时间,已经是米7将出的时候了。),这样的话大部分的数据都流向了P0001的这个reduce上,而P0002 的
阅读全文
摘要:一、起步 引入依赖: 当然,一般可能项目中不会需要单独引入这个依赖,可能其他依赖自动引入了此包,请先检查,避免重复引入! 二、开始 文档:http://commons.apache.org/proper/commons-beanutils/javadocs/v1.9.3/apidocs/org/ap
阅读全文
摘要:一、本地模式调试MR程序 1.准备 参考之前随笔的windows开发说明处:http://www.cnblogs.com/jiangbei/p/8366238.html 2.流程 最重要的是设置LocalJobRunner这个参数,这样mapreduce就变成一个线程在跑了! 而处理的数据及输出结果
阅读全文
摘要:1/mr的combiner 2/mr的排序 3/mr的shuffle 4/mr与yarn 5/mr运行模式 6/mr实现join 7/mr全局图 8/mr的压缩 今日提纲 一、流量汇总排序的实现 1.需求 对日志数据中的上下行流量信息汇总,并输出按照总流量倒序排序的结果 2.分析 基本思路:实现自定
阅读全文
摘要:1.大数据概念 关键是4V:海量(数据量打)、快速(处理速度快)、多样(数据多样化)、价值(价值密度低,商业价值高) 2.大数据关键技术 两大核心技术: 计算模式: mapreduce等的批处理无法完成高效处理(没有秒级响应) stom等的流计算针对的是秒级响应的处理 Hive等的交互式实时响应 3
阅读全文