摘要:
SparkStreaming 一.简介 1.sparkstreaming简介 sparkstreaming是流式处理框架,是sparkAPI的扩展,支持可扩展,高吞吐量.容错的准实时数据流处理 数据来源可以是:kafka,flume,Twitter,ZeroMQ或者TCP sockets,并且可以使 阅读全文
摘要:
数据仓库 一、什么是数据仓库 数据仓库,英文名称之为DataWarehouse,可以简写成DW或者DWH。 是为企业所有级别的决策制定过程,提供所有类型数据支持的战略集合。 它处于分析性报告和决策支持目的而创建。 为需要业务智能的企业,提供指导业务流程改进,监视时间、成本、质量以及控制。 二、数据仓 阅读全文
摘要:
正则表达式和插件 一.正则表达式 1.定义:正则表达式(Regular Expression)是一种文本模式,包括普通字符(例如,a 到 z 之间的字母)和特殊字符(称为"元字符")。 正则表达式使用单个字符串来描述、匹配一系列匹配某个句法规则的字符串。 正则表达式是繁琐的,但它是强大的,学会之后的 阅读全文
摘要:
HADOOP简介 一.大数据思维 1.什么是大数据思维 分而治之:把一个复杂的问题按一定的“分解”方法分为等价的规模较小的若干部分,然后逐个解决,分别找出各部分的中间结果,把各部分的中间结果组成整个问题的最终结果。 并行:提升速度的关键 分布式运行 计算与数据在一起 计算向数据移动 二.Hadoop 阅读全文
摘要:
一.设置虚拟机 1.克隆三台虚拟机 设置IP地址和主机名称 2.设置免密钥登录 三台虚拟机各自生成密钥 ssh-keygen -t rsa -P '' -f ~/.ssh/id_rsa 设置映射名称 vim hosts (etc 目录下) 将密钥互相拷贝给对方 ssh-copy-id root@no 阅读全文
摘要:
1.天气案列 1.1原始数据 1949-10-01 14:21:02 34c 1949-10-01 19:21:02 38c 1949-10-02 14:01:02 32c 1950-01-01 11:21:02 32c 1950-10-01 12:21:02 37c 1951-12-01 12:2 阅读全文
摘要:
MapReduce流程讲解 一.简介 对于用户来说只需要书写map操作和reduce操作 mapreduce计算数据的时间较长 整个过程分为map和reduce,map负责处理原始数据,reduce负责处理map数据 二.原理分析 1.map过程 block:块-->物理上的概念,默认是128M s 阅读全文
摘要:
一,简介 JSP:Java Server Page SUN 公司提供的 动态网页编程技术,是 Java Web 服务器端的 动态资源。它相比 html 而言,html 只能为用户提供静态数据,而 Jsp 技术允许在页面中嵌套 java 代码,为用户提供动态数据。相比 servlet 而言,servl 阅读全文
摘要:
过滤器和监听器 一.过滤器 1.简介 Filter 即为过滤,用于在 Servlet 之外对 Request 或者 Response 进行修改。它主要用于对用户请求进行预处理,也可以对 HttpServletResponse 进行后处理。使用 Filter 的完整流程: Filter 对用户请求进行 阅读全文
摘要:
初识服务器 一.XML简介 1. 标记语言 标记语言,是一种将文本(Text)以及文本相关的其他信息结合起来,展现出关于文档结构和数据处理细节的电脑文字编码。当今广泛使用的标记语言是超文本标记语言(HyperText Markup Language,HTML)和可扩展标记语言(Extensible 阅读全文