摘要:
大数据技术之Sqoop 第1章 Sqoop简介 Sqoop是一款开源的工具,主要用于在Hadoop(Hive)与传统的数据库(mysql、postgresql...)间进行数据的传递,可以将一个关系型数据库(例如 : MySQL ,Oracle ,Postgres等)中的数据导进到Hadoop的HD 阅读全文
摘要:
正则表达式:正则表达式测试工具,创建 一个正则表达式后,需要测试该正则表达式是否正确,使用正则表达式测试工具"Notepad++"来测试正则表达式。操作步骤:打开"Notepad++"软件,点击"搜索"菜单下的查找,在弹出的对话框的左下角"查找模式"选项里点选"正则表达式",在正上方的输入文本框里输 阅读全文
摘要:
_functions = { 'lit': 'Creates a :class:`Column` of literal value.', 'col': 'Returns a :class:`Column` based on the given column name.'根据给定的列名返回一个:cla 阅读全文
摘要:
Structured Streaming Programming Guide(结构化流编程指南) Overview(概貌) ·Structured Streaming是一种基于Spark SQL引擎的可扩展且容错的流处理引擎。 ·您可以像表达静态数据的批处理计算一样表达流式计算。 ·Spark SQ 阅读全文
摘要:
PySpark Usage Guide for Pandas with Apache Arrow(使用Apache Arrow的Pandas PySpark使用指南) Apache Arrow in Spark Ensure PyArrow Installed Enabling for Conver 阅读全文
摘要:
Spark Overview(Spark概述) ·Apache Spark是一种快速通用的集群计算系统。 ·它提供Java,Scala,Python和R中的高级API,以及支持通用执行图的优化引擎。 ·它还支持丰富的高级工具集,包括用于SQL和结构化数据处理的Spark SQL,用于机器学习的MLl 阅读全文
摘要:
1.1 分布式资源调度框架 1.2.1 yarn的概念 Apache Hadoop YARN (Yet Another Resource Negotiator,另一种资源协调者)是一种新的 Hadoop 资源管理器,它是一个通用资源管理系统和调度平台,可为上层应用提供统一的资源管理和调度,它的引入为 阅读全文
摘要:
第一篇:Scala编程语言 一、Scala语言基础 1、Scala语言简介 Scala是一种多范式的编程语言,其设计的初衷是要集成面向对象编程和函数式编程的各种特性。Scala运行于Java平台(Java虚拟机),并兼容现有的Java程序。它也能运行于CLDC配置的Java ME中。目前还有另一.N 阅读全文
摘要:
Hadoop 2.X 管理与开发 一、Hadoop的起源与背景知识 (一)什么是大数据 大数据(Big Data),指无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的数据集合,是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。 大数据的5个特征 阅读全文
摘要:
目标 v 理解网站点击流数据分析的业务背景 v 理解网站点击流数据分析中常用分析指标的业务含义 v 掌握网站点击流数据分析系统的技术架构 v 掌握网站点击流数据分析系统中各环节的技术实现 v 能独立设计完成一个初步的网站点击流数据分析系统 网站点击流数据分析,业务知识,推荐书籍: 《网站分析实战—— 阅读全文