摘要:
本文较为详细地介绍了Scala的理论,并结合相应的代码进行解读与实践。文章内容主要包含Scala的简介,数据类型,函数(函数定义、匿名函数、嵌套函数、循环语句等),集合(List、Tuple、Map),伴生对象,trait,Actor,隐式转换,JDBC等。 阅读全文
摘要:
本文较为详细地介绍了Scala的理论,并结合相应的代码进行解读与实践。文章内容主要包含Scala的简介,数据类型,函数(函数定义、匿名函数、嵌套函数、循环语句等),集合(List、Tuple、Map),伴生对象,trait,Actor,隐式转换,JDBC等。 阅读全文
摘要:
awk的使用语法介绍,awk的调用方式,以及相关的案例讲解。 阅读全文
摘要:
本文旨在使读者能快速掌握Shell编程的基本技术,从Shell编程的概述,变量,输出重定向进行了详细的讲解。并且介绍了Shell脚本的编写方法,条件判断、算术运算符、文件与字符串测试和循环语句等。 阅读全文
摘要:
本文介绍了三种yum源配置的方法,一是阿里云源、二是使用CentOS的iso文件在本地挂载的方式配置yum源、三是利用远程挂载目录配置yum源。 阅读全文
摘要:
Linux环境下部署Kettle,Kettle配置文件的使用说明。制作作业调度脚本、日志清理脚本,使用Crontab做定时任务。最终达到一键上传,实现脚本上线,并可在相应日志中查看每个调度周期脚本执行情况。本文旨在记录Kettle的部署及配置文件配置注意事项和如何自制简易调度系统,以便处理类似问题时方案的复用。 阅读全文
摘要:
一、背景介绍 最近几天,接到公司的一个将当前大数据平台数据全部迁移到阿里云ODPS平台上的任务。而申请的这个ODPS平台是属于政务内网的,因考虑到安全问题当前的大数据平台与阿里云ODPS的网络是不通的,所以不能使用数据采集工作流模板。 然而,考虑到原大数据平台数据量并不是很大,可以通过将原大数据平台 阅读全文
只有注册用户登录后才能阅读该文。 阅读全文
摘要:
一、RDD概念与特性 1. RDD的概念 RDD(Resilient Distributed Dataset),是指弹性分布式数据集。数据集:Spark中的编程是基于RDD的,将原始数据加载到内存变成RDD,RDD再经过若干次转化,仍为RDD。分布式:读数据一般都是从分布式系统中去读,如hdfs、k 阅读全文
摘要:
Flume的概述,基本组件,工作原理。Source、Sink、Channel的种类介绍。Taildir Source和HDFS Sink的属性配置。以及使用变量,动态生成hdfs的path路径。 阅读全文
摘要:
本文将Hive编程从命令行、DDL、UDF、DML、Select等方面结合官方文档进行了较为详细的总结,并在相关的知识点给出相应的例子进行说明。 阅读全文
摘要:
本文讲述了Hive的基本理论,hive与Hadoop的关系,Apache hive的安装步骤,使用关系型数据库存储hive元数据的方法等。 阅读全文