摘要:
Git Git介绍 Git是一个开源的分布式版本控制系统,分布式相比集中式的最大区别是Git没有“中央服务器”,每位开发者都可以通过克隆远程库,在本地机器上存储一个完整的Git仓库,还可以把代码的修改提交到本地库 目的:借助github托管项目代码。 基本概念: 仓库(repository):仓库用 阅读全文
摘要:
SVN SVN是subversion的缩写,是一个开放源代码的版本控制系统,通过采用分支管理系统的高效管理,简而言之就是用于多个人共同开发同一个项目,实现共享资源,实现最终集中式的管理。 特点:一个服务器,多个客户端的集群式管理方法 SVN服务器端安装 yum install subversion 阅读全文
摘要:
版本控制 Ø 版本控制是指对软件开发过程中各种程序代码、配置文件及说明文档等文件变更的管理,是软件配置管理的核心思想之一。 Ø 任职角色:配置管理员 版本控制介绍 Ø 协同修改 多人并行不悖的修改服务器端的同一个文件。 Ø 数据备份 不仅保存目录和文件的当前状态, 还能够保存每一个提交过的历史状态。 阅读全文
摘要:
Spark调优——分配更多的资源 分配更多的资源是性能优化调优的王道,就是增加和分配更多的资源,这对于性能和速度上的提升是显而易见的。 基本上,在一定范围之内,增加资源与性能的提升,是成正比的;写完了一个复杂的spark作业之后,进行性能调优的时候,首先第一步,就是要来调节最优的资源配置; 在这个基 阅读全文
摘要:
sparksql处理点击流日志数据案例(★★★★★) 需求描述 通过sparsql对用户访问产生点击流日志数据进行分析处理,计算出对应的指标 工具类开发 代码开发——校验日志数据进行字段解析提取的工具类AccessLogUtils import scala.util.matching.Regex / 阅读全文
摘要:
sparksql整合hive spark整合hive步骤 把node03的hive安装目录下的配置文件hive-site.xml拷贝到每一个spark安装目录下对应的conf文件夹中(3台机器) cd /kkb/install/hive-1.1.0-cdh5.14.2/conf cp hive-si 阅读全文
摘要:
sparksql中自定义函数(★★★★★) 创建文件F:/test/test_udf.txt hello Hadoop DataFrame spark 自定义UDF函数 代码开发 import org.apache.spark.sql.api.java.UDF1 import org.apache. 阅读全文
摘要:
sparksql 操作hivesql 添加依赖 <dependency> <groupId>org.apache.spark</groupId> <artifactId>spark-hive_2.11</artifactId> <version>2.3.3</version> </dependenc 阅读全文
摘要:
通过IDEA开发程序实现把RDD转换DataFrame 官网学习如何创建spark sql Scala程序 添加依赖 <dependency> <groupId>org.apache.spark</groupId> <artifactId>spark-sql_2.11</artifactId> <v 阅读全文
摘要:
# shell编程快速入门 编写一个shell脚本hello.sh #/bin/bash echo 'hello world' 运行的方法: 方法1: sh hello.sh 方法2 chmod +x hello.sh ./hello.sh 说明: #!告诉系统这个脚本需要用什么解释器来执行 文件 阅读全文