摘要:
说明: 书名:CDA数据分析师系列—从零进阶!数据分析的统计基础 ISBN:978-7-121-25244-0 1、数据分析概述 1.1 什么是数据分析 描述 有针对性的收集、加工、整理数据,并采用统计、挖掘技术分析和解释数据,提炼有价值信息的一个过程。 数据分析的三个方向 一是目标,数据分析的关键 阅读全文
摘要:
1、Spark概述 Spark 是一种基于内存的快速、通用、可扩展的大数据分析计算引擎。 Spark Core Spark Core中提供了Spark最基础与最核心的功能,Spark的其他功能如:Spark SQL,Spark Streaming,GraphX,MLib都是在Spark Core的基 阅读全文
摘要:
背景 当我在使用IDEA本地连接服务器spark服务时,虽然拷贝了hive-site.xml,提供了相应的依赖,仍然报错:org.apache.hadoop.security.HadoopKerberosName.setRuleMechanism 依赖如下: <dependencies> <depe 阅读全文
摘要:
报错信息如下 原因分析 主要是没有在Spark配置hive的配置文件,把hive配置的hive-site.xml文件拷贝到spark目录下即可 mv ../hive/conf/hive-site.xml ../spark/conf/hive-site.xml 说明: 如果报JDBC错误,还需要将.. 阅读全文
摘要:
说明:环境为oracle 一、需求 二、思路 思路一: 需要判断连续发布的两次利率是否一致,如果一致,就只保留最先发布的一次记录 需要附带排序后的时间的编号,以便实现错位相减的效果 让去重后的数据进行关联,有得取舍 思路二: 如果为了能在数据获取后,对其进行序号打标,在mysql等支持procedu 阅读全文
摘要:
一、目的 解决宿主机通过VMware WorkStation安装了虚拟机后,宿主机所在的局域网中其他机器能访问宿主机里的虚拟机。 其本质是通过VMware提供的端口转发功能,链接到虚拟机ssh常用端口22,以宿主机绑定的端口跳转访问虚拟机的原理,即虚拟机和宿主机之间采用nat连接,然后通过VMwar 阅读全文
摘要:
检查当前时区 timedatectl timedatectl #是一个命令行工具,它允许你查看并且修改系统时间和日期 显示这个链接文件指向的实际路径 ls -l /etc/localtime 系统时区通过链接文件/etc/localtime配置,该链接指向/usr/share/zoneinfo目录下 阅读全文
摘要:
一、Flume概述 1.1 Flume定义 Flume是Cloudera提供的一个高可用、高可靠的分布式的海量日志采集、聚合和传输的系统。 1.2 Flume基础机构 Agent Agent是一个JVM进程,它以事件的形式将数据从源头送至目的。 Agent主要由三个部分组成:Source、Chann 阅读全文
摘要:
#! /bin/bash # 开启zookeeper集群 function zookeeper_start(){ echo " zookeeper集群启动中... "; echo " pc001 zookeeper服务启动 "; ssh pc001 "zkServer.sh start"; echo 阅读全文
摘要:
#! /bin/bash # 1.判断参数个数 if [ $# -lt 1 ] then echo 'Not Enougth Arugement!' exit; fi # 2.遍历集群所有机器 for host in pc001 pc002 pc003 do if [ $HOSTNAME != $h 阅读全文