随笔分类 - Hadoop学习成长之-入门篇
大数据学习,以后会陆续记录自己学习成长的点点滴滴。
摘要:当集群部署在阿里云或者腾讯云或者其他云上的时候,使用本地客户端访问会出现问题,解析的时候是内网地址,需要使用如下参数进行转换。 增加配置hdfs-site.xml 1 <configuration> 2 <property> 3 <name>dfs.client.use.datanode.hostn
阅读全文
摘要:代码如下: val conf = new SparkConf().setAppName("testMysqlToHiveJdbc") .setMaster("local") val spark = SparkSession.builder() .config(conf) .enableHiveSup
阅读全文
摘要:authentication disabled; ui acls disabled; users with view permissions: Set(yanfabu); groups with view permissions: Set(); users with modify permissio
阅读全文
摘要:1、数据源读取 使用的时候,需要加载驱动 --jars 或者添加到classpath中 或scaddjar Spark对Oracle数据库读取,代码如下: Spark 对Mongo读数据 2、机器学习算法转换 机器学习算法有两类不能直接添加到spark中: 1) 包中含有复杂依赖关系的,如scipy
阅读全文
摘要:1、 org.apache.hadoop.hive.metastore.HiveMetaException: Failed to get schema version.Underlying cause: com.mysql.jdbc.exceptions.jdbc4.MySQLSyntaxError
阅读全文
摘要:yum源卸载: yum -y remove java java-1.8.0-openjdk.x86_64
阅读全文
摘要:1、官网下载Hive组件,拷贝至虚拟机, 地址: https://pan.baidu.com/s/1_ijjPTJdKfsA3JbbqYNN3Q 5fwu tar -zxvf apache-hive-2.3.3-bin.tar.gz 解压命令 2、配置环境变量, vi .bash_profile e
阅读全文
摘要:1、下载版本对应的spark和hadoop,如下: 2、配置Spark 解压Spark并配置环境变量, 新建环境变量如下: 在Path中增加如下环境变量: 3、配置hadoop相关变量, 4、下载hadoop组件,并进行配置(winutils ) 下载地址:https://github.com/sr
阅读全文
摘要:Spark安装首先要先安装上Hadoop,然后才可以安装Spark。 Spark官网下载:http://spark.apache.org/downloads.html 需要注意的是:Spark对应的hadoop版本,然后上传至虚拟机 安装步骤: 1、加压文件,tar -zxvf spark-2.3.
阅读全文
摘要:安装jdk.bin和jdk.tar.gz打的办法 安装jdk.bin 安装好的VM Centos7的虚拟机, 1、查看是否是64位操作系统: cat /proc/cpuinfo | grep flags | grep lm | wc -l 如果结果>0 则是64位操作系统 2、JDK 中 jdk-6
阅读全文