soyosuyang

2017年12月12日

摘要： 1.下载，安装，配置好Hadoop 2.在IDEA中执行MapReduc 配置：这里将JAR包加入： JAR包是：/usr/local2/hadoop/share/hadoop 目录下：直接右边+以下几个文件夹 common，common->lib, hdfs,mapreduce,yarn 3.配阅读全文

posted @ 2017-12-12 19:40 soyosuyang 阅读(376) 评论(0) 推荐(0) 编辑

2017年12月9日

Spark SVM分类器

摘要： Spark 机器学习库从 1.2 版本以后被分为两个包： spark.mllib 包含基于RDD的原始算法API。Spark MLlib 历史比较长，在1.0 以前的版本即已经包含了，提供的算法实现都是基于原始的RDD。 spark.ml 则提供了基于DataFrames 高层次的API,可以用来构阅读全文

posted @ 2017-12-09 13:30 soyosuyang 阅读(1284) 评论(1) 推荐(0) 编辑

2017年12月8日

Hadoop MapReduce 运行步骤

摘要：步骤：【使用java编译程序，生成.class文件】【将.class文件打包为jar包】【运行jar包（需要启动Hadoop）】【查看结果】具体实现：1.添加程序所需要的依赖vim ~/.bashrcexport HADOOP_HOME=/usr/local2/hadoop export C 阅读全文

posted @ 2017-12-08 15:16 soyosuyang 阅读(342) 评论(0) 推荐(0) 编辑

2017年12月5日

将数据从数据仓库Hive导入到MySQL

摘要： 1.启动Hadoop，hive，mysql 2.在mysql中建表（需要导入数据的）选中要被导出的数据： 3.使用Sqoop将数据从Hive导入MySQL 阅读全文

posted @ 2017-12-05 18:35 soyosuyang 阅读(7049) 评论(0) 推荐(0) 编辑

ubuntu 16.04 Sqoop 安装

摘要： 1.下载：https://mirrors.tuna.tsinghua.edu.cn/apache/sqoop/1.4.6/ sqoop-1.4.6.bin__hadoop-2.0.4-alpha.tar.gz 2.解压 3.修改文件名+给文件夹附权限 4.修改配置文件sqoop-env.sh cd 阅读全文

posted @ 2017-12-05 16:54 soyosuyang 阅读(1326) 评论(0) 推荐(0) 编辑

hive 内部表与外部表的区别

摘要： hive 内部表： hive> create table soyo55(name STRING,addr STRING,money STRING) row format delimited fields terminated by ',' stored as textfile; hive> load 阅读全文

posted @ 2017-12-05 15:32 soyosuyang 阅读(504) 评论(0) 推荐(0) 编辑

2017年11月30日

Spark 分布式环境--连接独立集群管理器

摘要： Spark 分布式环境：master，worker 节点都配置好的情况下：却无法通过spark-shell连接到独立集群管理器 spark-shell --master spark://soyo-VPCCB3S1C:7077 问题处理：原因：因为前期在非分布式情况下使用Spark通过JDBC 阅读全文

posted @ 2017-11-30 19:53 soyosuyang 阅读(261) 评论(0) 推荐(0) 编辑

Spark 分布式环境---slave节点无法启动（已解决）

摘要： soyo@soyo-VPCCB3S1C:~$ start-slaves.sh soyo-slave01: starting org.apache.spark.deploy.worker.Worker, logging to /usr/local2/spark/logs/spark-soyo-org. 阅读全文

posted @ 2017-11-30 17:42 soyosuyang 阅读(3940) 评论(0) 推荐(0) 编辑

2017年11月29日

Hadoop 分布式环境slave节点重启忽然不好使了

摘要： Hadoop 分布式环境slaves节点重启：忽然无法启动DataNode和NodeManager处理：在master节点： vim /etc/hosts: 修改slave 节点的IP （这个时候的IP应当登录slave节点ifconfig 查看）造成这个原因是： slave节点如果是通过有线阅读全文

posted @ 2017-11-29 11:50 soyosuyang 阅读(505) 评论(0) 推荐(0) 编辑

2017年11月28日

Spark 2.2.0 分布式集群环境搭建

摘要：集群机器： 1台装了 ubuntu 14.04的台式机 1台装了ubuntu 16.04 的笔记本（机器更多时同样适用） 1.需要安装好Hadoop分布式环境参照：Hadoop分类 -->http://www.cnblogs.com/soyo/p/7868282.html 2.安装Spa 阅读全文

posted @ 2017-11-28 19:16 soyosuyang 阅读(637) 评论(0) 推荐(0) 编辑

公告