摘要:
1.下载,安装,配置好Hadoop 2.在IDEA中执行MapReduc 配置: 这里将JAR包加入: JAR包是:/usr/local2/hadoop/share/hadoop 目录下:直接右边+以下几个文件夹 common,common->lib, hdfs,mapreduce,yarn 3.配 阅读全文
摘要:
Spark 机器学习库从 1.2 版本以后被分为两个包: spark.mllib 包含基于RDD的原始算法API。Spark MLlib 历史比较长,在1.0 以前的版本即已经包含了,提供的算法实现都是基于原始的RDD。 spark.ml 则提供了基于DataFrames 高层次的API,可以用来构 阅读全文
摘要:
步骤:【使用java编译程序,生成.class文件】 【将.class文件打包为jar包】 【运行jar包(需要启动Hadoop)】 【查看结果】 具体实现:1.添加程序所需要的依赖vim ~/.bashrcexport HADOOP_HOME=/usr/local2/hadoop export C 阅读全文
摘要:
1.启动Hadoop,hive,mysql 2.在mysql中建表(需要导入数据的) 选中要被导出的数据: 3.使用Sqoop将数据从Hive导入MySQL 阅读全文
摘要:
1.下载:https://mirrors.tuna.tsinghua.edu.cn/apache/sqoop/1.4.6/ sqoop-1.4.6.bin__hadoop-2.0.4-alpha.tar.gz 2.解压 3.修改文件名+给文件夹附权限 4.修改配置文件sqoop-env.sh cd 阅读全文
摘要:
hive 内部表: hive> create table soyo55(name STRING,addr STRING,money STRING) row format delimited fields terminated by ',' stored as textfile; hive> load 阅读全文
摘要:
Spark 分布式环境:master,worker 节点都配置好的情况下 : 却无法通过spark-shell连接到 独立集群管理器 spark-shell --master spark://soyo-VPCCB3S1C:7077 问题处理: 原因:因为前期在非分布式情况下使用Spark通过JDBC 阅读全文
摘要:
soyo@soyo-VPCCB3S1C:~$ start-slaves.sh soyo-slave01: starting org.apache.spark.deploy.worker.Worker, logging to /usr/local2/spark/logs/spark-soyo-org. 阅读全文
摘要:
Hadoop 分布式环境slaves节点重启: 忽然无法启动DataNode和NodeManager处理: 在master节点: vim /etc/hosts: 修改slave 节点的IP (这个时候的IP应当登录slave节点ifconfig 查看) 造成这个原因是: slave节点如果是通过有线 阅读全文
摘要:
集群机器: 1台 装了 ubuntu 14.04的 台式机 1台 装了ubuntu 16.04 的 笔记本 (机器更多时同样适用) 1.需要安装好Hadoop分布式环境 参照:Hadoop分类 -->http://www.cnblogs.com/soyo/p/7868282.html 2.安装Spa 阅读全文