03 2019 档案
摘要:我在用sqoop把数据从mysql导入到hive的过程中遇到报错Error: Java.lang.RuntimeException: java.lang.RuntimeException: com.mysql.jdbc.exceptions.jdbc4.CommunicationsException
阅读全文
摘要:跑mapreduce时,有报错Error: java.io.FileNotFoundException: Path is not a file: /g6/hadoop/20190326,以下是报错内容 19/03/26 21:28:08 INFO mapreduce.Job: map 0% redu
阅读全文
摘要:在hive中load数据时,报错Display all 469 possibilities? (y or n),这是因为你的load语句中有tab建的存在,避免tab建这种问题就会消失。
阅读全文
摘要:元数据信息表中的DBS字段信息 元数据信息表中的TBLS字段信息
阅读全文
摘要:配置MySQL服务自启动 [root@hadoop000 ~]# cd /usr/local/mysql #将服务文件拷贝到init.d下,并重命名为mysql[root@hadoop000 mysql]# cp support-files/mysql.server /etc/rc.d/init.d
阅读全文
摘要:ERROR hive.HiveConfig: Could not load org.apache.hadoop.hive.conf.HiveConf. Make sure HIVE_CONF_DIR is set correctly. 命令如下: sqoop import \--connect jd
阅读全文
摘要:我知道,你是很莫名其妙的出现了这个问题,都不知道做了什么,就突然不能用了,说一下我的经历。 某天下午,我正在操作hive,mysql作为数据源,hive突然报错Exception in thread "main" java.lang.RuntimeException: Hive metastore
阅读全文
摘要:hive的分区表分区表使用背景:如果一个表中数据很多,我们查询时就很慢,耗费大量时间,如果要查询其中部分数据该怎么办呢,这时我们引入分区的概念 可以根据PARTITIONED BY创建分区表,1.一个表可以拥有一个或者多个分区,每个分区以文件夹的形式单独存在表文件夹的目录下; 2.分区是以伪字段(伪
阅读全文
摘要:hive (d6_hive)> create EXTERNAL table emp_external( > empno int, > ename string, > job string, > mgr int, > hiredate string, > sal double, > comm doub
阅读全文
摘要:提示:查看学习SQL主要通过官网 输入hive.apache.org进入hive的官网。 点击Hive Wiki 进入一个界面选择DDL或者DML选择你需要的进行语法查询 一)、DDL:CREATE/DROP/ALTER/MSCK/SHOW/DESCRIBE CREATE (DATABASE|SCH
阅读全文
摘要:java.net.ConnectException: Call From hadoop001/172.16.202.233 to hadoop001:9000 failed on connection exception: java.net.ConnectException: Connection
阅读全文
摘要:Hive Apache的顶级项目 官网: hive.apache.org 原来是hadoop里的一个子项目,后来脱离出来成为一个顶级项目。 github.com/apache/hive 这是源码地址,它是开源的,你可以对其进行代码改进,提交给社区,社区采用以后会合并进代码中 hive是一个构建在ha
阅读全文
摘要:安装之前准备:启动hadoop和mysql 用管理hadoop的用户进行以下操作 1)下载wget http://archive.cloudera.com/cdh5/cdh/5/hive-1.1.0-cdh5.7.0.tar.gz(hadoop的家目录下进行) 2)解压到~/app 进入到hadoo
阅读全文
摘要:12.通过top命令我们可以知道哪些内容 !! load average: 0.00, 0.01, 0.05 这3个值最好都不要超过10(经验) 如果超过10就是不正常 需要查一下 VIRT:virtual memory usage 1、进程“需要的”虚拟内存大小,包括进程使用的库、代码、数据等 2
阅读全文
摘要:web界面 在hosts文件都配备齐全以后就可以通过web来查看后台运行了 在浏览器输入外网ip加端口号 47.110.74.23:50070 就可以打开hadoop界面 如果在window的hosts文件里有配置 也可以hadoop001:50070 也可以打开web界面 打开以后就是这样 我们住
阅读全文
摘要:MapReduce是一种分布式计算模型,是Google提出的,主要用于搜索领域,解决海量数据的计算问题。MR有两个阶段组成:Map和Reduce,用户只需实现map()和reduce()两个函数,即可实现分布式计算。 shuffle是介于map和reduce之间的一一步,需要经过网络来实现。 shu
阅读全文
摘要:[hadoop@hadoop001 ~]$ mapred jobUsage: CLI <command> <args> [-submit <job-file>] [-status <job-id>] [-counter <job-id> <group-name> <counter-name>] [-
阅读全文
摘要:理想情况下,我们应用对Yarn资源的请求应该立刻得到满足,但现实情况资源往往是有限的,特别是在一个很繁忙的集群,一个应用资源的请求经常需要等待一段时间才能得到相应的资源。在YARN中,负责给应用分配资源的就是Scheduler。其实调度本身就是一个难题,很难找到一个完美的策略可以解决所有的应用场景。
阅读全文
摘要:在TARN中,资源管理由RescoueceManager和NodeManager共同完成,其中,Resourcemanager中的调度器负责资源分配,而NodeManager则负责资源的供给和隔离。 ResourceManager将某个Nodemanager上资源分配给任务(这就是所谓的资源调度)后
阅读全文