摘要: 用于记录Linux的相关概念以及常用命令,以便日后查询,以Ubuntu为例。 概念之间无先后顺序,只是用于记录。 1. 163软件源 笔者一般使用Ubuntu自带的软件源,自做镜像,若遇到要更换国内源的情况,可以参考 2. 琐碎知识点 安装Ubuntu时创建的用户是在sudo组下的,所以,具有sud 阅读全文
posted @ 2017-11-02 14:58 sqdmydxf 阅读(250) 评论(0) 推荐(0) 编辑
摘要: Hive对于表的操作大部分都是转换为MR作业的形式,为了提高OLAP[online analysis process 在线分析处理]的效率,Hive自身给出了很多的优化策略 1. explain[解释执行计划] 通过explain命令,可以查看Hive语句的操作情况,是否为慢查询,是否走索引,一目了 阅读全文
posted @ 2017-11-02 14:30 sqdmydxf 阅读(2947) 评论(0) 推荐(1) 编辑
摘要: Hive中的表有多种类型,每种类型的表都有其适用的场景 用于记录每种表的特性,创建方式以及一些注意事项 1. internal/managed[内部表/托管表] 由Hive完全管理表和数据的生命周期默认创建的表是内部表删除表的时候,数据也被删除 2. external[外部表] 是由LOCATION 阅读全文
posted @ 2017-11-02 14:09 sqdmydxf 阅读(509) 评论(0) 推荐(0) 编辑
摘要: 用于记录Hive的原理说明、常用命令、以及优化,以便日后查询。 1. Hive概述 a. Hive是一个数据仓库的软件,用来管理大量的数据集,对其进行数据统计分析 b. Hive并不是数据库,它和数据库的应用场景不同,数据库适用于OLTP[online transaction process 在线事 阅读全文
posted @ 2017-11-02 12:01 sqdmydxf 阅读(634) 评论(0) 推荐(0) 编辑
摘要: 用于记录Hive的安装过程,以便日后查询。 1. jdk[略] 2. hadoop[略] 3. 下载Hive,apache官网 4. 安装Hive[tar] --> 设置软链接 5. 配置Hive[matestore database: MySql] 6. 启动Hive 使用mysql数据库进行初始 阅读全文
posted @ 2017-11-02 11:39 sqdmydxf 阅读(409) 评论(0) 推荐(0) 编辑
摘要: 问题描述 使用synchronized在一个非final对象上加了锁之后,在synchronized体(同步代码块)中,将该对象的值(状态)改变之后,会导致线程不安全,即其他线程会拿到改变之后对象的锁,从而进入同步代码块。 场景设计 场景说明 两个线程a1,a2,访问同一个AAA对象aaa(临界资源 阅读全文
posted @ 2017-11-01 18:20 sqdmydxf 阅读(1149) 评论(0) 推荐(0) 编辑
摘要: 学习Hadoop之后,根据个人理解,给出Hadoop中比较重要的组件,及其之间的关联,若有理解不到位之处,后续改正。 Hadoop整体预览 重要组件及重要过程 1. HDFS a. HDFS : Hadoop Distributed File Systemb. HDFS用于Hadoop的分布式存储, 阅读全文
posted @ 2017-11-01 18:10 sqdmydxf 阅读(137) 评论(0) 推荐(0) 编辑
摘要: 用于查看Hadoop中完全分布式下Resourcemanager二次分发以及作业提交到集群后状态的变化。 IDE:eclipse 调试IDE所在操作系统:win10 Hadoop集群操作系统:Ubuntu16.04 Hadoop集群环境:完全分布式模式,版本为2.7.3 1. 两个概念 IPC : 阅读全文
posted @ 2017-10-31 19:59 sqdmydxf 阅读(630) 评论(0) 推荐(0) 编辑
摘要: 用于查看Hadoop中完全分布式下MapReduce中作业提交过程。 以下流程是根据Hadoop权威指南上的实现获取ncdc每年最高气温的代码进行调试,在Hadoop完全分布式模式中查看作业提交过程。 操作系统:Ubuntu16.04 IDE:eclipse Hadoop集群环境:完全分布式模式,版 阅读全文
posted @ 2017-10-31 19:40 sqdmydxf 阅读(1070) 评论(1) 推荐(1) 编辑
摘要: 用于查看Hadoop中MapReduce的运行流程。 以下流程是根据Hadoop权威指南上的实现获取ncdc每年最高气温的代码进行调试,在Hadoop本地模式中查看其运行流程。 操作系统:Ubuntu16.04 IDE:eclipse Hadoop集群环境:本地模式,版本为2.7.3 一开始是通过i 阅读全文
posted @ 2017-10-31 16:36 sqdmydxf 阅读(1413) 评论(0) 推荐(0) 编辑