hadoop - 随笔分类 - 百里登峰

Windows 下部署 hadoop spark环境

摘要：一、先在本地安装jdk 我这里安装的jdk1.8,具体的安装过程这里不作赘述二、部署安装maven 下载maven安装包，并解压设置环境变量，MAVEN_HOME=D:\SoftWare\Maven\apache-maven-3.6.1 在path路径添加;%MAVEN_HOME%\bin 打开阅读全文

posted @ 2019-09-26 10:48 百里登峰阅读(2161) 评论(1) 推荐(2)

centos 6.5 安装redis

摘要：1. 下载redis，编译安装下载地址：https://redis.io/download（建议大家都选择稳定版本）下载到本地，然后上传到集群当然也可以通过命令行直接在线下载解压 2.启动redis 该方式是前端模式，启动的缺点是ssh命令窗口关闭则redis-server程序结束，这种方式阅读全文

posted @ 2019-02-22 10:59 百里登峰阅读(342) 评论(0) 推荐(0)

mapreduce运行原理及YARN

摘要：mapreduce1回顾 mapreduce1的不足 yarn的基本架构 yarn工作流程阅读全文

posted @ 2018-05-29 22:41 百里登峰阅读(278) 评论(0) 推荐(0)

通过mapreduce把mysql的数据读取到hdfs

摘要：前面讲过了怎么通过mapreduce把mysql的一张表的数据放到另外一张表中，这次讲的是把mysql的数据读取到hdfs里面去具体怎么搭建环境我这里就不多说了。参考通过mapreduce把mysql的一张表的数据导到另外一张表中也在eclipse里面创建一个mapreduce工程具体的实现阅读全文

posted @ 2018-05-18 10:38 百里登峰阅读(1826) 评论(0) 推荐(0)

通过mapreduce把mysql的一张表的数据导到另外一张表中

摘要：怎么安装hadoop集群我在这里就不多说了，我这里安装的是三节点的集群先在主节点安装mysql 启动mysql 登录mysql 创建数据库，创建表格，先把数据加载到表格 t ,表格t2是空的配置一下mysql数据库在eclipse创建mapreduce项目在这里说一下我这里是安装的是hado 阅读全文

posted @ 2018-05-16 22:41 百里登峰阅读(363) 评论(0) 推荐(0)

zookeeper启动报 Unexpected exception, exiting abnormally 错误

摘要：当我们在集群里启动zookeeper的时候,通过jps查看没有发现zookeeper进程通过查看zookeeper日志其实是因为2181端口被占用的原因！！！通过命令sudo netstat -nltp | grep 2181查看是那个进程占用了2181端口，然后把相应的进程kill掉再次启阅读全文

posted @ 2018-05-14 17:49 百里登峰阅读(2380) 评论(0) 推荐(0)

Flume日志收集

摘要：Hdfs数据接入方式 Flume是什么 Flume在hadoop生态体系中的位置 Flume架构解析--Flume OG Flume NG架构解析—单agent部署 channel起到缓存的作用，防止从source进来的数据一下子太多了马上拥到sink Flume架构解析—核心概念 Flume架构解阅读全文

posted @ 2017-11-03 11:15 百里登峰阅读(330) 评论(0) 推荐(0)

flume用场景及架构原理

摘要：Flume是什么 1.flume可以将采集到的数据存储到HDFS上，也可以放在Hbase上。 2.flume就是一个中间插件，他的作用就是屏蔽数据源和数据存储系统的差异。可以在不同的数据源采集数据，因为数据源是多样化的。数据源的多样化和数据存储系统的多样化，flume作为一个中间插件把数据源和存储阅读全文

posted @ 2017-11-02 17:56 百里登峰阅读(324) 评论(0) 推荐(0)

sqoop导入导出

摘要：sqoop产生背景什么是sqoop sqoop的优势 sqoop1与sqoop2的比较为什么选择sqoop1 sqoop在hadoop生态体系中的位置 sqoop基本架构 sqoop import原理 sqoop import 详细流程 sqoop export原理 sqoop 安装部署 sqo 阅读全文

posted @ 2017-10-29 17:43 百里登峰阅读(358) 评论(0) 推荐(0)

HBase性能调优

摘要：Hbase调优 Hbase常见调优参数冷热数据的处理阅读全文

posted @ 2017-10-26 23:49 百里登峰阅读(212) 评论(0) 推荐(0)

HBase核心知识和应用案例

摘要：Hbase 热点问题？ Hbase 预分区 Hbase Rowkey 设计原则 Hbase 常见避免热点问题方法 Hbase 总结 Hbase 连续查询的Rowkey设计 Hbase 随机查询的Rowkey设计 Hbase columnFamily设计 Hbase 表设计 Hbase 窄表设计 Hb 阅读全文

posted @ 2017-10-23 22:10 百里登峰阅读(911) 评论(0) 推荐(0)

HBase原理和架构

摘要：HBase是什么 HBase在生态体系中的位置 HBase vs HDFS HBase表的特点 HBase是真正的分布式存储，存储级别达到TB级别，而才传统数据库就不是真正的分布式了，传统数据库在底层，虽然的存储能力很强，一旦达到上亿条数据。读取性能下降得很快。传统数据库按行存储，如果列过多的话，阅读全文

posted @ 2017-10-22 22:29 百里登峰阅读(694) 评论(0) 推荐(0)

Hive UDF作业

摘要：说到这次作业，看似简单的几个步骤，对于我这样的菜鸟来说可真是一波三折啊。下面来说说这次的步骤和我遇到的问题。首先准备工作，搭建好hive环境，保证hadoop集群是启动的。这个就不多说了。第一步：将数据导入Hive中在hive中，创建 stock 表结构。 hive> create table 阅读全文

posted @ 2017-10-20 16:01 百里登峰阅读(252) 评论(0) 推荐(0)

Hive性能调优

摘要：表分为内部表、外部表、分区表，桶表。内部表、外部表、分区表对应的是目录，桶表对应目录下的文件。阅读全文

posted @ 2017-10-19 22:48 百里登峰阅读(243) 评论(0) 推荐(0)

hive

摘要：前面讲到的海量数据存储分析：为什么需要hive: 思考一下用什么来封装！传统的数据仓库是通过sql语言存储在传统的关系型数据库里面的，hive的数据仓库是通过hql语言存储在HDFS上的，也就是说hive通过hql语言转换成mapreduce来对hdfs数据进行分析。 hive就是通过hql语言阅读全文

posted @ 2017-10-17 23:47 百里登峰阅读(673) 评论(0) 推荐(0)

hadoop分布式集群的搭建

摘要：电脑如果是8G内存或者以下建议搭建3节点集群，如果是搭建5节点集群就要增加内存条了。当然实际开发中不会用虚拟机做，一些小公司刚刚起步的时候会采用云服务，因为开始数据量不大。但随着数据量的增大才会考虑搭建自己的集群，中大型公司肯定会搭建自己的专属集群，毕竟云服务用起来方便，但是还是有很多的局限性。阅读全文

posted @ 2017-10-17 21:08 百里登峰阅读(455) 评论(0) 推荐(0)

mapreduce深入剖析5大视频

摘要：参考代码 TVPlayCount.java TVPlayData.java TVPlayInputFormat.java 先启动3节点集群与自己在本地搭建的3节点集群的hdfs连接上在终端显示的运行结果，程序没有错误查看hdfs上的输出结果阅读全文

posted @ 2017-10-11 17:08 百里登峰阅读(390) 评论(0) 推荐(0)

Hadoop IO

摘要：1.数据在存储和传输过程中出现数据的不完整性，数据传输量越大出错的概论就越高。 2.通过校验的方法可以知道数据是不完整的。 3.检测的思路是通过校验和，在传输之前计算一个校验和传输之后再计算一个校验和，两个校验和进行比较，如果不同的话就说明数据错误。 4.常见的检测手段：CRC（循环冗余校验）：常见阅读全文

posted @ 2017-09-27 10:03 百里登峰阅读(211) 评论(0) 推荐(0)

HDFS操作及小文件合并

摘要：小文件合并是针对文件上传到HDFS之前这些文件夹里面都是小文件参考代码最后一点，分清楚hadoop fs 和dfs的区别 FS涉及可以指向任何文件系统（如本地，HDFS等）的通用文件系统。因此，当您处理不同的文件系统（如本地FS，HFTP FS，S3 FS等）时，可以使用它 dfs非常具体到H 阅读全文

posted @ 2017-09-25 12:00 百里登峰阅读(16569) 评论(0) 推荐(0)

HDFS分布式文件系统

摘要：hadoop致力于构建在廉价的商用服务器上多副本存储策略（副本数存多少合适）常见是数据访问方式：流式数据访问（更适合大数据的访问）随机数据访问(更适合传统的关系型数据库的访问) 阅读全文

posted @ 2017-09-23 22:06 百里登峰阅读(254) 评论(0) 推荐(0)

百里登风

导航

公告

随笔分类 - hadoop