03 2020 档案
摘要:一、cut:从文件的每一行剪切字节,字符,字段并将这些输出 基本用法: cut [选项参数] filename 选项参数 功能 -f 列号,提取第几列 -d 分隔符,按照指定分隔符分割列 -c 指定具体的字符 二、sed:流编辑器,一次处理一行内容,处理时,吧当前处理的行存储在临时缓冲区,称为“模式
阅读全文
摘要:Apache框架版本: CDH框架版本:
阅读全文
摘要:特点: 1、TailDirSource以接近实时的所读监控文件中写入的新行 2、TailDirSource检测文件中写入的新行,并且将每个文件tail的位置记录在一个JSON的文件中 3、即使agent挂了,重启后,source从上次记录的位置继续执行tail操作 4、用户可以 修改Position
阅读全文
摘要:这个异常是logback.xml出现错误 查看logback.xml发现标签格式错误 修改正确即可
阅读全文
摘要:一、hbase为什么要集成hive: HBase是一个NoSQL数据库!一般用作对海量大表数据的实时读写,不支持复杂的查询! Hive是一个数据仓库软件!Hive主要用来对数据仓库中的数据进行分析!Hive支持使用HQL对表中的数据进行查询! Hive > HQL >HDFS上的数据 >MR HBa
阅读全文
摘要:hbase的数据是key-value结构!因此一条数据的唯一标识就是rowkey! region也是根据rowkey进行排序,根据rowkey进行切分! rowkey设计的好,可以提供系统负载均衡的能力! 如何让regionserver负载均衡: 让数据可以基于rowkey排序后,均匀地分散到所有的
阅读全文
摘要:一、关于索引方面的作用: 不管是本地索引还是全局索引,在功能上没有任何差别,都是为了加快某个列的查询! 适合的情景不同! 因为当向hbase的表中插入数据时,数据在更新时,也需要更新索引! 本地索引: 索引以列族的形式存储在表中,在更新数据和更新索引时,只需要向数据所在的regionserver发请
阅读全文
摘要:第一个异常: no further information:没有更多的信息 往下看 就可以知道这是没有开启集群 连接不上服务器。 相应的所有服务都开启后,test通过
阅读全文
摘要:需求:向ns1库的t1表中,rowkey为r6,cf1列族中的name列,写入数据 tom put 'ns1:t1','r6','cf1:name','tom' 整个写的流程如下: 1、查询zookeeper中的/hbase/meta-region-sever, 找到habase:meta表所在的r
阅读全文
摘要:https://blog.csdn.net/gao_zhennan/article/details/79127232
阅读全文
摘要:项目介绍:项目模拟交易所,进行证券之类的交易,在撮合交易中:添加委托,更新委托,添加成交,添加或者更新持仓,会频繁进行数据库操作。防止在频繁操作数据库的过程中,数据库处理不完,导致报错,然后抛出异常,数据丢失的问题。也考虑到项目以后会使用 kafka 作为总线,进行数据交互,所以在此阶段,db 操作
阅读全文
摘要:首先了解KafkaProduce发送消息流程 一、定义一个简单的生产者(不会写找源码抄--改) 代码: public static void main(String[] args) { //producer的配置信息 Properties props = new Properties(); // 服
阅读全文
摘要:1、顺序写磁盘:即不需要寻址 2、磁盘也缓存技术:在现代操作系统中,可以把磁盘的一片区域当做临时的缓存使用 3、零拷贝技术:本地文件写入到磁盘页缓存里后直接写入另外一个节点
阅读全文
摘要:错误的信息很明显地指明main线程无法找到指定的类 这个类就是hadoop相关的 说明我们没有配置hadoop的相关依赖 在pom.xml添加hadoop相关依赖 问题就解决了 总结 :使用此方式连接数据库,要有两个依赖: 1、hive对jdbc的依赖 2、对hadoop的依赖
阅读全文
摘要:在MR中我们在Map阶段的排序可是通过两种方式 要比较的值为key 1)实现WriteComparator接口 比较简单使用 2)自定义比较器(实现RawComparator接口) 这里我们介绍一下第二种方式 1、我们要自定义一个比较器实现RawComparator接口 2、重写方法 为什么有两个方
阅读全文
摘要:分组排序是干什么的? 在Hadoop的Reduce阶段中的reduce方法中默认每一组数据调用该方法,那么什么是一组数据呢? 如果Reduce阶段输入的key相同那么就认为是一组数据 简单的说,在开发中,往往将数据封装到bean对象中,又因为bean对象中有多个字段,如果我们这些字段不完全相同 那么
阅读全文
摘要:小文件定义: 小文件是远小于hdfs块大小的文件,在hdfs上任何一个文件都有对应的元数据信息 小文件的坏处: 1、小文件太多,响应的元数据就会多,占用空间太多且namenode维护起来不方便 2、小文件太多,启动的MapTask就会过,增加开销 处理小文件的方式: 一、Har归档 HDFS存档文件
阅读全文