03 2020 档案

摘要:一、cut:从文件的每一行剪切字节,字符,字段并将这些输出 基本用法: cut [选项参数] filename 选项参数 功能 -f 列号,提取第几列 -d 分隔符,按照指定分隔符分割列 -c 指定具体的字符 二、sed:流编辑器,一次处理一行内容,处理时,吧当前处理的行存储在临时缓冲区,称为“模式 阅读全文
posted @ 2020-03-30 21:32 七寸青衫 阅读(257) 评论(0) 推荐(0) 编辑
摘要:Apache框架版本: CDH框架版本: 阅读全文
posted @ 2020-03-29 20:23 七寸青衫 阅读(416) 评论(0) 推荐(0) 编辑
摘要:特点: 1、TailDirSource以接近实时的所读监控文件中写入的新行 2、TailDirSource检测文件中写入的新行,并且将每个文件tail的位置记录在一个JSON的文件中 3、即使agent挂了,重启后,source从上次记录的位置继续执行tail操作 4、用户可以 修改Position 阅读全文
posted @ 2020-03-29 20:18 七寸青衫 阅读(546) 评论(0) 推荐(0) 编辑
摘要:这个异常是logback.xml出现错误 查看logback.xml发现标签格式错误 修改正确即可 阅读全文
posted @ 2020-03-25 22:27 七寸青衫 阅读(1407) 评论(2) 推荐(1) 编辑
摘要:一、hbase为什么要集成hive: HBase是一个NoSQL数据库!一般用作对海量大表数据的实时读写,不支持复杂的查询! Hive是一个数据仓库软件!Hive主要用来对数据仓库中的数据进行分析!Hive支持使用HQL对表中的数据进行查询! Hive > HQL >HDFS上的数据 >MR HBa 阅读全文
posted @ 2020-03-23 22:19 七寸青衫 阅读(322) 评论(0) 推荐(0) 编辑
摘要:hbase的数据是key-value结构!因此一条数据的唯一标识就是rowkey! region也是根据rowkey进行排序,根据rowkey进行切分! rowkey设计的好,可以提供系统负载均衡的能力! 如何让regionserver负载均衡: 让数据可以基于rowkey排序后,均匀地分散到所有的 阅读全文
posted @ 2020-03-23 22:03 七寸青衫 阅读(290) 评论(0) 推荐(0) 编辑
摘要:一、关于索引方面的作用: 不管是本地索引还是全局索引,在功能上没有任何差别,都是为了加快某个列的查询! 适合的情景不同! 因为当向hbase的表中插入数据时,数据在更新时,也需要更新索引! 本地索引: 索引以列族的形式存储在表中,在更新数据和更新索引时,只需要向数据所在的regionserver发请 阅读全文
posted @ 2020-03-23 22:00 七寸青衫 阅读(327) 评论(0) 推荐(0) 编辑
摘要:第一个异常: no further information:没有更多的信息 往下看 就可以知道这是没有开启集群 连接不上服务器。 相应的所有服务都开启后,test通过 阅读全文
posted @ 2020-03-22 15:21 七寸青衫 阅读(151) 评论(0) 推荐(0) 编辑
摘要:需求:向ns1库的t1表中,rowkey为r6,cf1列族中的name列,写入数据 tom put 'ns1:t1','r6','cf1:name','tom' 整个写的流程如下: 1、查询zookeeper中的/hbase/meta-region-sever, 找到habase:meta表所在的r 阅读全文
posted @ 2020-03-19 11:53 七寸青衫 阅读(120) 评论(0) 推荐(0) 编辑
摘要:https://blog.csdn.net/gao_zhennan/article/details/79127232 阅读全文
posted @ 2020-03-18 21:53 七寸青衫 阅读(92) 评论(0) 推荐(0) 编辑
摘要:项目介绍:项目模拟交易所,进行证券之类的交易,在撮合交易中:添加委托,更新委托,添加成交,添加或者更新持仓,会频繁进行数据库操作。防止在频繁操作数据库的过程中,数据库处理不完,导致报错,然后抛出异常,数据丢失的问题。也考虑到项目以后会使用 kafka 作为总线,进行数据交互,所以在此阶段,db 操作 阅读全文
posted @ 2020-03-16 23:29 七寸青衫 阅读(2095) 评论(0) 推荐(0) 编辑
摘要:首先了解KafkaProduce发送消息流程 一、定义一个简单的生产者(不会写找源码抄--改) 代码: public static void main(String[] args) { //producer的配置信息 Properties props = new Properties(); // 服 阅读全文
posted @ 2020-03-16 23:06 七寸青衫 阅读(439) 评论(0) 推荐(0) 编辑
摘要:1、顺序写磁盘:即不需要寻址 2、磁盘也缓存技术:在现代操作系统中,可以把磁盘的一片区域当做临时的缓存使用 3、零拷贝技术:本地文件写入到磁盘页缓存里后直接写入另外一个节点 阅读全文
posted @ 2020-03-16 19:50 七寸青衫 阅读(371) 评论(0) 推荐(0) 编辑
摘要:错误的信息很明显地指明main线程无法找到指定的类 这个类就是hadoop相关的 说明我们没有配置hadoop的相关依赖 在pom.xml添加hadoop相关依赖 问题就解决了 总结 :使用此方式连接数据库,要有两个依赖: 1、hive对jdbc的依赖 2、对hadoop的依赖 阅读全文
posted @ 2020-03-04 22:34 七寸青衫 阅读(235) 评论(0) 推荐(0) 编辑
摘要:在MR中我们在Map阶段的排序可是通过两种方式 要比较的值为key 1)实现WriteComparator接口 比较简单使用 2)自定义比较器(实现RawComparator接口) 这里我们介绍一下第二种方式 1、我们要自定义一个比较器实现RawComparator接口 2、重写方法 为什么有两个方 阅读全文
posted @ 2020-03-03 11:43 七寸青衫 阅读(304) 评论(0) 推荐(0) 编辑
摘要:分组排序是干什么的? 在Hadoop的Reduce阶段中的reduce方法中默认每一组数据调用该方法,那么什么是一组数据呢? 如果Reduce阶段输入的key相同那么就认为是一组数据 简单的说,在开发中,往往将数据封装到bean对象中,又因为bean对象中有多个字段,如果我们这些字段不完全相同 那么 阅读全文
posted @ 2020-03-01 16:06 七寸青衫 阅读(234) 评论(0) 推荐(0) 编辑
摘要:小文件定义: 小文件是远小于hdfs块大小的文件,在hdfs上任何一个文件都有对应的元数据信息 小文件的坏处: 1、小文件太多,响应的元数据就会多,占用空间太多且namenode维护起来不方便 2、小文件太多,启动的MapTask就会过,增加开销 处理小文件的方式: 一、Har归档 HDFS存档文件 阅读全文
posted @ 2020-03-01 00:48 七寸青衫 阅读(635) 评论(0) 推荐(1) 编辑

loading: { rebound: { tension: 16, }, spinner: { id: 'spinner', radius: 90, } }
点击右上角即可分享
微信分享提示