摘要:1. filed 的定义 定义一个 field,名字为 text_general <fieldType name="text_general" class="solr.TextField" positionIncrementGap="100"> <analyzer type="index"> <to
阅读全文
摘要:创建 collection bin/solr create -c films -s 2 -rf 2 在var/lib/solr/films/conf 目录下有一个 managed-schema 使用 solr 的 Schema API 更新 schema 1.创建 "names" 字段 使用命令行创
阅读全文
摘要:mysql-demo.yml input { jdbc { jdbc_driver_class => "com.mysql.jdbc.Driver" jdbc_connection_string => "jdbc:mysql://localhost:3306/db_example" jdbc_use
阅读全文
摘要:Pipeline input / filter / output Input Plugins Stdin/File Log4j / jdbc / kafka Output Plugins 将 Event 发送到特定的目的地,是 Pipeline 的最后一个阶段 常见的 Output Plugins
阅读全文
摘要:典型的主从架构。其中 RegionServers 负责与客户端的交互,访问数据 HMaster 负责 Region 分配,DDL(create, delete tables) 操作。 1. Regions hbase table 根据 RowKey 划分成多个 Region,Region 包含所划分
阅读全文
摘要:1. 简要介绍 HBase 是一个开源的非关系型分布式数据库(NoSQL),它参考了谷歌的 BigTable 建模,实现的编程语言为 Java。它是 Apache 软件基金会的 Hadoop 项目的一部分,运行于 HDFS 文件系统之上,为 Hadoop 提供类似于 BigTable 规模的服务,可
阅读全文
摘要:一、基础配置 依赖 <dependency> <groupId>org.springframework.boot</groupId> <artifactId>spring-boot-starter-data-elasticsearch</artifactId> </dependency> 客户端配置
阅读全文
摘要:ELKR 概述 ELK(R) = Elasticsearch + Logstash + Kibana (+ Redis) 是一套完整的工业级日志分析工具。 Elasticsearch 是整个日志分析系统的核心,它负责对日志数据进行分析、索引等重要工作; Logstash 则主要用于对日志数据进行初步
阅读全文
摘要:一、案例1之 Spool Spool 监测配置的目录下新增的文件,并将文件中的数据读取出来。需要注意两点: 拷贝到 spool 目录下的文件不可以再打开编辑。 spool 目录下不可包含相应的子目录。 配置文件 jobs/spool.conf a1.sources = r1 a1.channels
阅读全文
摘要:内置水印生成器 1.有序生成 只需提取事件时间的时间戳作为水印即可。 java DataStream<MyEvent> stream = ... DataStream<MyEvent> withTimestampsAndWatermarks = stream.assignTimestampsAndW
阅读全文
摘要:一、窗口流 WindowedStream 通常由 keyedStream + windowAssigner函数生成。运行时将与 KeyedStream 和窗口上的操作合并为一个操作。 aggregate 用于按字段或者按位置(元组)对流聚合/分组 private def aggregate(aggr
阅读全文
摘要:内置方法 WindowedStream 通过 KeyedStream 可以直接创建 Count Window和 Time Window。他们最终都是基于 window(WindowAssigner)方法创建,在window方法中创建 WindowedStream实例,参数使用当前的 KeyedStr
阅读全文
摘要:时间概念 事件时间、处理时间与进入时间(进入处理系统的时间)。 有些程序(如预警程序)允许小的误差(事件迟到),并且希望尽快得到结果,考虑使用处理时间语义。 欺诈检测系统或账单系统对准确性要求高,只有在时间窗口内发生的事件才能被算进来,考虑使用事件时间语义。 窗口 1.时间窗口 时间窗口是最简单和最
阅读全文
摘要:一、query DSL 叶子查询 于特定字段查询特定值。如 match, term 或 range 查询 复合查询 包装其它叶子查询或复合查询。如使用 bool or dis_max 混合多个查询 match_all GET /_search { "query": { "match_all": {}
阅读全文
摘要:搜索 API GET /<index>/_search POST /<index>/_search GET /_search POST /_search 同时在多个索引上查询 # 单个索引: GET /twitter/_search?q=tag:wow # 多个索引: GET /kimchy,ela
阅读全文
摘要:一、基本 CRUD 增 Index PUT /<index>/_doc/<_id> POST /<index>/_doc/ 查 Get GET <index>/_doc/<_id> 删 Delete DELETE /<index>/_doc/<_id> 改 Update POST /<index>/
阅读全文
摘要:一、分析器 analyzer 包括 1.字符过滤器 character filter 比如去除HTML标记,或者转化“&”为“and” 2.分词器 tokenizer 比如按空格分词 3.词单元标准化过滤器 token filter 如大小写转换,去掉停用词,增加同义词 二、内置分析器 标准分析器
阅读全文
摘要:索引 index 创建索引 PUT test/_doc/1 { "count": 5, "date": "2015/09/02" } 查看索引 GET _cat/indices?v 发现当前索引状态为 yellow, 副本数 rep是 1。这是由于单机状态不需要设置副本,因此将其改成 0 就正常了。
阅读全文
摘要:lambda 架构 对低成本规模化的需求促使人们开始使用分布式文件系统,例如 HDFS 和基于批量数据的计算系统(MapReduce 作业)。但是这种系统很难 到低延迟。 用 Storm 开发的实时流处理技术可以帮助解决延迟性的问 题,但并不完美。其中的一个原因是,Storm 不支持 exactly
阅读全文
摘要:1.Job Managers、Task Managers、客户端(Clients) Flink 运行时包含两类进程: JobManagers (也称为 masters)协调分布式计算。它们负责调度任务、协调 checkpoints、协调故障恢复等。 每个 Job 至少会有一个 JobManager。
阅读全文