big data - 随笔分类 - Lemo_wd

solr 基础 —— filed 与 schema

摘要：1. filed 的定义定义一个 field，名字为 text_general <fieldType name="text_general" class="solr.TextField" positionIncrementGap="100"> <analyzer type="index"> <to 阅读全文

posted @ 2021-06-20 11:43 Lemo_wd 阅读(386) 评论(0) 推荐(0)

solr 入门

摘要：创建 collection bin/solr create -c films -s 2 -rf 2 在var/lib/solr/films/conf 目录下有一个 managed-schema 使用 solr 的 Schema API 更新 schema 1.创建 "names" 字段使用命令行创阅读全文

posted @ 2021-06-19 17:37 Lemo_wd 阅读(81) 评论(0) 推荐(0)

JDBC 插件导入数据到 ES

摘要：mysql-demo.yml input { jdbc { jdbc_driver_class => "com.mysql.jdbc.Driver" jdbc_connection_string => "jdbc:mysql://localhost:3306/db_example" jdbc_use 阅读全文

posted @ 2020-11-01 22:29 Lemo_wd 阅读(271) 评论(0) 推荐(0)

logstash 入门及架构介绍

摘要：Pipeline input / filter / output Input Plugins Stdin/File Log4j / jdbc / kafka Output Plugins 将 Event 发送到特定的目的地，是 Pipeline 的最后一个阶段常见的 Output Plugins 阅读全文

posted @ 2020-11-01 15:39 Lemo_wd 阅读(372) 评论(0) 推荐(0)

hbase 基础 —— 架构

摘要：典型的主从架构。其中 RegionServers 负责与客户端的交互，访问数据 HMaster 负责 Region 分配，DDL（create, delete tables) 操作。 1. Regions hbase table 根据 RowKey 划分成多个 Region，Region 包含所划分阅读全文

posted @ 2020-07-26 09:42 Lemo_wd 阅读(245) 评论(0) 推荐(0)

hbase 基础 —— 基础概念

摘要：1. 简要介绍 HBase 是一个开源的非关系型分布式数据库（NoSQL），它参考了谷歌的 BigTable 建模，实现的编程语言为 Java。它是 Apache 软件基金会的 Hadoop 项目的一部分，运行于 HDFS 文件系统之上，为 Hadoop 提供类似于 BigTable 规模的服务，可阅读全文

posted @ 2020-07-25 21:52 Lemo_wd 阅读(258) 评论(0) 推荐(0)

es 实战 —— spring boot 中使用 Elasticsearch

摘要：一、基础配置依赖 <dependency> <groupId>org.springframework.boot</groupId> <artifactId>spring-boot-starter-data-elasticsearch</artifactId> </dependency> 客户端配置阅读全文

posted @ 2020-06-27 10:07 Lemo_wd 阅读(1697) 评论(0) 推荐(0)

ELK(R) 实现分布式 Nginx 日志

摘要：ELKR 概述 ELK(R) = Elasticsearch + Logstash + Kibana (+ Redis) 是一套完整的工业级日志分析工具。 Elasticsearch 是整个日志分析系统的核心，它负责对日志数据进行分析、索引等重要工作； Logstash 则主要用于对日志数据进行初步阅读全文

posted @ 2020-06-26 16:59 Lemo_wd 阅读(346) 评论(0) 推荐(0)

Flume 操作示例

摘要：一、案例1之 Spool Spool 监测配置的目录下新增的文件，并将文件中的数据读取出来。需要注意两点：拷贝到 spool 目录下的文件不可以再打开编辑。 spool 目录下不可包含相应的子目录。配置文件 jobs/spool.conf a1.sources = r1 a1.channels 阅读全文

posted @ 2020-06-21 20:51 Lemo_wd 阅读(207) 评论(0) 推荐(0)

Flink 操作 —— 水印

摘要：内置水印生成器 1.有序生成只需提取事件时间的时间戳作为水印即可。 java DataStream<MyEvent> stream = ... DataStream<MyEvent> withTimestampsAndWatermarks = stream.assignTimestampsAndW 阅读全文

posted @ 2020-04-06 17:02 Lemo_wd 阅读(1041) 评论(0) 推荐(0)

Flink 操作 —— 计算函数

摘要：一、窗口流 WindowedStream 通常由 keyedStream + windowAssigner函数生成。运行时将与 KeyedStream 和窗口上的操作合并为一个操作。 aggregate 用于按字段或者按位置（元组）对流聚合/分组 private def aggregate(aggr 阅读全文

posted @ 2020-04-06 09:33 Lemo_wd 阅读(1657) 评论(0) 推荐(0)

Flink 基础概念 —— 窗口(续)

摘要：内置方法 WindowedStream 通过 KeyedStream 可以直接创建 Count Window和 Time Window。他们最终都是基于 window(WindowAssigner)方法创建，在window方法中创建 WindowedStream实例，参数使用当前的 KeyedStr 阅读全文

posted @ 2020-03-31 08:38 Lemo_wd 阅读(748) 评论(0) 推荐(0)

Flink 基础概念 —— 窗口

摘要：时间概念事件时间、处理时间与进入时间（进入处理系统的时间)。有些程序（如预警程序）允许小的误差（事件迟到），并且希望尽快得到结果，考虑使用处理时间语义。欺诈检测系统或账单系统对准确性要求高，只有在时间窗口内发生的事件才能被算进来，考虑使用事件时间语义。窗口 1.时间窗口时间窗口是最简单和最阅读全文

posted @ 2020-03-28 18:00 Lemo_wd 阅读(555) 评论(0) 推荐(0)

es 基础概念总结 —— Query DSL

摘要：一、query DSL 叶子查询于特定字段查询特定值。如 match, term 或 range 查询复合查询包装其它叶子查询或复合查询。如使用 bool or dis_max 混合多个查询 match_all GET /_search { "query": { "match_all": {} 阅读全文

posted @ 2020-03-21 08:47 Lemo_wd 阅读(464) 评论(0) 推荐(0)

es 基础概念总结 —— URI Search

摘要：搜索 API GET /<index>/_search POST /<index>/_search GET /_search POST /_search 同时在多个索引上查询 # 单个索引： GET /twitter/_search?q=tag:wow # 多个索引： GET /kimchy,ela 阅读全文

posted @ 2020-03-18 08:28 Lemo_wd 阅读(453) 评论(0) 推荐(0)

es 基础概念总结 —— 索引

摘要：一、基本 CRUD 增 Index PUT /<index>/_doc/<_id> POST /<index>/_doc/ 查 Get GET <index>/_doc/<_id> 删 Delete DELETE /<index>/_doc/<_id> 改 Update POST /<index>/ 阅读全文

posted @ 2020-03-17 21:25 Lemo_wd 阅读(223) 评论(0) 推荐(0)

es 基础概念总结 —— 自定义分析器

摘要：一、分析器 analyzer 包括 1.字符过滤器 character filter 比如去除HTML标记，或者转化“&”为“and” 2.分词器 tokenizer 比如按空格分词 3.词单元标准化过滤器 token filter 如大小写转换，去掉停用词，增加同义词二、内置分析器标准分析器阅读全文

posted @ 2020-03-17 21:00 Lemo_wd 阅读(459) 评论(0) 推荐(0)

es 基础概念总结 —— 映射

摘要：索引 index 创建索引 PUT test/_doc/1 { "count": 5, "date": "2015/09/02" } 查看索引 GET _cat/indices?v 发现当前索引状态为 yellow, 副本数 rep是 1。这是由于单机状态不需要设置副本，因此将其改成 0 就正常了。阅读全文

posted @ 2020-03-17 09:41 Lemo_wd 阅读(446) 评论(0) 推荐(0)

流处理技术的演变

摘要：lambda 架构对低成本规模化的需求促使人们开始使用分布式文件系统，例如 HDFS 和基于批量数据的计算系统（MapReduce 作业）。但是这种系统很难到低延迟。用 Storm 开发的实时流处理技术可以帮助解决延迟性的问题，但并不完美。其中的一个原因是，Storm 不支持 exactly 阅读全文

posted @ 2020-03-09 19:54 Lemo_wd 阅读(384) 评论(0) 推荐(0)

Flink 分布式运行时

摘要：1.Job Managers、Task Managers、客户端（Clients） Flink 运行时包含两类进程： JobManagers （也称为 masters）协调分布式计算。它们负责调度任务、协调 checkpoints、协调故障恢复等。每个 Job 至少会有一个 JobManager。阅读全文

posted @ 2020-02-23 09:57 Lemo_wd 阅读(348) 评论(0) 推荐(0)

随笔分类 - big data