Elasticsearch 配置参数

es.nodes.wan.only  (default false)

此模式下(=true ),连接器将禁用发现,并且仅在所有操作(包括读取和写入)期间通过声明的es.nodes进行连接。在此模式下,性能会受到很大影响

es.index.read.missing.as.empty(default no)

yes:允许读取不存在的索引(并返回空数据集);no:不允许,读到时抛出异常

es.batch.size.bytes (default 1mb)

使用bulk API批量写入的大小(字节),此设置是针对每个任务实例的,运行时乘以正在运行的Hadoop任务的总数

es.batch.size.entries (default 1000)

使用bulk API进行批写的大小(以条目数计)(0表示禁用),此设置是针对每个任务实例的,运行时乘以正在运行的Hadoop任务的总数

es.batch.write.refresh (default true)

是否在大容量更新完成后调用索引刷新。只有在执行了整个写操作(意味着执行了多个大容量更新)之后才会调用此函数。

es.batch.write.retry.count (default 3)

ES过载且数据被拒绝的情况下,给定批的重试次数(负值代表无限次,可能产生副作用)

es.batch.write.retry.wait (default 10s)

批量拒绝导致的批写入重试之间的等待时间。

es.ser.reader.value.class(默认值取决于使用的库)

用于将JSON转换为对象的ValueReader实现的名称。这是由框架根据使用的库(Map/Reduce、Hive、Pig等)设置的。

es.ser.writer.value.class(默认值取决于使用的库)

用于将对象转换为JSON的ValueWriter实现的名称。这是由框架根据使用的库(Map/Reduce、Hive、Pig等)设置的。

es.http.timeout(默认1m)

Elasticsearch的HTTP/REST连接超时。

es.http.retries(默认3)

建立(断开的)http连接的重试次数。每次与Elasticsearch节点的对话都会应用重试。一旦重试次数用完,连接将自动重新分配到下一个可用的Elasticsearch节点(基于es.nodes的声明,然后是发现的节点(如果启用)。

es.scroll.keepalive(默认10m)

查询请求之间滚动结果的最长持续时间。

es.scroll.size(默认值50)

每个请求返回的结果/项目数。

es.scroll.limit(默认值-1)

每个滚动条返回的结果/项目总数。负值表示应返回所有匹配的文档。请注意,这适用于通常绑定到某个作业任务的每个滚动。因此,返回的文档总数是LIMIT*number_of_SCROLLS(或TASKS)

es.action.heart.beat.lead(默认15秒)
在Elasticsearch-hadoop通知Hadoop任务仍在运行,防止任务重新启动之前,任务超时的引导时间。

es.index.auto.create (default yes)

将数据写入Elasticsearch或失败时,elasticsearch-hadoop是否应创建索引(如果缺少索引)。

es.index.read.missing.as.empty (default no)

elasticsearch-hadoop是否允许读取不存在的索引(并返回空数据集)或不允许(并引发异常)

es.field.read.empty.as.null (default yes)

elasticsearch-hadoop是否将空字段视为null。 通常不需要此设置(因为elasticsearch-hadoop已经处理了null情况),但是可以启用此设置,以便更轻松地处理尚未清除的文本字段。

es.field.read.validate.presence (default warn)

为了帮助找出从Hadoop查询数据时可能出现的错误(这会导致返回错误的数据),elasticsearch-hadoop可以执行验证以发现缺失的字段和潜在的错别字。 可能的值为:

ignore:没有执行验证
warn:如果验证失败,则会记录一条警告消息
strict:如果缺少字段,则会引发异常,从而停止工作

posted @ 2020-05-08 10:54  liuluvaliant  阅读(3333)  评论(0编辑  收藏  举报