Elasticsearch 配置参数

es.nodes.wan.only (default false)

此模式下(=true )，连接器将禁用发现，并且仅在所有操作（包括读取和写入）期间通过声明的es.nodes进行连接。在此模式下，性能会受到很大影响

es.index.read.missing.as.empty(default no)

yes:允许读取不存在的索引（并返回空数据集）;no:不允许，读到时抛出异常

es.batch.size.bytes (default 1mb)

使用bulk API批量写入的大小（字节），此设置是针对每个任务实例的，运行时乘以正在运行的Hadoop任务的总数

es.batch.size.entries (default 1000)

使用bulk API进行批写的大小（以条目数计）（0表示禁用），此设置是针对每个任务实例的，运行时乘以正在运行的Hadoop任务的总数

es.batch.write.refresh (default true)

是否在大容量更新完成后调用索引刷新。只有在执行了整个写操作（意味着执行了多个大容量更新）之后才会调用此函数。

es.batch.write.retry.count (default 3)

ES过载且数据被拒绝的情况下，给定批的重试次数(负值代表无限次，可能产生副作用)

es.batch.write.retry.wait (default 10s)

批量拒绝导致的批写入重试之间的等待时间。

es.ser.reader.value.class（默认值取决于使用的库）

用于将JSON转换为对象的ValueReader实现的名称。这是由框架根据使用的库（Map/Reduce、Hive、Pig等）设置的。

es.ser.writer.value.class（默认值取决于使用的库）

用于将对象转换为JSON的ValueWriter实现的名称。这是由框架根据使用的库（Map/Reduce、Hive、Pig等）设置的。

es.http.timeout（默认1m）

Elasticsearch的HTTP/REST连接超时。

es.http.retries（默认3）

建立（断开的）http连接的重试次数。每次与Elasticsearch节点的对话都会应用重试。一旦重试次数用完，连接将自动重新分配到下一个可用的Elasticsearch节点（基于es.nodes的声明，然后是发现的节点（如果启用）。

es.scroll.keepalive（默认10m）

查询请求之间滚动结果的最长持续时间。

es.scroll.size（默认值50）

每个请求返回的结果/项目数。

es.scroll.limit（默认值-1）

每个滚动条返回的结果/项目总数。负值表示应返回所有匹配的文档。请注意，这适用于通常绑定到某个作业任务的每个滚动。因此，返回的文档总数是LIMIT*number_of_SCROLLS（或TASKS）

es.action.heart.beat.lead（默认15秒）
在Elasticsearch-hadoop通知Hadoop任务仍在运行，防止任务重新启动之前，任务超时的引导时间。

es.index.auto.create (default yes)

将数据写入Elasticsearch或失败时，elasticsearch-hadoop是否应创建索引（如果缺少索引）。

es.index.read.missing.as.empty (default no)

elasticsearch-hadoop是否允许读取不存在的索引（并返回空数据集）或不允许（并引发异常）

es.field.read.empty.as.null (default yes)

elasticsearch-hadoop是否将空字段视为null。通常不需要此设置（因为elasticsearch-hadoop已经处理了null情况），但是可以启用此设置，以便更轻松地处理尚未清除的文本字段。

es.field.read.validate.presence (default warn)

为了帮助找出从Hadoop查询数据时可能出现的错误（这会导致返回错误的数据），elasticsearch-hadoop可以执行验证以发现缺失的字段和潜在的错别字。可能的值为：

ignore：没有执行验证
warn：如果验证失败，则会记录一条警告消息
strict：如果缺少字段，则会引发异常，从而停止工作

posted @ 2020-05-08 10:54 liuluvaliant 阅读(3333) 评论(0) 编辑收藏举报

刷新页面返回顶部

liuluvaliant