工作札记 - 随笔分类 - mengrennwpu

修改elasticsearch默认索引返回数

摘要：1. 背景 (1) 客户反映es查询只能返回10000个数据，而需求时返回1.9W个数据，因此需要设置对应索引的默认返回数index.max_result_window (2) 给客户部署的服务以docker-compose启动，其配置文件docker-compose.yml文件如下，其中es版本为阅读全文

posted @ 2021-03-11 12:18 mengrennwpu 阅读(930) 评论(0) 推荐(0) 编辑

工作采坑札记: 4. linux指定目录使用df和du的统计结果相差很大

摘要：1. 背景近日，线上的服务出现异常，调用服务返回的JSON格式数据不完整，导致客户端解析异常，因此记录了本次的填坑之旅(nnd)... 2. 排查过程 2.1 服务器分析登录到服务所在linux服务器，查看磁盘I/O信息iotop、CPU信息top、网络请求netstat -alnp等一通操作，阅读全文

posted @ 2019-06-28 11:16 mengrennwpu 阅读(461) 评论(0) 推荐(0) 编辑

Es性能优化

摘要：1. Es中10亿级别的数据量，如何提高查询效率 (1) 性能优化关键：file system cache a. 不要期待随手挑一个参数，就可以万能的应对所有性能慢的场景 b. es依赖于底层的file system cache，如果给file system cache更多的内存，尽量让内存容纳所有阅读全文

posted @ 2019-05-07 08:50 mengrennwpu 阅读(2034) 评论(0) 推荐(0) 编辑

工作采坑札记：3. Spark中es-hadoop插件异常解决

摘要：1. Es-Hadoop异常： org.elasticsearch.hadoop.EsHadoopException: Could not write all entries [615/300864] (maybe ES was overloaded?). Bailing out... at org 阅读全文

posted @ 2018-08-28 22:35 mengrennwpu 阅读(521) 评论(0) 推荐(0) 编辑

工作采坑札记：2. Hadoop中MultipleInputs的使用陷阱

摘要：1. 背景近日在一个Hadoop项目中使用MultipleInputs增加多输入文件时，发现相同路径仅会加载一次，导致后续的统计任务严重失真。本博文旨在记录异常的排查及解决方案。 2. 情景重现 (1) 准备简版的输入文件test，文件内容为"i am ws"，输入的HDFS路径为/work/ju 阅读全文

posted @ 2018-08-12 22:05 mengrennwpu 阅读(578) 评论(0) 推荐(0) 编辑

工作采坑札记：1. Hadoop中的BytesWritable误区

摘要：1. 背景近日帮外部门的同事处理一个小需求，就是将HDFS中2018年至今所有存储的sequence序列化文件读取出来，重新保存成文本格式，以便于他后续进行处理。由于同事主要做机器学习方向，对hadoop或spark方面不了解，所以我就想着这么小的需求，简单支持下即可，花个几分钟写了一个脚本提供给阅读全文

posted @ 2018-04-08 22:01 mengrennwpu 阅读(1516) 评论(0) 推荐(1) 编辑

mengrennwpu

好学求知，稳健中流

随笔分类 - 工作札记

公告