05 2019 档案

摘要:1. 任务背景 近日有个项目任务,要求读取压缩在Zip中的百科HTML文件,经分析发现,提供的Zip文件有如下特点(=>指代对应解决方案): (1) 压缩为分卷文件 => 只需将解压缩在同一目录中的一个分卷zip即可解压缩出整个文件 (2) 压缩文件中又包含不同的两个文件夹,且各包含n个小zip文件 阅读全文
posted @ 2019-05-13 23:05 mengrennwpu 阅读(4128) 评论(0) 推荐(0) 编辑
摘要:1. Es中10亿级别的数据量,如何提高查询效率 (1) 性能优化关键:file system cache a. 不要期待随手挑一个参数,就可以万能的应对所有性能慢的场景 b. es依赖于底层的file system cache,如果给file system cache更多的内存,尽量让内存容纳所有 阅读全文
posted @ 2019-05-07 08:50 mengrennwpu 阅读(2034) 评论(0) 推荐(0) 编辑
摘要:1. Graphx概念 针对某些领域,如社交网络、语言建模等,graph-parallel系统可以高效地执行复杂的图形算法,比一般的data-parallel系统更快。 Graphx是将graph-parallel的data-parallel统一到一个系统中。允许用户将数据当成一个图或一个集合RDD 阅读全文
posted @ 2019-05-07 08:50 mengrennwpu 阅读(3944) 评论(0) 推荐(0) 编辑