2018 年 10月 31 日随笔档案 - cctext

2018年10月31日

Spark2.2+ES6.4.2（三十一）：Spark下生成测试数据，并在Spark环境下使用BulkProcessor将测试数据入库到ES

摘要： Spark下生成2000w测试数据（每条记录150列）使用spark生成大量数据过程中遇到问题，如果sc.parallelize(fukeData, 64);的记录数特别大比如500w,1000w时，会特别慢，而且会抛出内存溢出over head错误。解决方案，一次生成的数据量不高于100w,多次阅读全文

posted @ 2018-10-31 18:33 cctext 阅读(1781) 评论(0) 推荐(0) 编辑

yy

基础才是编程人员应该深入研究的问题，警告自己问题解决不了时，多从运行原理底层研究后再考虑方案。

公告