摘要:
elasticsearch 自定义ID: 启动本地es,然后写入数据,data2.json: 通过批量插入上述数据: 可以看到新生成的文档_id为uuid的数值! 阅读全文
摘要:
有时自己的业务需要自己实现spark的分区函数 以下代码是实现一个自定义spark分区的demo 实现的功能是根据key值的最后一位数字,写到不同的文件 例如: 10写入到part-00000 11写入到part-00001 . . . 19写入到part-00009 自定义分区: 阅读全文
摘要:
路由文档到分片 当你索引一个文档,它被存储在单独一个主分片上。Elasticsearch是如何知道文档属于哪个分片的呢?当你创建一个新文档,它是如何知道是应该存储在分片1还是分片2上的呢? 进程不能是随机的,因为我们将来要检索文档。事实上,它根据一个简单的算法决定: routing值是一个任意字符串 阅读全文
摘要:
spark streaming 入门例子: spark shell 然后运行bash脚本,在tmp里写入数据,文件名随机: 结果为: 阅读全文
摘要:
ElasticSearch-hadoop saveToEs源码分析: 类的调用路径关系为: 他们的作用: EsSpark,读取ES和存储ES的入口 EsRDDWriter,调用RestService创建PartitionWriter,对ES进行数据写入 RestService,负责创建 RestRe 阅读全文