摘要: Hadoop 作为MR 的开源实现,一直以动态运行解析文件格式并获得比MPP数据库快上几倍的装载速度为优势。不过,MPP数据库社区也一直批评Hadoop由于文件格式并非为特定目的而建,因此序列化和反序列化的成本过高。 1、hadoop 文件格 式简介 目前 hadoop 中流行的文件格式有如下几种: 阅读全文
posted @ 2016-12-08 17:33 佟学强 阅读(331) 评论(0) 推荐(0) 编辑
摘要: 之前写的三叉树,有点儿简单,并不能满足实际项目的需要。先简单分析一下solr中搜索推荐系统的核心算法。 wiki中有关于solr的搜索推荐的详细描述,但是核心算法需要自己查看源代码。关于wiki上的解读,之前做了一次简单的翻译,根据此文档,详细研读了源代码,先把核心思想呈现出来。 基本流程如下:当用 阅读全文
posted @ 2016-12-08 14:39 佟学强 阅读(446) 评论(0) 推荐(0) 编辑