摘要: 本文讲解Spark的结构化数据处理,主要包括:Spark SQL、DataFrame、Dataset以及Spark SQL服务等相关内容。本文主要讲解Spark 1.6.x的结构化数据处理相关东东,但因Spark发展迅速(本文的写作时值Spark 1.6.2发布之际,并且Spark 2.0的预览版本 阅读全文
posted @ 2016-09-01 22:58 XGogo 阅读(10454) 评论(1) 推荐(0) 编辑
摘要: DocValues从Lucene4.2和Solr4.2开始加入,通过建立字段的正排索引,提升sorting, faceting, grouping, function queries等性能。 介绍 在Solr的配置文件(schema.xml)中,如果需要为一个Filed建立倒排索引,可以通过配置(i 阅读全文
posted @ 2016-09-01 11:29 XGogo 阅读(200) 评论(0) 推荐(0) 编辑
摘要: 什么是docValues? docValues是一种记录doc字段值的一种形式,在例如在结果排序和统计Facet查询时,需要通过docid取字段值的场景下是非常高效的。 为什么要使用docValues? 这种形式比老版本中利用fieldCache来实现正排查找更加高效,更加节省内存。倒排索引将字段内 阅读全文
posted @ 2016-09-01 11:27 XGogo 阅读(614) 评论(0) 推荐(0) 编辑
摘要: 转自:http://www.cnblogs.com/xlturing/p/spark.html 前言 在使用Spark Streaming的过程中对于计算产生结果的进行持久化时,我们往往需要操作数据库,去统计或者改变一些值。最近一个实时消费者处理任务,在使用spark streaming进行实时的数 阅读全文
posted @ 2016-09-01 10:04 XGogo 阅读(3570) 评论(0) 推荐(0) 编辑