关闭页面特效

阅读目录

将地图对象编写ElasticSearch
将案例类对象写入ElasticSearch
将Json字符串写入ElasticSearch
动态设置插入的类型
自定义id
自定义记录的元数据

ElasticSearch是一个基于Lucene的搜索服务器。它提供了一个分布式多用户能力的全文搜索引擎，基于RESTful web接口。企业级搜索引擎。设计用于云计算中，能够达到实时搜索，稳定，可靠，快速，安装使用方便。

　　本文并不打算介绍ElasticSearch的概念，安装部署等知识，或者直接介绍如何使用Apache Spark将数据写入到ElasticSearch中。此处使用的是类库是elasticsearch-hadoop，其从2.1版本开始提供了内置支持Apache Spark的功能，在使用elasticsearch-hadoop之前，我们需要约会依赖：

<dependency>
    <groupId>org.elasticsearch</groupId>
    <artifactId>elasticsearch-hadoop</artifactId>
    <version>2.3.4</version>
</dependency>

　　为了方便，这里直接在spark-shell中操作ElasticSearch。在此之前，我们需要在$SPARK_HOME/conf/spark-default.conf文件中加入以下配置：

spark.es.nodes　　www.iteblog.com
spark.es.port　　9200

其中spark.es.nodes指定您es替换的机器列表，但是不需要把您合并所有的索引都列在里面；spark.es.port表示要使用HTTP端口。之所以要加上spark重定向是因为Spark通过从文件里面或者命令行里面重新配置参数会加载spark elasticsearch-hadoop开头去掉。

如果您直接将代码写入文件，那么您可以在初始化SparkContext之前设置好ElasticSearch相关的参数，如下：

import org.apache.spark.SparkConf
 
val conf = new SparkConf().setAppName("iteblog").setMaster(master)
conf.set("es.nodes", "www.iteblog.com")
conf.set("es.port", "9200")
conf.set("es.index.auto.create", "true")

在写入数据之前，先导入org.elasticsearch.spark._包，这将使所有的RDD拥有saveToEs方法。下面我将一一介绍将不同类型的数据写入ElasticSearch中。

回到顶部

将地图对象编写ElasticSearch

scala> import org.elasticsearch.spark._
import org.elasticsearch.spark._
 
scala> val numbers = Map("one" -> 1, "two" -> 2, "three" -> 3)
numbers: scala.collection.immutable.Map[String,Int] = Map(one -> 1, two -> 2, three -> 3)
 
scala> val airports = Map("OTP" -> "Otopeni", "SFO" -> "San Fran")
airports: scala.collection.immutable.Map[String,String] = Map(OTP -> Otopeni, SFO -> San Fran)
 
scala> sc.makeRDD(Seq(numbers, airports)).saveToEs("iteblog/docs")

上面创建了两个地图对象，然后将其写入到ElasticSearch中；其中saveToEs里面的参数的iteblog表示索引（索引），而文档表示类型。然后我们可以通过以下URL查看iteblog这个索引的属性：

curl -XGET :9200/iteblog
 
{
    "iteblog": {
        "aliases": { }, 
        "mappings": {
            "docs": {
                "properties": {
                    "SFO": {
                        "type": "string"
                    }, 
                    "arrival": {
                        "type": "string"
                    }, 
                    "one": {
                        "type": "long"
                    }, 
                    "three": {
                        "type": "long"
                    }, 
                    "two": {
                        "type": "long"
                    }
                }
            }
        }, 
        "settings": {
            "index": {
                "creation_date": "1470805957888", 
                "uuid": "HNIcGZ69Tf6qX3XVccwKUg", 
                "number_of_replicas": "1", 
                "number_of_shards": "5", 
                "version": {
                    "created": "2030499"
                }
            }
        }, 
        "warmers": { }
    }
}

同时使用下面URL搜索出所有的文档：

:9200/iteblog/docs/_search
 
{
    "took": 2, 
    "timed_out": false, 
    "_shards": {
        "total": 5, 
        "successful": 5, 
        "failed": 0
    }, 
    "hits": {
        "total": 2, 
        "max_score": 1, 
        "hits": [
            {
                "_index": "iteblog", 
                "_type": "docs", 
                "_id": "AVZy3d5sJfxPRwCjtWM9", 
                "_score": 1, 
                "_source": {
                    "one": 1, 
                    "two": 2, 
                    "three": 3
                }
            }, 
            {
                "_index": "iteblog", 
                "_type": "docs", 
                "_id": "AVZy3d5sJfxPRwCjtWM-", 
                "_score": 1, 
                "_source": {
                    "arrival": "Otopeni", 
                    "SFO": "San Fran"
                }
            }
        ]
    }
}

回到顶部

将案例类对象写入ElasticSearch

我们还可以将Scala中的case类对象写入到ElasticSearch； Java中可以写入JavaBean对象，如下：

scala> case class Trip(departure: String, arrival: String) 
defined class Trip
 
scala> val upcomingTrip = Trip("OTP", "SFO")
upcomingTrip: Trip = Trip(OTP,SFO)
 
scala> val lastWeekTrip = Trip("MUC", "OTP")
lastWeekTrip: Trip = Trip(MUC,OTP)
 
scala> val rdd = sc.makeRDD(Seq(upcomingTrip, lastWeekTrip))  
rdd: org.apache.spark.rdd.RDD[Trip] = ParallelCollectionRDD[1] at makeRDD at <console>:37
 
scala> rdd.saveToEs("iteblog/class")

上面的代码片段将upcomingTrip和lastWeekTrip写入到称为iteblog的_index中，类型是类。上面都是通过隐式转换才设置rdd拥有saveToEs方法。elasticsearch-hadoop还提供了显式方法来把RDD写入到ElasticSearch中，如下：

scala> import org.elasticsearch.spark.rdd.EsSpark 
import org.elasticsearch.spark.rdd.EsSpark
 
scala> val rdd = sc.makeRDD(Seq(upcomingTrip, lastWeekTrip)) 
rdd: org.apache.spark.rdd.RDD[Trip] = ParallelCollectionRDD[0] at makeRDD at <console>:34
 
scala> EsSpark.saveToEs(rdd, "spark/docs")

回到顶部

将Json字符串写入ElasticSearch

我们可以直接将Json字符串写入到ElasticSearch中，如下：

scala> val json1 = """{"id" : 1, "blog" : "www.iteblog.com", "weixin" : "iteblog_hadoop"}"""
json1: String = {"id" : 1, "blog" : "www.iteblog.com", "weixin" : "iteblog_hadoop"}
 
scala> val json2 = """{"id" : 2, "blog" : "books.iteblog.com", "weixin" : "iteblog_hadoop"}"""
json2: String = {"id" : 2, "blog" : "books.iteblog.com", "weixin" : "iteblog_hadoop"}
 
scala> sc.makeRDD(Seq(json1, json2)).saveJsonToEs("iteblog/json")

回到顶部

动态设置插入的类型

有很多场景下同一个一个Job中有很多类型的数据，我们希望一次就可以将不同的数据写入到不同的类型中，从而属于书的信息全部写入到type为book里面；而属于cd的信息全部写入到type为cd里面。很高兴的是elasticsearch-hadoop为我们提供了这个功能，如下：

scala> val game = Map("media_type"->"game","title" -> "FF VI","year" -> "1994")
game: scala.collection.immutable.Map[String,String] = Map(media_type -> game, title -> FF VI, year -> 1994)
 
scala> val book = Map("media_type" -> "book","title" -> "Harry Potter","year" -> "2010")
book: scala.collection.immutable.Map[String,String] = Map(media_type -> book, title -> Harry Potter, year -> 2010)
 
scala> val cd = Map("media_type" -> "music","title" -> "Surfing With The Alien")
cd: scala.collection.immutable.Map[String,String] = Map(media_type -> music, title -> Surfing With The Alien)
 
scala> sc.makeRDD(Seq(game, book, cd)).saveToEs("iteblog/{media_type}")

类型是通过{media_type}通配符设置的，这个在写入的时候可以获取到，然后将不同类型的数据写入到不同的类型中。

回到顶部

自定义id

在ElasticSearch中，_index/_type/_id的组合可以唯一确定一个文档。如果我们不指定id的话，ElasticSearch将会自动为我们生产唯一的ID，自动生成的ID有20个字符长如下：

{
    "_index": "iteblog", 
    "_type": "docs", 
    "_id": "AVZy3d5sJfxPRwCjtWM-", 
    "_score": 1, 
    "_source": {
        "arrival": "Otopeni", 
        "SFO": "San Fran"
    }
}

很明显，这么长的字符串没啥意义，而且也不适合我们记忆使用。不过我们可以在插入数据的时候手动指定id的值，如下：

scala> val otp = Map("iata" -> "OTP", "name" -> "Otopeni")
otp: scala.collection.immutable.Map[String,String] = Map(iata -> OTP, name -> Otopeni)
 
scala> val muc = Map("iata" -> "MUC", "name" -> "Munich")
muc: scala.collection.immutable.Map[String,String] = Map(iata -> MUC, name -> Munich)
 
scala> val sfo = Map("iata" -> "SFO", "name" -> "San Fran")
sfo: scala.collection.immutable.Map[String,String] = Map(iata -> SFO, name -> San Fran)
 
scala> val airportsRDD = sc.makeRDD(Seq((1, otp), (2, muc), (3, sfo))) 
 
scala> airportsRDD.saveToEsWithMeta("iteblog/2015")

上面的Seq((1, otp), (2, muc), (3, sfo))语句指定为各个对象指定了id值，分别为1、2、3。然后您可以通过/iteblog/2015/1URL搜索到otp对象的值。我们还可以如下方式指定id：

scala> val json1 = """{"id" : 1, "blog" : "www.iteblog.com", "weixin" : "iteblog_hadoop"}"""
json1: String = {"id" : 1, "blog" : "www.iteblog.com", "weixin" : "iteblog_hadoop"}
 
scala> val json2 = """{"id" : 2, "blog" : "books.iteblog.com", "weixin" : "iteblog_hadoop"}"""
json2: String = {"id" : 2, "blog" : "books.iteblog.com", "weixin" : "iteblog_hadoop"}
 
scala> val rdd = sc.makeRDD(Seq(json1, json2))
 
scala> EsSpark.saveToEs(rdd, "iteblog/docs", Map("es.mapping.id" -> "id"))

上面通过es.mapping.id参数将对象中的id映射为每条记录的id。

回到顶部

自定义记录的元数据

我们甚至可以在写入数据的时候自定义记录的元数据，如下：

scala> import org.elasticsearch.spark.rdd.Metadata._         
import org.elasticsearch.spark.rdd.Metadata._
 
scala> val otp = Map("iata" -> "OTP", "name" -> "Otopeni")
otp: scala.collection.immutable.Map[String,String] = Map(iata -> OTP, name -> Otopeni)
 
scala> val muc = Map("iata" -> "MUC", "name" -> "Munich")
muc: scala.collection.immutable.Map[String,String] = Map(iata -> MUC, name -> Munich)
 
scala> val sfo = Map("iata" -> "SFO", "name" -> "San Fran")
sfo: scala.collection.immutable.Map[String,String] = Map(iata -> SFO, name -> San Fran)
 
scala> val otpMeta = Map(ID -> 1, TTL -> "3h")  
 
scala> val mucMeta = Map(ID -> 2, VERSION -> "23")
 
scala> val sfoMeta = Map(ID -> 3)
 
scala> val airportsRDD = sc.makeRDD(Seq((otpMeta, otp), (mucMeta, muc), (sfoMeta, sfo)))
 
scala> airportsRDD.saveToEsWithMeta("iteblog/2015")

上面的代码片段分别为otp，muc和sfo设置了不同的元数据，这在很多场景下是非常有用的。

posted on 2020-06-04 10:42 大码王阅读(1748) 评论(0) 编辑收藏举报

刷新页面返回顶部

登录后才能查看或发表评论，立即登录或者逛逛博客园首页

公告

青青陵上柏，磊磊涧中石c

运行时长：2258天0小时57分45秒

您的浏览器不兼容canvas

昵称：大码王
园龄： 5年8个月
粉丝： 233
关注： 30

+加关注

2025年3月

日

一

二

三

四

五

六

随笔分类 (719)

clickhouse(4)

flink源码分析(2)

Groovy(1)

Java(34)

Linux(3)

office(10)

OpenStack入门(1)

Phoenix+hbase(11)

photoshop(10)

python之绘图(7)

python之爬虫(15)

python之入门到实战(26)

shell大全(1)

SparkCore(14)

sparkGraphx(2)

sparksql(8)

sparkstreaming(17)

spark源码分析(11)

博客园美化(6)

操作系统(1)

随笔档案 (693)

2024年5月(4)

2024年3月(3)

2023年9月(1)

2023年4月(2)

2023年3月(4)

2023年2月(1)

2022年12月(1)

2022年11月(1)

2022年9月(2)

2022年8月(17)

2022年7月(5)

2022年5月(3)

2022年4月(18)

2021年9月(1)

2021年6月(9)

2021年5月(19)

2021年2月(1)

2021年1月(17)

2020年12月(7)

2020年11月(19)

文章分类 (35)

airflow(4)

azkban(1)

canal(1)

Cassandra(1)

datax(1)

druid(1)

Elasticsearch(8)

java(11)

mongodb(2)

redis(3)

scala(2)

文章档案 (40)

2024年4月(2)

2023年5月(2)

2023年4月(1)

2023年1月(1)

2020年6月(9)

2020年5月(25)

将地图对象编写ElasticSearch

将案例类对象写入ElasticSearch

将Json字符串写入ElasticSearch

动态设置插入的类型

自定义id

自定义记录的元数据

公告

搜索

常用链接

最新随笔

积分与排名

随笔分类 (719)

随笔档案 (693)

文章分类 (35)

文章档案 (40)

阅读排行榜

评论排行榜

推荐排行榜

最新评论

喜欢请打赏

目录导航