es搜索引擎 python es搜索引擎java使用
什么是Elasticsearch
在IT界简称ES,但是搜索时(百度时)建议使用Elasticsearch来获得更有效的资源
这个软件不再是SpringCloud提供的,它也不针对微服务环境的项目来开发
Elasticsearch和redis\mysql一样,不仅服务与java语言,其它语言也可以使用
Elasticsearch是java开发的软件,所以启动它需要java环境变量
它的功能也类似一个数据库,能高效的从大量数据中搜索匹配指定关键字的内容
这样的软件有一个名称**全文搜索引擎**
它本质就是一个java项目,使用它进行数据的增删改查就是访问这个项目的控制器方法(url路径)
ES也会将数据保存在硬盘上
> ES的底层技术
ES使用了java的一套名为Lucene的API
这个API提供了全文搜索引擎核心操作的接口,相当于搜索引擎的核心支持,ES是在Lucene的基础上进行的完善,实现了开箱即用的搜索引擎软件
市面上和ES功能类似的软件有
Solr/MongoDB
为什么需要Elasticsearch
数据库进行模糊查询严重低下
所有关系型数据库都有这个缺点(mysql\mariaDB\oracle\DB2等)
在执行类似下面模糊查询时
```sql
select * from spu where spu_name like '%鼠标%'
```
测试证明**一张千万级别的数据表进行模糊查询需要20秒以上**
当前互联网项目要求"三高"的需求下,这样的效率肯定不能接受
Elasticsearch主要是为了解决数据库模糊查询性能低下问题的
ES进行优化之后,从同样数据量的ES中查询相同条件数据,效率能够提高100倍以上
数据库中索引基本概念
所谓的索引(index)其实就是数据目录
通常情况下,索引是为了提高查询效率的
数据库索引分两大类
* 聚集索引
* 非聚集索引
聚集索引就是数据库保存数据的物理顺序,默认情况下就是主键id,所以按id查询数据库中的数据效率非常高
如果想在非主键列上添加索引,就是非聚集索引了
例如我们在数据库表中存在一个姓名列,我们为姓名列创建索引
在创建索引时,会根据姓名内容来创建索引
例如"张三" 这个姓名,创建索引后查询效率就会明显提升
如果没有索引,这样的查询就会引起效率最低的逐行搜索,就是一行一行的查这个数据的姓名是不是张三
模糊查询时因为'%鼠标%',使用的是前模糊条件,使用索引必须明确前面的内容是什么,前模糊查询是不能使用索引的,只能是全表的逐行搜索,所以效率非常低
Elasticsearch运行原理
ES软件在保存数据时,和关系型数据库不同
在将数据保存到ES时,可以对指定的列进行分词索引保存在索引库中
形成倒排索引结构
Elasticsearch的启动
官方下载链接
https://www.elastic.co/cn/downloads/past-releases#elasticsearch
课程中使用7.6.2的版本
压缩包280M左右,复制到没有中文,没有空格的目录下解压
双击bin\elasticsearch.bat运行
```
elasticsearch.bat
```
双击之后可能会看到下面的dos界面
这个界面不能关闭,一旦关闭ES就停止了
验证ES的运行状态
浏览器输入地址:localhost:9200看到如下内容即可
ES基本使用
ES启动完成后,我们要学习如何操作它
我们已经讲过,操作ES是对es发送请求
我们创建一个子项目search,在这个子项目中创建一个专门发送各种类型请求的文件来操作ES
创建search项目也要父子相认
然后子项目pom文件如下
删除test文件夹
下面创建一个能够向ES发送请求的文件
这种能够向指定url发送请求的文件格式称之为http client(http 客户端)
文件类型叫HTTP Request文件
我们先从最简单的请求开始
向es发送指令
analyze:分析
analyzer:分析者(分词器)
standard是ES默认的分词器,"analyzer": "standard"是可以省略的
standard这个分词器只能对英文等西文字符(有空格的),进行正确分词
但是中文分词不能按空格分,按这个分词器分词,每个字都会形成分词,这样的结果不能满足我们日常的搜索需要
我们解决中文不能正确分词的问题
实际上要引入一个中文常见词语的词库,分词时按照词库中的词语分词即可
我们可以使用免费的中文分词器词库插件IK来实现中文分词效果
安装插件之后要重启ES才能生效
关闭Es窗口之后再双击运行即可
ES启动之后,将中文分词器插件设置完成,在运行分词
再次运行分词测试,应该看到正常的中文分词效果
ik分词插件的使用
我们安装的ik实际上不只一个分词器
实际上除了ik_smart之外还有ik_max_word
上面的两个分词器运行分词,结果会有非常明显的区别
总结区别如下
**ik_smart**
* 优点:特征是粗略快速的将文字进行分词,占用空间小,查询速度快
* 缺点:分词的颗粒度大,可能跳过一些重要分词,导致查询结果不全面,查全率低
**ik_max_word**
* 优点:特征是详细的文字片段进行分词,查询时查全率高,不容易遗漏数据
* 缺点:因为分词太过详细,导致有一些无用分词,占用空间较大,查询速度慢
使用ES操作数据
ES是一个数据库性质的软件
可以执行增删改查操作
我们先了解一下ES保存数据的结构
* ES启动后,ES服务可以创建多个index(索引),index可以理解为数据库中表的概念
* 一个index可以创建多个保存数据的document(文档),一个document理解为数据库中的一行数据
* 一个document中可以保存多个属性和属性值,对应数据库中的字段(列)和字段值
Spring Data简介
原生状态下,我们使用JDBC连接数据库,因为代码过于繁琐,所以改为使用Mybatis框架
在ES的原生状态下,我们java代码需要使用socket访问ES,但是也是过于繁琐,我们可以使用SpringData框架简化
Spring Data是Spring提供的一套连接各种第三方数据源的框架集
我们需要使用的是其中连接ES的Spring Data Elasticseatrch
官方网站:https://spring.io/projects/spring-data
官网中列出了SpringData支持连接操作的数据源列表
下面我们就按照SpringDataElasticsearch的步骤对ES进行操作
添加依赖和配置
search模块的pom文件添加依赖
application.properties添加配置
创建和ES关联的实体类
和数据库一样
我们操作ES时也需要一个类似实体类的数据类,作为操作ES的数据载体
search项目创建entity包
在包中创建Item(商品)类
创建操作ES的持久层
我们使用SpringData连接ES
需要使用SpringData框架对持久层的命名规则
持久层规范名称为repository(仓库),创建这个包,包中创建接口ItemRepository
测试ES
创建测试类
编写测试
SpringData自定义查询
SpringData框架提供的基本增删改查方法并不能完全满足我们的业务需要
如果是针对当前Es数据,进行个性化的自定义查询,那还是需要自己编写查询代码
就像我们要实现根据关键词查询商品信息一样,完成类似数据库中的模糊查询
单条件查询
我们查询需求为输出所有数据中title属性包含"游戏"这个分词的商品信息
> 参考数据库中模糊查询
>
> sql<br> > select * from item where title like '%游戏%'<br> >
我们使用SpringDataES进行查询,本质上还是相当于ES文档中执行的查询语句
在SpringData框架下,ItemRepository接口中实现更加简单
当查询条件关系为And时,查询语句关键字为must
当查询条件关系为Or时,查询语句关键字为should
排序查询
在ItemRepository接口添加具备排序功能的查询方法
【推荐】编程新体验,更懂你的AI,立即体验豆包MarsCode编程助手
【推荐】凌霞软件回馈社区,博客园 & 1Panel & Halo 联合会员上线
【推荐】抖音旗下AI助手豆包,你的智能百科全书,全免费不限次数
【推荐】博客园社区专享云产品让利特惠,阿里云新客6.5折上折
【推荐】轻量又高性能的 SSH 工具 IShell:AI 加持,快人一步
· 在鹅厂做java开发是什么体验
· 百万级群聊的设计实践
· WPF到Web的无缝过渡:英雄联盟客户端的OpenSilver迁移实战
· 永远不要相信用户的输入:从 SQL 注入攻防看输入验证的重要性
· 浏览器原生「磁吸」效果!Anchor Positioning 锚点定位神器解析
2020-03-12 SQL Server数据导出Excel
2020-03-12 把sql server 数据库中数据导出至excel表
2020-03-12 SqlServer 把数据库表结构导出为Excel