摘要:
索引是在计算机科学中非常常用的数据结构,其根本目的是为了在具体应用中加快查找速度。 索引基础 单词——文档矩阵是表达两者之间所具有的一种包含关系的概念模型。 从横向来看可以得到某个词汇在哪些文档里。 从纵向来看可以得到某个文档中含有哪些词汇。 搜索引擎的索引其实就是实现单词——文档矩阵的具体数据结构 阅读全文
摘要:
搜索引擎的处理对象是互联网网页,目前的网页数量以百亿计算,所以需要设计出高效的下载系统,以将如此海量的网页数据传送到本地,在本地形成互联网网页的镜像备份。而这高效的下载系统就是网络爬虫 通用爬虫框架 通用爬虫框架流程如下: 从互联网页面中精心选择一部分网页,将这些网页的链接地址作为种子URL,将种子 阅读全文
摘要:
搜索引擎的重要性 在没有更有效的替代解决方式出来之前,搜索是目前解决信息过载的相对有效方式。 搜索引擎技术发展史& 与技术发展的关系 1. 分类目录 纯人工方式收集并整理高质量的网站。无技术含量 进步:被收录的网站质量较高。 不足:可扩展性不强,绝大多数网站不能被收录。 2. 文本检索 文本检索采用 阅读全文
摘要:
题目描述: 原题链接 请实现 copyRandomList 函数,复制一个复杂链表。在复杂链表中,每个节点除了有一个 next 指针指向下一个节点,还有一个 random 指针指向链表中的任意节点或者 null 思路: 这题多了一个 random节点 ,所以需要 2次遍历链表, 因为 第一次 如果某 阅读全文
摘要:
对于文档的操作,也是增删改查,重点在对文档的查询操作。 首先,回顾下,文档其实就是一段 JSON 格式的数据。 前提条件,我们需要先建立一个索引 blog,再向 blog 这个索引中的文档进行操作。 1.增加一个文档 响应结果中: _version 表示文档的版本,每次更新文档这个数值会加一 _se 阅读全文
摘要:
操作工具:kibana 1. 创建索引 PUT 索引名 创建成功之后,可以通过这个之前安装的 head 插件来查看索引的基本信息 注意: 索引名是唯一的,不可重复。 索引的名称不能有大写字母。 2. 更新索引 索引创建好后,可以更新索引的属性 例如:副本数,分片数 3. 向索引中写入数据 PUT 索 阅读全文
摘要:
ES 中的查询分析分为两步: 分词器将输入的文本转为一个一个的词条流 过滤:比如停用词过滤器会从词条中去除不相干的词条(的,嗯,啊,呢);另外还有同义词过滤器、小写过滤器等。 ES 中内置了多种分词器可以供使用。但是这些分词器中并不适用于中文。 ES 使用较多的中文分词器是 elasticsearc 阅读全文
摘要:
ElasticSearch 学习概述 ElasticSearch + 可视化界面 + kibana 安装 ElasticSearch 核心概念 ElasticSearch 安装 ik 分词器 ElasticSearch 文档基本操作 阅读全文
摘要:
安装 ElasticSearch 单节点安装 也就是只安装一个 ElasticSearch。步骤如下: 先进入官网 如何选择自己系统对应的 elasticsearch 版本可以查看支持矩阵 点击下载,完成后解压缩,安装完成。我这里用的是 windows 解压后,可以看到这样一个目录,具体含义如下: 阅读全文
摘要:
概述 是什么? Elasticsearch,简称ES,是一个基于Apache Lucene做了一些封装和增强,一个高扩展的分布式全文搜索引擎,可以近乎实时的存储,检索数据.并且开源. 起什么作用? 全文搜索,结构化搜索,分析,还可以将三者混合使用. 为什么是 ES? 为什么不选Lunece? Luc 阅读全文