随笔分类 -  搜索引擎+云计算

该文被密码保护。
posted @ 2021-12-30 23:38 stackupdown 阅读(164) 评论(0) 推荐(0) 编辑
摘要:Kubernetes Operator设计与编写 1.需求场景 在K8s为基础的PaaS的开发中,原生的编排对象包括了Deployment,StatefulSet,DaemonSet,Job等,作为平台的开发者,可能会觉得管理有状态应用比较复杂,而且编写模板的时候遇到对象的嵌套和应用的差异化配置也会 阅读全文
posted @ 2020-09-30 00:03 stackupdown 阅读(1337) 评论(0) 推荐(1) 编辑
摘要:ES介绍 ElasticSearch作为一个广泛使用的搜索引擎,能够支撑数百个节点的集群,高可用,而且检索速度非常快。由于它受到的重视,刚开始接触它的人可能对其抱有很高的期望,认为它开箱即用,但其实还是需要对其原理有一定的了解和调优技巧的。 ElasticSearch存在开源版本和收费版本,开源版本 阅读全文
posted @ 2020-05-26 23:37 stackupdown 阅读(758) 评论(0) 推荐(0) 编辑
摘要:Hadoop是一个用于部署计算密集型分布式系统的框架,最早是根据谷歌公司发表的MapReduce计算框架和GFS谷歌文件系统完成的。谷歌内部的系统跟hadoop不是同一个系统。 由于谷歌的贡献,工业界模仿开发了一些分布式应用,如HBase对应NoSQL列数据库,类似谷歌公司BigTable。Apac 阅读全文
posted @ 2018-01-07 17:37 stackupdown 阅读(137) 评论(0) 推荐(0) 编辑
摘要:介绍 接上篇,【搜索引擎(五)】局部敏感哈希,本篇介绍的也是一个不精确的算法,用来不精确地排除重复元素。 利用布隆过滤器,可以大大降低排重的时间。但是在实际中它的作用有限,还要结合其他的技巧才能达到较好的效果。另外,它本身不作为索引,如果不加处理地加以使用,在搜索引擎的快响应(小于1s)的目标中就不 阅读全文
posted @ 2017-11-13 17:54 stackupdown 阅读(692) 评论(0) 推荐(0) 编辑
摘要:1.介绍 哈希是一种常用的数据摘要方法,可以把大段的数据映射成固定长度的字符串。在查找某个文档的时候,我们不希望每一次都比较大段的数据,以此来确定文档的位置,这样太过浪费生命了。只要实现计算好文档的哈希值,就可以只通过比较两个文档的哈希,查出匹配的文档,从而大大减少检索的时间。 传统的hash方法, 阅读全文
posted @ 2017-11-13 12:10 stackupdown 阅读(666) 评论(0) 推荐(1) 编辑
摘要:http://www.michaelnielsen.org/ddi/how-to-crawl-a-quarter-billion-webpages-in-40-hours/ 一个大规模爬虫的抓取实例 本文是一篇大规模爬虫的文章的阅读笔记,记录了一个作者利用amazon集群在40个小时的时间里爬取2. 阅读全文
posted @ 2017-08-18 11:30 stackupdown 阅读(602) 评论(0) 推荐(0) 编辑
摘要:Yang Yang, Jianfei Wang, Yutao Zhang, Wei Chen, Jing Zhang, Honglei Zhuang, Zhilin Yang, Bo Ma, Zhanpeng Fang, Sen Wu, Xiaoxiao Li, Debing Liu, and Ji 阅读全文
posted @ 2017-08-13 00:08 stackupdown 阅读(1029) 评论(0) 推荐(0) 编辑
摘要:Q1. 为什么搜索引擎要用到文本分类? 搜索引擎要处理海量文本,人工分类不现实,机器的自动分类对提高文本的分类效率至少起到了一个基准的效果。另外,文本分类跟搜索引擎系统可以进行信息互通,文本分类的输入是文本,输出可以是标签或者是否从属于某个分类。 Q2.文本分类基础算法 文本分类基础算法与机器学习、 阅读全文
posted @ 2017-08-02 16:43 stackupdown 阅读(954) 评论(0) 推荐(0) 编辑
摘要:检索模型的目的 现实中搜索引擎的检索策略复杂多变,但是分析起来,核心的目的就两个,为了: 1. 越相关的结果越靠前; 2. 查询的结果是完整的。 经典检索模型 经典信息检索模型有三类: 1.布尔模型 2.向量模型 3.概率 不看内部, 查询的模型是:查询->查询模型->返回结果,一个查询是一组关键字 阅读全文
posted @ 2017-07-27 14:53 stackupdown 阅读(1994) 评论(0) 推荐(0) 编辑
摘要:索引 其实在计算机中我们早已接触过跟索引有关的东西,比如数据库里的索引(index),还有硬盘文件系统中其实也有类似的东西,简而言之,索引是一种为了方便找到自己需要的东西而设计出来的条目,你可以通过找索引找到自己想要内容的位置。索引过程是: 关键字->索引->文档。在图书馆内的书分门别类,就是一种按 阅读全文
posted @ 2017-07-26 22:16 stackupdown 阅读(2265) 评论(0) 推荐(0) 编辑
摘要:自己对搜索引擎有一些兴趣,而且也选修了这门课,看到的搜索引擎用到的知识还是挺丰富有深度的,所以准备写个系列的文章,参考《现代信息检索》(贝佐·耶茨)和一些其他教材。 搜索引擎中用到的技术 由于搜索引擎用到的技术实在太多,所以不能一一列举。并且事实上中文博客中搜索引擎的知识主要集中在基础的知识上,所以 阅读全文
posted @ 2017-07-25 22:19 stackupdown 阅读(262) 评论(0) 推荐(0) 编辑

点击右上角即可分享
微信分享提示