摘要:
今天我给大家讲讲tf-idf权重计算 今天我给大家讲讲tf-idf权重计算 今天我给大家讲讲tf-idf权重计算 今天我给大家讲讲tf-idf权重计算 tf-idf权重计算: tf-idf(中文词频-逆文档概率)是表示计算词项对于一个文档集或语料库中的一份文件的重要程度。词项的重要性随着它在文档中出 阅读全文
2019年1月10日
2019年1月9日
摘要:
今天我给大家讲讲布尔检索模型基本概念 布尔检索模型: 检索模型是判断文档内容与用户相关性的核心技术,以大规模网页搜索为例,在海量网页中与用户查询关键词相关的网页可能会有成千上万个,甚至耕读哦。那么信息检索系统是如何判断网页和查询关键词是相关的?内部的排序模型是怎样的? 布尔检索模型中主要有AND、O 阅读全文
2019年1月8日
摘要:
JVM垃圾回收算法解析 标记-清除算法 该算法为最基础的算法。它分为标记和清除两个阶段,首先标记出需要回收的对象,在标记结束后,统一回收。该算法存在两个问题:一是效率问题,标记和清除过程效率都不太高,二是空间问题,在执行一次清除操作后,会存在好多不连续的内存碎片,从而造成资源的浪费。空间碎片太多将会 阅读全文
2019年1月7日
摘要:
今天我给大家讲讲倒排索引。 索引是构成搜索引擎的核心技术之一,它在日常生活中是非常常见的,比如我看一本书的时候,我首先会看书的目录,通过目录可以快速定位到具体章节的页码,加快对内容的查询速度。 文档通常保存在各种数据库管理系统之中,比如mysql,oracle等,但是搜索引擎的数据不能保存在数据库, 阅读全文
2019年1月6日
摘要:
今天我给大家讲讲分词算法 分词算法概述:词是语义的最小单位。分词对搜索引擎的作用很大,可以促进搜索引擎程序自动识别语句的含义,可以提高搜索结果的匹配度,分析的质量也将直接影响了搜索结果的精确度。分词存在于文本索引的建立过程和用户提交检索过程。利用相同的分词器把短语或句子划分成相同的结果,才能保证检索 阅读全文
2019年1月5日
摘要:
啦啦啦啦啦啦,我又来了,学习任何东西都得坚持,我一定的好好加油!!! 今天来说说print()函数,前边我们已经用过好好多次啦,现在来学习哈吧!!! Python的内置函数,print() print() 方法用于打印输出,最常见的一个函数。 print 在 Python3.x 是一个函数,但在 P 阅读全文
2019年1月4日
摘要:
今天,我主要给大家讲一下信息检索概念。 信息检索: 互联网时代的飞速发展使人们进入了信息爆炸时代,据统计全球的互联网用户已达到30亿,在各个网站及移动app在每个分钟 产生的数据量是巨大的,从而导致数据就具有了数据量巨大大,数据种类繁多,数据更新快等特点,这些数据具有很大的价值,无 数科学家和工程师 阅读全文
2019年1月3日
摘要:
ElasticSearch是基于Lucene的搜索服务。支持分布式多用户能力的全文搜索引擎,提供RESTful web接口。Elasticsearch是用Java开发的,Apache旗下开源项目,支持海量数据存储及查询,是当前互联网比较流行的搜索引擎。 安装 1.在官方网站:https://www. 阅读全文
2019年1月2日
摘要:
啦啦啦啦啦!!!!我又来啦,几天该正式开始学习python语言啦,好高兴啊!!!今天学习的主要内容是变量和简单的数据类型!! 变量和简单的数据类型 大家回忆一下昨天的Hello Python World 程序print("Hello Python World!!!"),这里直接打出了”Hello P 阅读全文
摘要:
小白开启Python之门啦啦啦!!!!! 学习任何一种语言,第一步就是环境的搭建,小白python之旅开始啦!!!加油加油,抬头挺胸齐步走~~~ 目前大家开发系统主要是,windows、Mac OS 、Linux三大系统,现在看看window系统的环境搭建。 windows: 首先检查自己的电脑是否 阅读全文