摘要:
在初步实现数据库读取的基础上,我寻找更加有效快捷的数据库查询方法:倒排索引。以下是网上找到的一些资料: 倒排索引源于实际应用中需要根据属性的值来查找记录。这种索引表中的每一项都包括一个属性值和具有该属性值的各记录的地址。由于不是由记录来确定属性值,而是由属性值来确定记录的位置,因而称为倒排索引(invertedindex)。带有倒排索引的文件我们称为倒排索引文件,简称倒排文件(invertedfile)。 倒排文件(倒排索引),索引对象是文档或者文档集合中的单词等,用来存储这些单词在一个文档或者一组文档中的存储位置,是对文档或者文档集合的一种最常用的索引机制。搜索引擎的关键步骤就是建立倒排.. 阅读全文
摘要:
在修改的码的同时我阅读并参考了一下其他搜索系统的算法。由于目前我们的任务进度略快,给我们留下的修改时间还有一些,我准备对match算法进行进一步的修改。参考了网上一遍关于百度搜索的文章。发现了一些值得参考的地方,如下。。。。舍弃一些枢纽字: 寻找出那些搜索时很少用到的枢纽字:!!A:在英文里,在搜索引擎大小写是没有区别的。B:拼写错误的枢纽字是没用的,但是找到一个常常泛起拼写错误码的词可以额外埠进步你的访问量C:去除那些停用的词,在英文里有“the, for , a ,” 等。中文里有“的,地,你,我”等。D:没有人会用“最好的”,“疯狂的”等词语进行搜索。假如你的网站里有类似的词,最好把他去 阅读全文