上一页 1 ··· 5 6 7 8 9 10 11 12 下一页
摘要: 在初步实现数据库读取的基础上,我寻找更加有效快捷的数据库查询方法:倒排索引。以下是网上找到的一些资料: 倒排索引源于实际应用中需要根据属性的值来查找记录。这种索引表中的每一项都包括一个属性值和具有该属性值的各记录的地址。由于不是由记录来确定属性值,而是由属性值来确定记录的位置,因而称为倒排索引(invertedindex)。带有倒排索引的文件我们称为倒排索引文件,简称倒排文件(invertedfile)。 倒排文件(倒排索引),索引对象是文档或者文档集合中的单词等,用来存储这些单词在一个文档或者一组文档中的存储位置,是对文档或者文档集合的一种最常用的索引机制。搜索引擎的关键步骤就是建立倒排.. 阅读全文
posted @ 2012-11-02 22:47 DOOM_buaascse 阅读(246) 评论(0) 推荐(0) 编辑
摘要: 在修改的码的同时我阅读并参考了一下其他搜索系统的算法。由于目前我们的任务进度略快,给我们留下的修改时间还有一些,我准备对match算法进行进一步的修改。参考了网上一遍关于百度搜索的文章。发现了一些值得参考的地方,如下。。。。舍弃一些枢纽字: 寻找出那些搜索时很少用到的枢纽字:!!A:在英文里,在搜索引擎大小写是没有区别的。B:拼写错误的枢纽字是没用的,但是找到一个常常泛起拼写错误码的词可以额外埠进步你的访问量C:去除那些停用的词,在英文里有“the, for , a ,” 等。中文里有“的,地,你,我”等。D:没有人会用“最好的”,“疯狂的”等词语进行搜索。假如你的网站里有类似的词,最好把他去 阅读全文
posted @ 2012-11-02 22:28 DOOM_buaascse 阅读(256) 评论(0) 推荐(0) 编辑
摘要: 今天和潘学一起进行了match函数的测试。首先对边界值进行了测试。发现并不由太大的问题。不过在测试一个字符串只含标点时偶然发现,中文的标点和英文的标点不一样的问题,例如英文的"!"和中文的“!”是完全不一样的。在测试超长字符串时发现string类型只能输入255以内长度的字符串。英文大小写方面暂时没测试出问题。、之后在对实例进行测试的时候暂时只发现了一个不合理的地方。实例如下:word:我想在百度查词语怎么查?_百度知道keyword:我要查词结果关联度只为2,而这是百度搜索的第一条搜索。与期望不符。其他的一些实例也反应了同样的问题。最后决定对模糊度为2的部分进行修改。最后 阅读全文
posted @ 2012-11-01 23:43 DOOM_buaascse 阅读(219) 评论(3) 推荐(0) 编辑
摘要: 今天我分配的任务是和刘宇翔测试match()方法,这个方法是用来查看用户搜的关键词与数据库中的关键词的匹配程度。由于在移山之道中看到有关测试的内容其中黑箱测试:都是自己想的极限条件,边界条件。其中对大小写的问题的处理,值得表扬。白箱测试:主要是借用百度,输入关键词,得到的搜索结果,之后选择第一页的几次进行匹配,发现这个算法对一个或者多个关键词处理的很好,但是涉及语义,句子什么的就有点吃不消了。 阅读全文
posted @ 2012-11-01 23:33 DOOM_buaascse 阅读(278) 评论(0) 推荐(0) 编辑
摘要: 昨天初步实现从数据中提取信息,今天向fightingsnail组简单商定了一下接口问题,数据库分为四个表,分别是DOC、PDF、VEDIO、QAPAIR,里面有作者,类型,提交时间,参观人数等属性;我与同组成员张孝祖一起搭建了一个模拟数据库用来进行简单的测试用例。原定数据库查询方法(step2)效率不高,计划在这两天上网搜索学习更优的数据库查询方法。 阅读全文
posted @ 2012-11-01 23:11 DOOM_buaascse 阅读(181) 评论(0) 推荐(0) 编辑
摘要: 目前的工作进度如上。今天的工作计划有些改变,所以代码量没有什么进。今天各组员的工作:(1)陈伯雄(分析员)、张孝祖(程序员):进行搜索方面的改进,都在进行数据库的建立和测试数据设计;(2)潘学(程序员)、刘宇翔(测试员)、李忠(PM):进行匹配算法的设计,找测试数据和代码优化。明天我们将继续今天的工作,希望有所突破。 阅读全文
posted @ 2012-11-01 23:04 DOOM_buaascse 阅读(199) 评论(0) 推荐(0) 编辑
摘要: 今天我帮助陈伯雄同学建立了我们的数据库,以模拟serch函数对其他小组数据库以查找里面的关键词。数据库分为四个表分别是doc pdf vedio qapair里面有作者,类型,提交时间,参观人数等属性;以上就是今天的工作 阅读全文
posted @ 2012-11-01 20:27 DOOM_buaascse 阅读(201) 评论(0) 推荐(0) 编辑
摘要: 今天我们小组的任务完成的不错,所有组员任务都完成了(1)陈伯雄(分析员):search部分已经完成了代码编写,现在只等第二组的数据库建好后,测试search模块的正确性和稳定性;(2)刘宇翔(测试员):他已经完成了match部分的代码的编写,剩下的工作就是测试正确性和优化了,测试将会交给潘学处理,他会将测试结果返回给刘宇翔,刘宇翔进行更改,最后出来之后由我来进行优化工作;(3)张孝祖(程序员):他今天已经编写完了母版页的用户信息的显示功能;(4)潘学(程序员):他今天已经把各个搜索跳转中值的传递问题;各个组员的具体工作,可以详见他们个人所做的报告。我们小组明天的工作到明天再分配,我们要等到UI 阅读全文
posted @ 2012-10-31 23:58 DOOM_buaascse 阅读(208) 评论(0) 推荐(0) 编辑
摘要: 今天,PM给我分配的任务是网页跳转和传值,其中包括用户的输入的关键词SearchWord.Text,还有几个CheckBox的值(是否选择),其中有Doc.Checked,PDF.Checked,Video.Checked,QAPair.Checked。这些是为搜索Search()函数做准备,选择用户所选择的类型的数据。定义并接收值: KeyWord=Request["KeyWord"]; //获得关键词 _Doc=(Request["Doc"]=="True"); _PDF=(Request["PDF"]==&q 阅读全文
posted @ 2012-10-31 23:49 DOOM_buaascse 阅读(179) 评论(0) 推荐(0) 编辑
摘要: match函数功能基本功能已经实现了!但是感觉缺陷还是有很多的。目前这个匹配功能还有一些不合理的地方(与算法有关的)目前还没有解决的一些问题:匹配级别的更合理设定、半全角英文识别、未知出错bug(暂未发现但我觉得应该会有)。接下来的两天的工作分别是TEST和优化。TEST将有姚铭协助我进行(自己TEST自己好像很难。。)。写一下函数模块吧:match(string word,string keyword)//主函数wordmatch(string w,string keyword)//word单个词对整个keyword匹配wkmatch(string w,string k)//word单个词对 阅读全文
posted @ 2012-10-31 23:42 DOOM_buaascse 阅读(240) 评论(3) 推荐(0) 编辑
上一页 1 ··· 5 6 7 8 9 10 11 12 下一页