摘要:
今天的工作主要是把昨天修改的设计方案的框架搭建出来:给数据库建一个倒排索引(这部分应该在pipe组实现搭建数据库之后立即执行,在数据更新前只需运行一次),当用户使用search功能时,调用match函数进行匹配,分局匹配程度返回一个区分优先级的ARRAYLIST,作为变量给呈现部分模块。 以下是新设计的基本框架(中文分词,match部分尚未完成,部分sql语句有待修改): 1 static void Main(string[] args) 2 { 3 List<Result> resultList = new List<Result>(); 4... 阅读全文
摘要:
今天组长把upload的工作交给了我,我开始准备编辑上传页面,加入控件等等事情。用户上传需要填写题目,关键字,写作日期等等,以便数据库组的同学方便整理上传上的数据。另外查找组的同学也可以用这些关键词经行索引,建立倒排表。upload的功能其实已经基本实现,但是用户上传是有可能不符合要求,例如没有填写关键字等,我还没有给予提醒,明天完成这些错误处理等功能,再把界面美化一下,今天就不贴图了。 阅读全文
摘要:
今天和李忠一起对match函数进行了优化和修正。我主要负责测试李忠修改过的函数,进行再测试。发现了一个数组越界的错误,对结果显示进行了一些修正。为了测试函数,寻找了一组800多个的字符串数据准备用于以后的大负荷测试。与陈伯雄对搜索模块的功能实现进行了进一步讨论,修改了一下我们的思路。之后准备利用正则表达式倒排表对算法进行修改。提升搜索效率。之后准备再修改函数对匹配精度进行提高。 阅读全文
摘要:
关于search of this site设计的更改: 上个版本用普通的顺序匹配算法,不建索引,而是对所有文章的内容进行字符串匹配,这个过程将会相当缓慢,当文章数目很大时,时间往往是无法忍受的,我们重新设计该部件的功能实现。 由pipe组提供的数据库信息,从中提取出关键词(困难可能在于中文分词),建立关键词-文档ID倒排索引,当用户提供搜索词句时在进行匹配,返回匹配成功的文档LIST。 以下是从网站上找到的建立倒排索引的思路: //http://blog.renren.com/share/252144050/1436749197 顺排文件的建立... 阅读全文