第二周周一DailyReporting——PM(李忠)

今天小组工作进展顺利,各个人的具体工作可以详见每个人写得报告;下面我简述了一下:

(1)潘学:Download部分遇到问题,他的理解和我的理解不一样,进度受损,但是Download的技术已经摸索的差不多;

(2)张孝祖:Upload部分demo已经完成,明天进入测试阶段;

(3)刘宇翔:match部分从找到的800多篇文档里读出来进行测试;

(4)陈伯雄:search部分更改后的框架设计出来,明天建倒排表,加入中文分词系统

(5)李忠:中文分词系统的完成,供明天match和search部分用;

明天潘学测试Download部分,张孝祖测试Upload部分;刘宇翔往match里面加入中文分词系统,陈伯雄往search部分里加入分词系统,并建立倒排表。

 

我今天的工作,中文分词系统的代码

using System.IO;

using Lucene.Net;
using Lucene.Net.Analysis;
using Lucene.China;

namespace match0
{
    class ChineseWordSegmentation
    {
        //实现中文分词的方法(中文英文都能实现)
        static public List<string> word_segmentation(string sourceWord) {
            List<string> childWord=new List<string>();

            StringReader sr = new StringReader(sourceWord);
            Analyzer analyzer = new Lucene.China.ChineseAnalyzer();
            TokenStream stream = analyzer.TokenStream(null, sr);

            Token token = stream.Next();
            while (token != null) {
                string temps = token.ToString();
                temps = temps.Replace("(", "");
                char[] tempc = { ',' };
                temps=temps.Split(tempc)[0];

                childWord.Add(temps);

                token = stream.Next();
            }

            return childWord;
        }
    }
}

posted @ 2012-11-05 22:56  DOOM_buaascse  阅读(217)  评论(0编辑  收藏  举报