第二周周一DailyReporting——PM（李忠）

今天小组工作进展顺利，各个人的具体工作可以详见每个人写得报告；下面我简述了一下：

（1）潘学：Download部分遇到问题，他的理解和我的理解不一样，进度受损，但是Download的技术已经摸索的差不多；

（2）张孝祖：Upload部分demo已经完成，明天进入测试阶段；

（3）刘宇翔：match部分从找到的800多篇文档里读出来进行测试；

（4）陈伯雄：search部分更改后的框架设计出来，明天建倒排表，加入中文分词系统

（5）李忠：中文分词系统的完成，供明天match和search部分用；

明天潘学测试Download部分，张孝祖测试Upload部分；刘宇翔往match里面加入中文分词系统，陈伯雄往search部分里加入分词系统，并建立倒排表。

我今天的工作，中文分词系统的代码

using System.IO;

using Lucene.Net;
using Lucene.Net.Analysis;
using Lucene.China;

namespace match0
{
    class ChineseWordSegmentation
    {
        //实现中文分词的方法（中文英文都能实现）
        static public List<string> word_segmentation(string sourceWord) {
            List<string> childWord=new List<string>();

            StringReader sr = new StringReader(sourceWord);
            Analyzer analyzer = new Lucene.China.ChineseAnalyzer();
            TokenStream stream = analyzer.TokenStream(null, sr);

            Token token = stream.Next();
            while (token != null) {
                string temps = token.ToString();
                temps = temps.Replace("(", "");
                char[] tempc = { ',' };
                temps=temps.Split(tempc)[0];

                childWord.Add(temps);

                token = stream.Next();
            }

            return childWord;
        }
    }
}

posted @ 2012-11-05 22:56 DOOM_buaascse 阅读(217) 评论(0) 编辑收藏举报

DOOM_buaascse

第二周周一DailyReporting——PM（李忠）

公告