摘要: 国内语料库建设一览表类型语料库名称及大小建设单位英语学习者语料库(书面语及口语)中国学习者语料库 CLEC(100万)广外、上海交大大学英语学习者口语语料库 COLSEC (5万)上海交大香港科技大学学习者语料库 HKUST Learner Corpus香港科技大学中国英语专业语料库 CEME (148万)南京大学中国英语学习者口语语料库 SECCL (100万)南京大学国际外语学习者英语口语语料库中国部分 LINSEI-China (10万)华南师大硕士写作语料库 MWC (12万)华中科技大学平行语料库汉英平行语料库 PCCE北外南大-国关平行语料库南京大学英汉文学作品语料库;外研社冯友兰 阅读全文
posted @ 2012-10-22 17:15 tonybom 阅读(438) 评论(0) 推荐(0) 编辑
摘要: using System.Net;using System.IO;WebRequestprivate string GetWebRequest(string url){ Uri uri = new Uri(url); WebRequest myReq = WebRequest.Create(uri); WebResponse result = myReq.GetResponse(); Stream receviceStream = result.GetResponseStream(); StreamReader readerOfStream = new Strea... 阅读全文
posted @ 2012-10-22 15:16 tonybom 阅读(264) 评论(0) 推荐(0) 编辑
摘要: 简单点说:分类是将一片文章或文本自动识别出来,按照先验的类别进行匹配,确定。聚类就是将一组的文章或文本信息进行相似性的比较,将比较相似的文章或文本信息归为同一组的技术。分类和聚类都是将相似对象归类的过程。区别是,分类是事先定义好类别,类别数不变。分类器需要由人工标注的分类训练语料训练得到,属于有指导学习范畴。聚类则没有事先预定的类别,类别数不确定。聚类不需要人工标注和预先训练分类器,类别在聚类过程中自动生成。分类适合类别或分类体系已经确定的场合,比如按照国图分类法分类图书;聚类则适合不存在分类体系、类别数不确定的场合,一般作为某些应用的前端,比如多文档文摘、搜索引擎结果后聚类(元搜索)等。 . 阅读全文
posted @ 2012-10-22 10:21 tonybom 阅读(1199) 评论(0) 推荐(0) 编辑