国内语料库建设一览表 |
类型 |
语料库名称及大小 |
建设单位 |
英语学习者语料库(书面语及口语) |
中国学习者语料库 CLEC(100万) |
广外、上海交大 |
大学英语学习者口语语料库 COLSEC (5万) |
上海交大 |
香港科技大学学习者语料库 HKUST Learner Corpus |
香港科技大学 |
中国英语专业语料库 CEME (148万) |
南京大学 |
中国英语学习者口语语料库 SECCL (100万) |
南京大学 |
国际外语学习者英语口语语料库中国部分 LINSEI-China (10万) |
华南师大 |
硕士写作语料库 MWC (12万) |
华中科技大学 |
平行语料库 |
汉英平行语料库 PCCE |
北外 |
南大-国关平行语料库 |
南京大学 |
英汉文学作品语料库; |
外研社 |
冯友兰《中国哲学史》汉英对照语料库 |
李约瑟(Joself Needham)《中国科学技术史》英汉对照语料库 |
计算机专业的双语语料库; |
国家语言文字工作委员会语言文字应用研究所 |
柏拉图(Plato)哲学名著《理想国》的双语语料库 |
英汉双语语料库(15万对) |
中科院软件所 |
英汉双语语料库:LDC香港新闻英汉双语对齐语料36294段以及香港法律英汉双语对齐语料31万句子对 |
中国科学院自动化研究所 |
英汉双语语料库(100万),网上英汉语段电子词典及网上电子英汉搭配词典(1000万) |
东北大学 |
英汉双语语料库(40-50万句子对) |
哈尔滨工业大学 |
双语语料库(5万多对) |
北京大学计算语言学研究所 |
对比语料库 LIVAC(Linguistic variety in Chinese communities) |
香港城市理工大学 |
平衡语料库(Sinica Corpus);树图语料库(Sinica Treebank) |
台湾 |
特殊英语语料库 |
中国英语(China English)语料库 |
河南师范大学 |
军事英语语料库(Corpus of Military Texts) |
解放军外语学院 |
新视野大学英语教材语料库 |
上海交通大学 |
汉语语料库 |
汉语现代文学作品语料库(1979年,527万字) |
武汉大学 |
现代汉语语料库(1983年,2000万字) |
北京航空航天大学 |
中学语文教材语料库(1983年,106万8000字) |
北京师范大学 |
现代汉语词频统计语料库(1983年,182万字) |
北京语言学院 |
国家级大型汉语均衡语料库(2000万字) |
国家语言文字工作委员会 |
《人民日报》语料库(2700万字) |
北京大学计算机语言学研究所 |
大型中文语料库(5亿字,10分库) |
北京语言文化大学 |
现代汉语语料库(1亿字) |
清华大学 |
汉语新闻语料库;(1988年,250万字) |
山西大学 |
标准语料库(2000年,70万字) |
生语料库(3000万字);《作家文摘》的标注语料库(100万字) |
上海师范大学 |
现代自然口语语料库 |
中国社会科学院语言所 |
旅游咨询口语对话语料库和旅馆预定口语对话语料库 |
中国科学院自动化所 |