国内常见语料库
类型 |
语料库名称及大小 |
建设单位 |
英语学习者语料库(书面语及口语) | 中国学习者语料库 CLEC(100万) | 广外、上海交大 |
大学英语学习者口语语料库 COLSEC (5万) | 上海交大 | |
香港科技大学学习者语料库 HKUST Learner Corpus | 香港科技大学 | |
中国英语专业语料库 CEME (148万) | 南京大学 | |
中国英语学习者口语语料库 SECCL (100万) | 南京大学 | |
国际外语学习者英语口语语料库中国部分 LINSEI-China (10万) | 华南师大 | |
硕士写作语料库 MWC (12万) | 华中科技大学 | |
平行语料库 | 汉英平行语料库 PCCE | 北外 |
南大-国关平行语料库 | 南京大学 | |
英汉文学作品语料库; | 外研社 | |
冯友兰《中国哲学史》汉英对照语料库 | ||
李约瑟(Joself Needham)《中国科学技术史》英汉对照语料库 | ||
计算机专业的双语语料库; | 国家语言文字工作委员会语言文字应用研究所 | |
柏拉图(Plato)哲学名著《理想国》的双语语料库 | ||
英汉双语语料库(15万对) | 中科院软件所 | |
英汉双语语料库:LDC香港新闻英汉双语对齐语料36294段以及香港法律英汉双语对齐语料31万句子对 | 中国科学院自动化研究所 | |
英汉双语语料库(100万),网上英汉语段电子词典及网上电子英汉搭配词典(1000万) | 东北大学 | |
英汉双语语料库(40-50万句子对) | 哈尔滨工业大学 | |
双语语料库(5万多对) | 北京大学计算语言学研究所 | |
对比语料库 LIVAC(Linguistic variety in Chinese communities) | 香港城市理工大学 | |
平衡语料库(Sinica Corpus);树图语料库(Sinica Treebank) | 台湾 | |
特殊英语语料库 | 中国英语(China English)语料库 | 河南师范大学 |
军事英语语料库(Corpus of Military Texts) | 解放军外语学院 | |
新视野大学英语教材语料库 | 上海交通大学 | |
汉语语料库 | 汉语现代文学作品语料库(1979年,527万字) | 武汉大学 |
现代汉语语料库(1983年,2000万字) | 北京航空航天大学 | |
中学语文教材语料库(1983年,106万8000字) | 北京师范大学 | |
现代汉语词频统计语料库(1983年,182万字) | 北京语言学院 | |
国家级大型汉语均衡语料库(2000万字) | 国家语言文字工作委员会 | |
《人民日报》语料库(2700万字) | 北京大学计算机语言学研究所 | |
大型中文语料库(5亿字,10分库) | 北京语言文化大学 | |
现代汉语语料库(1亿字) | 清华大学 | |
汉语新闻语料库;(1988年,250万字) | 山西大学 | |
标准语料库(2000年,70万字) | ||
生语料库(3000万字);《作家文摘》的标注语料库(100万字) | 上海师范大学 | |
现代自然口语语料库 | 中国社会科学院语言所 | |
旅游咨询口语对话语料库和旅馆预定口语对话语料库 | 中国科学院自动化所 |