http://ccl.pku.edu.cn:8080/ccl_corpus/CCLCorpus_Readme.html

北京大学CCL语料库简介

语料库网址: http://ccl.pku.edu.cn:8080/ccl_corpus 

CCL语料库及其检索系统为纯学术非盈利性的。不得将CCL语料库检索系统及其产生的检索结果用于任何商业目的。CCL不承担由此产生的一切后果。

CCL语料库仅供语言研究参考之用。语料本身的正确性需要您自己加以核实

CCL语料库中的中文文本未经分词处理。检索系统以汉字为基本单位

使用说明

语料库规模与分布

 

3 如何引用CCL语料库?

中文

詹卫东、郭锐、常宝宝、谌贻荣、陈龙,2019,北京大学CCL语料库的研制,《语料库语言学》2019年第6卷第1期,总第11辑,pp.71-86。

詹卫东、郭锐、谌贻荣,2003,北京大学中国语言学研究中心CCL语料库,网址:http://ccl.pku.edu.cn:8080/ccl_corpus

English

ZHAN Weidong, GUO Rui, CHANG Baobao, CHEN Yirong & CHEN Long, 2019, The building of the CCL corpus: Its design and implementation, Corpus Linguistics, 2019, Vol.6, No.1, pp.71-86

ZHAN, Weidong, GUO, Rui, CHEN, Yirong, 2003, The CCL Corpus of Chinese Texts, Available online at the website of Center for Chinese Linguistics (abbreviated as CCL) of Peking University, http://ccl.pku.edu.cn:8080/ccl_corpus

4 版本发展

序号 版本 总规模① 现代汉语 古代汉语 汉英双语
(1) 2004版 107,791,180 (1亿字符) 85,398,433 字 22,392,747 字
(2) 2006版 未统计 219MB(229,700,435字节) 196MB(206,222,888字节) 69.3MB(71,618,853 字节)
(3) 2007版 未统计 603MB(632,428,846字节) 同上 同上
(4) 2009版 未统计 695MB 397MB 同上
(5) 2014版 783,463,175(7.8亿字符) 581,794,456(5.8 亿字符) 201,668,719(2亿字符) 中文字数:6,176,546(600万字)
英文词数:3,934,609(300万词)
(6) 2024版 5,841,676,206(58.4 亿字符) 4,746,907,429(47.5 亿字符) 1,094,768,777(10.9 亿字符) 中文字数:192,057,581(1.9亿字)
英文词数:103,578,166(1亿词)


注① 指现代汉语加古代汉语的字数规模。2024版CCL语料库若将汉英双语对齐语料中汉语语料统计在内,总规模达到60亿字

posted @ 2024-04-20 21:49  hrdom  阅读(1004)  评论(0编辑  收藏  举报