中文语料库 没有类似https://www.english-corpora.org/里的 A/B compare的好用的

BCC 一旦用~,统计,就查不全

CCL 有个“搭配查询” 但是很不好用,必须指明 词性 和 词长/距离,coca里任意1-4距离,词性也是任意

 

搭配查询,用于查询(对比)不同动词前后的共现名词的频次差异。例如: 查询表达式“刷(n,=2)|擦(n,=2)”,表示查询“刷”和“擦”后面的词长为2的名词。两个动词后的名词n是相同的,检索程序会返回n跟“刷”和“擦”共现时的频次。检索结果页面对“刷n”和“擦n”分两栏进行对照显示。点击某个具体的“刷n”或“擦n”实例,系统就执行普通查询,跳转到普通查询结果页面。

搭配查询的表达式规范为:word1(pos,=length)|word2(pos,=length) word1和word2代表两个要比较的目标词语。在 | 前后,对word1和word2搭配词的描述是相同的,都是 (pos, =length)格式,其中pos代表搭配词的词性,length代表搭配词的词长(字数)。

搭配查询的功能设计比较简单,还有待进一步完善。

 

最终花了点时间用python lac库,将bcc下载下来的txt文件分词,然后用antconc分析就可以了

 

 

 

一个文件两个文件计算出来的 结果/顺序 还不一样,麻烦

 

 

 

 

 

 

 

posted @ 2024-05-07 22:30  hrdom  阅读(8)  评论(0编辑  收藏  举报