中文历时语料库

1|0项目的用途

用途名称 技术手段 应用场景
词语考察 分词、词频统计 通用词表等编写
语义计算 共现词、MI搭配、依存搭配 搭配等语义词典编写
热度计算 流通度计算、术语提取 流行语等发布
文化计算 颜色计算、性别计算 文化变迁
媒体对比 媒体差异计算 传播学研究
语法研究 语法模式检索 语法教材与词典编写

2|0项目的获取

对于如何获取数据,下表是对数据集的介绍,需要使用的可以开放下载使用,因涉及版权问题,暂只放数据来源。免责声明:该项目由公开渠道收集而成,不可商用,仅可用于科学研究,若有侵权,可联系删除。

数据名称 时间跨度 数据大小 数据来源
腾讯新闻 2009-2016 5GB https://auto.qq.com/l/201104/scrollnews_15.htm
人民日报 1946-2003 3.44GB http://www.laoziliao.net/rmrb/
参考消息 1957-2002 1.1GB http://www.laoziliao.net/ckxx/

__EOF__

本文作者艾孜尔江
本文链接https://www.cnblogs.com/ezhar/p/14364144.html
关于博主:评论和私信会在第一时间回复。或者直接私信我。
版权声明:本博客所有文章除特别声明外,均采用 BY-NC-SA 许可协议。转载请注明出处!
声援博主:如果您觉得文章对您有帮助,可以点击文章右下角推荐一下。您的鼓励是博主的最大动力!
posted @   艾孜尔江  阅读(342)  评论(0编辑  收藏  举报
编辑推荐:
· AI与.NET技术实操系列:基于图像分类模型对图像进行分类
· go语言实现终端里的倒计时
· 如何编写易于单元测试的代码
· 10年+ .NET Coder 心语,封装的思维:从隐藏、稳定开始理解其本质意义
· .NET Core 中如何实现缓存的预热?
阅读排行:
· 分享一个免费、快速、无限量使用的满血 DeepSeek R1 模型,支持深度思考和联网搜索!
· 基于 Docker 搭建 FRP 内网穿透开源项目(很简单哒)
· 25岁的心里话
· ollama系列01:轻松3步本地部署deepseek,普通电脑可用
· 按钮权限的设计及实现
点击右上角即可分享
微信分享提示