中文历时语料库
1|0项目的用途
用途名称 | 技术手段 | 应用场景 |
---|---|---|
词语考察 | 分词、词频统计 | 通用词表等编写 |
语义计算 | 共现词、MI搭配、依存搭配 | 搭配等语义词典编写 |
热度计算 | 流通度计算、术语提取 | 流行语等发布 |
文化计算 | 颜色计算、性别计算 | 文化变迁 |
媒体对比 | 媒体差异计算 | 传播学研究 |
语法研究 | 语法模式检索 | 语法教材与词典编写 |
2|0项目的获取
对于如何获取数据,下表是对数据集的介绍,需要使用的可以开放下载使用,因涉及版权问题,暂只放数据来源。免责声明:该项目由公开渠道收集而成,不可商用,仅可用于科学研究,若有侵权,可联系删除。
数据名称 | 时间跨度 | 数据大小 | 数据来源 |
---|---|---|---|
腾讯新闻 | 2009-2016 | 5GB | https://auto.qq.com/l/201104/scrollnews_15.htm |
人民日报 | 1946-2003 | 3.44GB | http://www.laoziliao.net/rmrb/ |
参考消息 | 1957-2002 | 1.1GB | http://www.laoziliao.net/ckxx/ |
__EOF__

本文作者:艾孜尔江
本文链接:https://www.cnblogs.com/ezhar/p/14364144.html
关于博主:评论和私信会在第一时间回复。或者直接私信我。
版权声明:本博客所有文章除特别声明外,均采用 BY-NC-SA 许可协议。转载请注明出处!
声援博主:如果您觉得文章对您有帮助,可以点击文章右下角【推荐】一下。您的鼓励是博主的最大动力!
本文链接:https://www.cnblogs.com/ezhar/p/14364144.html
关于博主:评论和私信会在第一时间回复。或者直接私信我。
版权声明:本博客所有文章除特别声明外,均采用 BY-NC-SA 许可协议。转载请注明出处!
声援博主:如果您觉得文章对您有帮助,可以点击文章右下角【推荐】一下。您的鼓励是博主的最大动力!
本文来自博客园,作者:艾孜尔江,转载请注明原文链接:https://www.cnblogs.com/ezhar/p/14364144.html
【推荐】国内首个AI IDE,深度理解中文开发场景,立即下载体验Trae
【推荐】编程新体验,更懂你的AI,立即体验豆包MarsCode编程助手
【推荐】抖音旗下AI助手豆包,你的智能百科全书,全免费不限次数
【推荐】轻量又高性能的 SSH 工具 IShell:AI 加持,快人一步
· AI与.NET技术实操系列:基于图像分类模型对图像进行分类
· go语言实现终端里的倒计时
· 如何编写易于单元测试的代码
· 10年+ .NET Coder 心语,封装的思维:从隐藏、稳定开始理解其本质意义
· .NET Core 中如何实现缓存的预热?
· 分享一个免费、快速、无限量使用的满血 DeepSeek R1 模型,支持深度思考和联网搜索!
· 基于 Docker 搭建 FRP 内网穿透开源项目(很简单哒)
· 25岁的心里话
· ollama系列01:轻松3步本地部署deepseek,普通电脑可用
· 按钮权限的设计及实现