Loading

摘要: [TOC] 这次采用的数据集为 ,这份语料的质量还是不错的,内容也比较生活化。更多的语料数据可见: "中文公开聊天语料库" 首先,项目依赖: 准备数据 先 读取数据 ,然后打印几行看看语料质量: 打印结果: 可以看到,语料的基本质量还是可以的,不过其中还有一些不必要的符号,后续处理时要过滤掉 分词 阅读全文
posted @ 2020-04-22 22:16 云野Winfield 阅读(1319) 评论(0) 推荐(2) 编辑