会员
周边
众包
新闻
博问
闪存
所有博客
当前博客
我的博客
我的园子
账号设置
简洁模式
...
退出登录
注册
登录
西西嘛呦
从自己能做到的开始,一件件来,缓慢而坚定地前进,尽力而为
博客园
首页
新随笔
联系
管理
2020年10月8日
利用TfidfVectorizer进行中文文本分类(数据集是复旦中文语料)
摘要: 1、对语料进行分析 基本目录如下: 其中train存放的是训练集,answer存放的是测试集,具体看下train中的文件: 下面有20个文件夹,对应着20个类,我们继续看下其中的文件,以C3-Art为例: 每一篇都对应着一个txt文件,编码格式是gb18030.utf8文件夹下的是utf-8编码格式
阅读全文
posted @ 2020-10-08 19:45 西西嘛呦
阅读(5250)
评论(11)
推荐(4)
编辑
公告