会员
周边
众包
新闻
博问
闪存
赞助商
Chat2DB
所有博客
当前博客
我的博客
我的园子
账号设置
会员中心
简洁模式
...
退出登录
注册
登录
宁小静
博客园
首页
新随笔
联系
管理
订阅
2019年4月11日
中文文本预处理及表示
摘要: 文本分类 一、建立语料库 文本数据的获取方法一般有两种: 使用别人做好的语料库 爬虫去获取自己的预料数据 二、文本预处理 1、 除去数据中非文本部分 一般可以使用正则表达式去进行删除 2、 处理中文编码问题 由于python2不支持unicode的处理,因此使用python2做中文文本预处理需要遵循
阅读全文
posted @ 2019-04-11 21:04 宁小静
阅读(2230)
评论(0)
推荐(0)
编辑
公告