2017 年 6月 15 日随笔档案 - 三门曾经

2017年6月15日

摘要：下面是设计分类器，用训练集训练，用测试集测试。在做这些工作之前，一定要记住，首先要把测试数据也映射到上面这个TF IDF词向量空间中，也就是说，测试集和训练集处在同一个词向量空间（vocabulary相同），只不过测试集有自己的tdm，与训练集（train_word_bag/tfdifspace.d 阅读全文

posted @ 2017-06-15 22:30 三门曾经阅读(769) 评论(0) 推荐(0) 编辑

window10下载安装jieba

摘要：下载安装jieba的过程如下： 1 "下载jieba" 2 将其解压到E：\python2，如图所示： 3 在桌面左下角搜索框中输入“运行”，之后输入“cmd”。再按照下面的命令切换到jieba所在的目录。 4 样例代码 5 运行结果阅读全文

posted @ 2017-06-15 09:16 三门曾经阅读(2499) 评论(0) 推荐(0) 编辑

文本分类二之文本预处理

摘要：一. 文本预处理文本处理的核心任务是要把非结构化和半结构化的文本转换成结构化的形式，即向量空间模型，在这之前，必须要对不同类型的文本进行预处理，在大多数文本挖掘任务中，文本预处理的步骤都是相似的，基本步骤如下： 1.选择处理的文本范围 2.建立分类文本语料库 2.1训练集语料（已经分好类的文本资源阅读全文

posted @ 2017-06-15 09:05 三门曾经阅读(1997) 评论(0) 推荐(0) 编辑

中文文本分类实例

摘要：文本挖掘是从非结构化文本信息中获取用户感兴趣的或者有用的模式的过程。也就是从大量文本数据中抽取事先未知的、可理解的、最中可用的知识的过程，同时运用这些知识更好的组织信息以便将来参考。中文语言的文本分类技术和流程，步骤： 1.预处理（去除噪声、例如html标签、文本格式转化、检测句子边界） 2.中文阅读全文

posted @ 2017-06-15 08:49 三门曾经阅读(1932) 评论(0) 推荐(0) 编辑

三门曾经

从此无心爱良夜，任他明月下西楼。

公告