摘要:
下面是设计分类器,用训练集训练,用测试集测试。在做这些工作之前,一定要记住,首先要把测试数据也映射到上面这个TF IDF词向量空间中,也就是说,测试集和训练集处在同一个词向量空间(vocabulary相同),只不过测试集有自己的tdm,与训练集(train_word_bag/tfdifspace.d 阅读全文
摘要:
下载安装jieba的过程如下: 1 "下载jieba" 2 将其解压到E:\python2,如图所示: 3 在桌面左下角搜索框中输入“运行”,之后输入“cmd”。再按照下面的命令切换到jieba所在的目录。 4 样例代码 5 运行结果 阅读全文
摘要:
一. 文本预处理 文本处理的核心任务是要把非结构化和半结构化的文本转换成结构化的形式,即向量空间模型,在这之前,必须要对不同类型的文本进行预处理,在大多数文本挖掘任务中,文本预处理的步骤都是相似的,基本步骤如下: 1.选择处理的文本范围 2.建立分类文本语料库 2.1训练集语料(已经分好类的文本资源 阅读全文
摘要:
文本挖掘是从非结构化文本信息中获取用户感兴趣的或者有用的模式的过程。也就是从大量文本数据中抽取事先未知的、可理解的、最中可用的知识的过程,同时运用这些知识更好的组织信息以便将来参考。 中文语言的文本分类技术和流程,步骤: 1.预处理(去除噪声、例如html标签、文本格式转化、检测句子边界) 2.中文 阅读全文