随笔分类 - 文本挖掘
文本挖掘、自然语言处理
摘要:在介绍相似度计算之前先介绍一下文档模型,也就是我们在解决一个问题的时候,一般是抽象出一个模型,也可以称为数学模型,这个模型可能是一个函数,可能是一个假设,主要的是为了解决这个问题。文档模型布尔模型建立在经典的集合论和布尔代数的基础上,每个词在一篇文档中是否出现,对应权值为 0或1向量空间模型中将文档表达为向量空间中的一个矢量或一个点,一个坐标轴代表一个词基于向量空间模型的相关度计算方法: 这边有几个概念,词频和逆向文件频率 词频就是把词进行归一化处理,那词在文档中出现的次数除以总文档总词数 逆向文件频率,主要衡量一个词重要性的标志,具体计算采用总文档数除以该词出现的文档数后取对数。数学之美中吧
阅读全文
摘要:文本挖掘可能更侧重于挖掘,跟NLP自然语言处理侧重点不一样,不过其依赖于自然语言处理,我的感觉就相当于计算机视觉依托于图像处理这个方向,大家侧重点不一样。自然语言处理主要流程文本->分句->分词->词性标注->短语分析->句法分析->语义分析->语篇分析->理解分句这个一般有标点符号相隔,这个便于处理。下面主要解决分词问题。分词的解决也就是解决特征提取的问题,我们在图像处理的时候要解决的第一个问题就是特征提取,选择什么样合理的特征。下面说一下分词基本方法:基于词典的方法基于标注的分词基于词典的方法中基于匹配的方法最大匹配算法(MM)具体思路:设定
阅读全文