使用R语言进行主题发现(一)
写作目的
最近由于研究需要,使用R语言对文本进行了主题发现,下面对具体过程进行记录。
步骤一:读取文本并进行预处理
本实验中主要对从SCI引文数据库中关于bigdata的索引记录进行分析,文件后缀为,目录为c:\\data\\,具体代码为:
#获取目录下所有的txt文本路径 fileList<-list.files(path = "C:/data",full.names= T,pattern=".txt") #按行读取该文本到变量file file<-c(readLines(fileList[1]),readLines(fileList[2])) #使用正则表达式对记录中的摘要进行提取 index<-grep("^AB.*?",file) doc<-file[index] #删除文件开头的AB 字符,得到摘要列表 doc<-sub("^AB ","",doc)
步骤二:使用tm包建立DocumentTermMatrix矩阵
将摘要信息读取doc变量后,接下来就需要使用tm包对文本进行处理了.
#加载tm包 library(tm) #建立语料库 doc.vec<-VectorSource(doc) doc.corpus<-Corpus(doc.vec) #进行预处理 doc.corpus<-tm_map(doc.corpus,tolower) doc.corpus<-tm_map(doc.corpus,removePunctuation) doc.corpus<-tm_map(doc.corpus,removeNumbers) doc.corpus<-tm_map(doc.corpus,removeWords, stopwords("english")) #加载SnowballC包 library(SnowballC) #继续进行预处理 doc.corpus <- tm_map(doc.corpus, stemDocument) doc.corpus <- tm_map(doc.corpus, stripWhitespace) #建立TermDocumentMatrix TDM <- TermDocumentMatrix(doc.corpus)
步骤三:使用wordcloud查看词语频率分布情况
library(wordcloud) m <- as.matrix(TDM) v <- sort(rowSums(m),decreasing=TRUE) d <- data.frame(word = names(v),freq=v) wordcloud(d$word,d$freq,c(8,.3),2)
经过上述步骤后,可以得到该语料的词云图如下
步骤四:使用topicmodels包对文本进行主题挖掘
(一)确定主题个数
要在数据集中确定主题的个数,需要事先设定主题个数的搜索范围,然后分别使用LDA计算主题模型在不同主题数目下的困惑度或者似然估计数值,最终能够使得模型困惑度最低或者似然估计值最大的主题数即为最佳的主题个数,一般为了降低困惑度,通常还会采取交叉验证的方法进行。下面给出基本代码
#退出阈值 burnin = 1000 #迭代次数 iter = 1000 #保存记录的步长 keep = 50 #主题范围(从2到100,以步长5进行递增) sequ <- seq(2, 100, 5) #迭代进行试验 fitted_many <- lapply(sequ, function(k) LDA(TDM, k = k, method = "Gibbs",control = list(burnin = burnin, iter = iter, keep = keep) )) #抽取每个主题的对数似然估计值 logLiks_many <- lapply(fitted_many, function(L) L@logLiks[-c(1:(burnin/keep))]) #定义计算调和平均值的函数 harmonicMean <- function(logLikelihoods, precision=2000L) { library("Rmpfr") llMed <- median(logLikelihoods) as.double(llMed - log(mean(exp(-mpfr(logLikelihoods, prec = precision) + llMed)))) } #计算各个主题的调和平均数,将其最为模型的最大似然估计 hm_many <- sapply(logLiks_many, function(h) harmonicMean(h)) #画出主题数-似然估计曲线图,用于观察 plot(sequ, hm_many, type = "l") # 计算最佳主题个数 sequ[which.max(hm_many)]
结果分析:
根据分析,可以确定在当前参数设定下,最佳主题数目为57.