R语言LDA包数据预处理脚本

docs<-list()

setwd("E:/test/");
dirlist<-dir();

voc<-c()


for(file in dirlist)
{
  f<-paste(getwd(),'/',file,sep='')
 
  data <- scan(f, what="")
  data <- gsub("[^\\w-]", "", data, perl=TRUE)
  voc<-c(voc,data)
  voc<-voc[!duplicated(voc)]
  print(data)
  df <- sort(table(tolower(data)))
  print("---")
  na<-names(df)
  v<-c()
  for(n in na)
  {
      v<-c(v,which(voc==n))
  }
  m<-rbind(v,df)
  lt<-list(m)
  print(m)
  print(df)
  docs <-append(docs,lt)
 
}
docs

posted on 2017-05-29 10:50  wgwyanfs  阅读(271)  评论(0编辑  收藏  举报

导航