摘要: with(priority.train, table(From.EMail))统计priority.train中From.EMail的频数 阅读全文
posted @ 2015-10-22 20:00 地表最强队队员 阅读(3874) 评论(0) 推荐(0) 编辑
摘要: ehparse.matrix <- do.call(rbind, easyham.parse) 阅读全文
posted @ 2015-10-22 19:43 地表最强队队员 阅读(3361) 评论(0) 推荐(0) 编辑
摘要: gsub("^\\s+|\\s+$", "", date) 阅读全文
posted @ 2015-10-22 19:25 地表最强队队员 阅读(3962) 评论(0) 推荐(0) 编辑
摘要: 调用前加上以下代码,即可解决Sys.setlocale("LC_TIME", "C"); 阅读全文
posted @ 2015-10-22 19:24 地表最强队队员 阅读(838) 评论(0) 推荐(1) 编辑
摘要: #数据集来源http://spamassassin.apache.org/publiccorpus/#加载数据library(tm)library(ggplot2)data.path,有些没有#参数是一封邮件向量,每一个元素就是邮件的一行get.from ]')[[1]]#忽略空元素 from ... 阅读全文
posted @ 2015-10-22 14:18 地表最强队队员 阅读(375) 评论(0) 推荐(0) 编辑
摘要: #定义函数,打开每一个文件,找到空行,将空行后的文本返回为一个字符串向量,该向量只有一个元素,就是空行之后的所有文本拼接之后的字符串#很多邮件都包含了非ASCII字符,因此设为latin1就可以读取非ASCII字符#readLines,读取每一行作为一个元素#异常捕获是自己加的,书上没有,不加会出错... 阅读全文
posted @ 2015-10-22 00:40 地表最强队队员 阅读(611) 评论(0) 推荐(0) 编辑