摘要: 构思步骤: 1、从data中取出时间数据。 2、从时间数据中提取小时数据。 3、根据日期数据进行汇总每小时的消息数量。 4、利用ggplot2进行绘图。 生成图如下: 阅读全文
posted @ 2017-08-17 13:38 绪哥哥 阅读(642) 评论(0) 推荐(0) 编辑
摘要: 构思步骤: 1、从data中取出时间数据。 2、从时间数据中提取日期数据。 3、根据日期数据进行汇总每日的消息数量。 4、利用ggplot2进行绘图。 最终生成下图: 阅读全文
posted @ 2017-08-17 13:22 绪哥哥 阅读(222) 评论(0) 推荐(0) 编辑
摘要: 先对分析进行简单构思: 1、搜集并格式化数据 a、搜集QQ群记录-从QQ导出txt文档,筛选出需要统计的QQ群记录信息。 b、导入QQ群记录信息,根据\n换行符读取每一行的信息。 c、逐行读取,利用正则表达式判断该行是否是时间行,是的话进行切割,分割出时间和昵称,该行的下一行则为聊天信息。 d、把时 阅读全文
posted @ 2017-08-17 10:21 绪哥哥 阅读(198) 评论(0) 推荐(0) 编辑
摘要: 概念 1、监督学习:从给定标注的训练数据中学习出一个函数,根据这个函数为新数据进行标注。 2、无监督学习:从给定无标注的训练数据中学习出一个函数,根据这个函数为所有数据标注。 KNN分类算法:通过对已知类别训练数据集的分析,从中发现分类规则,以此预测新数据的类别,分类算法属于监督学习的类型。 KNN 阅读全文
posted @ 2017-08-16 22:21 绪哥哥 阅读(594) 评论(0) 推荐(0) 编辑
摘要: 概念 1、语料库-Corpus 语料库是我们要分析的所有文档的集合,就是需要为哪些文档来做词频 2、中文分词-Chinese Word Segmentation 指的是将一个汉字序列切分成一个一个单独的词语。 3、停用词-Stop Words 数据处理的时候,自动过滤掉某些字或词,包括泛滥的词如We 阅读全文
posted @ 2017-08-15 23:13 绪哥哥 阅读(1722) 评论(0) 推荐(0) 编辑
摘要: 四则运算 规则:相同的位置的数据进行运算,结果保留在相同的位置 语法:S1 op S2 注意:如果两个向量长度不一样,就会使用rep方法,将短的变量不断重复,直到和长的变量长度一致 相同长度数组运算 1:10 + 11:20 输出结果: 12 14 16 18 20 22 24 26 28 30 1 阅读全文
posted @ 2017-08-14 13:56 绪哥哥 阅读(393) 评论(0) 推荐(0) 编辑
摘要: sep:从X到X按照步数增加或者减少 seq(1, 10, by=1) seq(1, 10, by=0.1) seq(1.9, 10, by=0.1) #注意,不能这样子递减seq(10, 1, by=0.1) #注意,你可以这样子递减seq(10, 1, by=-0.1) #除了设置步长,还可以设 阅读全文
posted @ 2017-08-14 13:36 绪哥哥 阅读(1085) 评论(0) 推荐(0) 编辑
摘要: printLine <- function () { print(" ");} #函数的调用printLine(); #错误:无参函数,有参调用printLine("parameter"); printNLines <- function (n) { for(i in 1:n) { print(" 阅读全文
posted @ 2017-08-14 13:17 绪哥哥 阅读(199) 评论(0) 推荐(0) 编辑
摘要: repeat循环=while(true)循环 i = 0 repeat { i <- i+1 if(i==4) { next; } print(1:i); if(i==10) { break; }} 输出结果: [1] 1[1] 1 2[1] 1 2 3[1] 1 2 3 4 5[1] 1 2 3 阅读全文
posted @ 2017-08-14 12:50 绪哥哥 阅读(844) 评论(0) 推荐(0) 编辑
摘要: 1、直接循环 i = 0while(i<5) { i <- i+1; print(1:i);} 输出结果: [1] 1[1] 1 2[1] 1 2 3[1] 1 2 3 4[1] 1 2 3 4 5 2、跳出这一次 i = 0while(i<5) { i <- i+1 if(i==4) { next 阅读全文
posted @ 2017-08-14 12:47 绪哥哥 阅读(1081) 评论(0) 推荐(0) 编辑