摘要: 延续之前的用R语言读琅琊榜小说,继续讲一下利用R语言做一些简单的文本处理、分词的事情。其实就是继续讲一下用R语言读书的事情啦,讲讲怎么用它里面简单的文本处理方法,来优化我们的读书体验,如果读邮件和读代码也算阅读的话。。用的代码超级简单,不涉及其他包 阅读全文
posted @ 2015-11-29 21:18 尾巴AR 阅读(3175) 评论(0) 推荐(1) 编辑
摘要: 就是用R语言最基础的东西,加一点点脑洞,来打开琅琊榜小说 阅读全文
posted @ 2015-10-31 13:19 尾巴AR 阅读(4608) 评论(8) 推荐(3) 编辑
摘要: 20170209更新: 根据回复提示,rvest包更新,原用函数html作废,需改用read_html 并后续amazon网页改版等 因此此文章代码失效!各位可看评论内容了解详情 等以后有空再重写一遍代码,抱歉。果然代码还是放在github上好啊。。。。 博客总目录:http://www.cnblo 阅读全文
posted @ 2015-09-20 22:25 尾巴AR 阅读(5183) 评论(24) 推荐(2) 编辑
摘要: 之前有幸在MOOC学院抽中小象学院hadoop体验课。 这是小象学院hadoop2.X的笔记 由于平时对数据挖掘做的比较多,所以优先看Mahout方向视频。 Mahout有很好的扩展性与容错性(基于HDFS&MapReduce开发),实现了大部分常用的数据挖掘算法(聚类、分类、推荐算法)不过数据挖掘 阅读全文
posted @ 2015-08-28 23:52 尾巴AR 阅读(1657) 评论(0) 推荐(0) 编辑
摘要: 之前有幸在MOOC学院抽中小象学院hadoop体验课。 这是小象学院hadoop2.X概述第八章的笔记 主要介绍HBase,一个分布式数据库的应用案例。 案例概况: 1)时间序列数据库(OpenTSDB) 用HBase储存时间序列数据,每时每刻都在解决,数据库为开源 2)HBase爬虫调度库 垂直搜 阅读全文
posted @ 2015-08-28 21:06 尾巴AR 阅读(1138) 评论(0) 推荐(0) 编辑
摘要: 之前有幸在MOOC学院抽中小象学院hadoop体验课。 这是小象学院hadoop2.X概述第一章的笔记 第一章主要讲的是hadoop基础知识。老师讲的还是比较全面简单的,起码作为一个非专业码农以及数据库管理人员,也能狗大致了解其特点。后面因为8月比较忙,就主要看案例那一部分了,应用及基础部分笔记基本 阅读全文
posted @ 2015-08-28 20:59 尾巴AR 阅读(344) 评论(0) 推荐(0) 编辑
摘要: 这两个月没有写什么代码。也没做什么大项目,基本就是对以前写的那个用ggplot2可视化数据的项目做一些增增补补,大部分技术难关都在ggplot2和R语言EXCEL处理这里解决并总结了。然后业余帮人修改一个用RVEST写的亚马逊简陋爬虫,花了两个周末时间。就简单记一下最近弄的这个功能块功能块分区,并自... 阅读全文
posted @ 2015-07-31 21:43 尾巴AR 阅读(510) 评论(2) 推荐(0) 编辑
摘要: 博客内容简介及目录 http://www.cnblogs.com/weibaar/p/6644261.html 本文旨在介绍R语言中ggplot2包的一些精细化操作,主要适用于对R画图有一定了解,需要更精细化作图的人,尤其是那些刚从excel转ggplot2的各位,有比较频繁的作图需求的人。不讨论那 阅读全文
posted @ 2015-06-10 23:34 尾巴AR 阅读(18790) 评论(2) 推荐(0) 编辑
摘要: 论R与excel的结合。 分为: 1、 xlsx包安装及注意事项 2、用vba实现xlsx批量转化csv 阅读全文
posted @ 2015-05-16 10:47 尾巴AR 阅读(9177) 评论(2) 推荐(0) 编辑
摘要: 在折腾完爬虫还有一些感兴趣的内容后,我最近在看用R语言进行简单机器学习的知识,主要参考了《机器学习-实用案例解析》这本书。这本书是目前市面少有的,纯粹以R语言为基础讲解的机器学习知识,书中涉及11个案例。分12章。作者备注以及代码部分都讲得比较深。不过或许因为出书较早,在数据处理方面,他使用更多的是... 阅读全文
posted @ 2015-04-11 18:50 尾巴AR 阅读(1315) 评论(0) 推荐(0) 编辑