06 2019 档案

摘要:之前在博客分享了利用 R 和 rvest 包爬虫的基础方法。现在就来实战一下:爬取链家网广州 40,000+ 套二手房的数据。 ![lianjia homepage](https://img2018.cnblogs.com/blog/1705277/201906/1705277-2019060513 阅读全文
posted @ 2019-06-07 11:27 yukiwu 阅读(3644) 评论(1) 推荐(0)
摘要:##### >> Score 最近用随机森林玩了 Kaggle 的泰坦尼克号项目,顺便记录一下。 Kaggle - Titanic: Machine Learning from Disaster Ongoing: Top 8% ##### >> Details Sample Code downloa 阅读全文
posted @ 2019-06-05 21:21 yukiwu 阅读(440) 评论(0) 推荐(0)
摘要:网络上有大量的信息与数据。我们可以利用爬虫技术来获取这些巨大的数据资源。 这次用 IMDb 网站的2018年100部最欢迎的电影 来练练手,顺便总结一下 R 爬虫的方法。 ##### >> Preparation 感谢 Hadley Wickham 大大,我们有 rvest 包可以用。因此爬虫前先安 阅读全文
posted @ 2019-06-05 13:00 yukiwu 阅读(1253) 评论(0) 推荐(0)
摘要:在比较数据的均值时,我们可能知道: 1. 比较工厂当天生产的零件的长度是否合格 (length >= N mm),用 t-Test; 2. 比较各一线城市的人均收入,用 ANOVA。 其实均值比较还有很多检验方法,要怎么选?脑阔疼! 今天终于花了点时间自己总结了一下: 阅读全文
posted @ 2019-06-04 22:48 yukiwu 阅读(761) 评论(0) 推荐(0)
摘要:今天要总结的是 Word Cloud 最后一个部分了,用 Matlab 来创建 word cloud。Matlab R2018b 已经提供 [wordcloud](https://www.mathworks.com/help/matlab/ref/wordcloud.html) 函数可以直接生成词云 阅读全文
posted @ 2019-06-04 20:28 yukiwu 阅读(3017) 评论(0) 推荐(0)
摘要:在前面已经陆续总结了如何用 [Python](https://www.cnblogs.com/yukiwu/p/10967037.html) 和 [JavaScript](https://www.cnblogs.com/yukiwu/p/10968816.html) 创建词云了,今天要说的是 R。其 阅读全文
posted @ 2019-06-02 18:18 yukiwu 阅读(702) 评论(0) 推荐(0)
摘要:在[上一篇](https://www.cnblogs.com/yukiwu/p/10967037.html)中已经分享了用 Python 创建词云了。接下来继续总结其他创建词云的方法。 ##### >> Create Word Cloud via JavaScript JavaScript 可以借助 阅读全文
posted @ 2019-06-02 17:29 yukiwu 阅读(1947) 评论(0) 推荐(0)
摘要:##### >>What's Word Cloud 词云 (Word Cloud)是对文本中出现频率较高的词语给予视觉化展示的图形, 是一种常见的文本挖掘的方法。目前已有多种数据分析工具支持这种图形,如Matlab, SPSS, SAS, R 和 Python 等等,也有很多在线网页能生成 word 阅读全文
posted @ 2019-06-02 13:32 yukiwu 阅读(5555) 评论(0) 推荐(0)
摘要:今年年初利用 GitHub Page 搭了一个个人博客,主要是记录在做数据分析的时候总结的一些技巧与心得 。 当初用 GitHub 主要也是图方便,能随时传点代码和图片甚至其他文件进行分享。 然而,最近由于众所周知的原因,GitHub 有时在围城内有时在围城外。 虽然不是什么大杰作,但也是自己一个字 阅读全文
posted @ 2019-06-01 10:59 yukiwu 阅读(266) 评论(0) 推荐(0)