摘要:
其实这篇博文是一个基于R的爬虫,抓取了1001位知乎姑娘所有答主上传的美照。共800多张图片。😄废话不多说,贴下代码和最后的抓取结果。嗯,😄,我会先贴图再贴代码。这些图片是来源于哪些优秀的知乎问题??(共100个问题)菇凉们的图:(我只抓了100张图,总共有800多张吧)(如有侵犯隐私,请立刻联... 阅读全文
摘要:
R 代码积累不定期更新 1.阶乘、递归、reduce、sprintf 2.MD5加密卡号 3.时间函数 https://cran.r-project.org/web/packages/lubridate/vignettes/lubridate.html 4.随机森林可视化 5.一个多线程 爬虫 阅读全文
摘要:
偶尔需要用百度爬点数据,下面展示如何用关键字在百度搜索,抓取相关信息 以上 阅读全文
摘要:
0-安装 我用python2.7,用pip安装selenium即可,phantomjs到官网下载安装,也不难。 1-主要参考的几篇文章 Python爬虫利器四之PhantomJS的用法 Python爬虫利器五之Selenium的用法 2-代码 3-查询结果 4-总结 会写一点python了 阅读全文
摘要:
一.apply族函数 1.apply 应用于矩阵和数组 2.eapply 应用于环境中的变量 3.lapply应用于列表,返回列表,实际data.frame也是一种list,一种由多个长度相同的向量cbind一起的list:lapply(list, function) 4.sapply 是lappl 阅读全文
摘要:
graphviz官网:http://www.graphviz.org/ 背景:有画图需要,之前见到别人用graphviz画,画出来的图漂亮,且自动帮你排版安排布局,所以自己想尝试用它画。 其中遇到的几个问题 为什么用这个工具画图? 最后放一张自己画的图 画图用的代码: digraph ER { // 阅读全文
摘要:
用xgboost进行训练,代码见下面 #设置路径,加载包 setwd('/Users/litao/R/eXtreme Gradient Boosting/eXtreme Gradient Boosting/比赛来一发数据集') library(xgboost) library(magrittr) l 阅读全文
摘要:
0-背景临近毕业答辩,检测重复率,抽盲审等事宜接踵而至。很不幸,女票抽中盲审。我送助攻,和她一起修改论文,所以,这几天写了点代码,可以整理一下。多机器作业排序问题很简单,举个栗子🌰(从她论文中偷了一张图,23333),把所有工件,A,B,C,D加工完要用多久?前提是一台机器只能一次加工一个工件。(... 阅读全文
摘要:
需求分析:公司里有很多客户,客户之所以不继续用我们的产品了,是因为他账户余额是负的,所以,为了重新赢回这些客户,公司决定发放优惠券cover掉客户账户的负余额。具体细节:只有8元,80元,200元的优惠券发放给一个客户的优惠券总张数不能超过15张要既能cover掉客户的负余额,又要保证发放给客户的优... 阅读全文
摘要:
0-写在前面 随机森林,指的是利用多棵树对样本进行训练并预测的一种分类器。该分类器最早由Leo Breiman和Adele Cutler提出。简单来说,是一种bagging的思想,采用bootstrap,生成多棵树,CART(Classification And Regression Tree)构成 阅读全文
摘要:
Python课第五周开始讲函数了。递归函数。递归在python中不能超过900多层,否则报错内存溢出什么的。同样在R中递归太深也会报错,阈值和python中大概一样,900多次就报错了。error message:错误: 评估嵌套太深:无穷递归/ options(expressions=)?收捲时出... 阅读全文