摘要: 使用rvest包实现实现穿越表单以及页面的跳转 阅读全文
posted @ 2018-01-18 18:40 嘻呵呵 阅读(862) 评论(0) 推荐(0) 编辑
摘要: 抓取目标:抓取花儿与少年的百度百科中成员信息 url % html_nodes("table[log set param=table_view]") % % html_table(fill = T) table 阅读全文
posted @ 2018-01-18 16:56 嘻呵呵 阅读(579) 评论(0) 推荐(0) 编辑
摘要: 给定起始页面以及爬取页数,要求得到每一个问题的标题、票数、回答数、查看数 阅读全文
posted @ 2018-01-18 15:58 嘻呵呵 阅读(594) 评论(0) 推荐(0) 编辑
摘要: 第一种方法 第二种方法 pkg_table % html_node('table') % % html_table(fill=TRUE) class(pkg_table) 返回数据框 由于原表格没有表头(没有标签),因此数据框使用默认的表头X1,X2代替 使用fill=T,会自动填补行列中的缺失值, 阅读全文
posted @ 2018-01-18 15:21 嘻呵呵 阅读(2669) 评论(0) 推荐(0) 编辑
摘要: css 选择器与 xpath 用法对比 |目标|匹配节点|CSS 3|XPath| | | | | | |所有节点| | |`// `| |查找一级、二级、三级标题节点| ,``| ,`h2 h3 //h1 //h2 //h3`| |所有的P节点 | p` | | |p节点的所有子节点| p //p 阅读全文
posted @ 2018-01-18 14:43 嘻呵呵 阅读(1031) 评论(0) 推荐(0) 编辑
摘要: CSS选择器和XPath方法都是用来定位DOM树的标签,只不过两者的定位表示形式上存在一些差别: CSS 方法提取节点 XPath 方法提取节点 阅读全文
posted @ 2018-01-18 14:32 嘻呵呵 阅读(2232) 评论(0) 推荐(0) 编辑
摘要: Rvest 包中常用函数一览: | 函数|作用| | | | | |读取 html 页面| | |提取所有符合条件的节点| | |返回一个变量长度相等的list,相当于对 取`[[1]]`操作| | |获取 标签中的表格,默认参数 ,设置 可以包含表头,返回数据框| | |提取标签包含的文本,令参数 阅读全文
posted @ 2018-01-18 12:00 嘻呵呵 阅读(4386) 评论(1) 推荐(0) 编辑
摘要: 豆瓣排名前25电影及评价爬取 url % str_replace_all(string = ., pattern = " |[:digit:]+人评价') Rating.num_line % as.numeric(.) 获取评价分数 Score_line % as.numeric(.) 数据合并 M 阅读全文
posted @ 2018-01-18 10:46 嘻呵呵 阅读(5498) 评论(1) 推荐(1) 编辑
摘要: 字符串处理中基本函数的使用 R自带函数与stringr包函数对比 阅读全文
posted @ 2018-01-18 00:17 嘻呵呵 阅读(2080) 评论(0) 推荐(1) 编辑
摘要: 元字符有自己的特殊含义 内的任意字符将被匹配 对元字符进行转义 匹配字符串的开头,将^置于character class 的首位表达的意思是取反义。如[ˆ5] 表示匹配除了“5” 以外的所有字符。 test_vector 阅读全文
posted @ 2018-01-17 21:57 嘻呵呵 阅读(1811) 评论(0) 推荐(0) 编辑