摘要: XPath的选取方法 xpath使用路径表达式可以在网页源代码中选取节点,沿着路径来选取的。 表达式 描述 nodename 选取此节点的所有子节点 / 从根节点选取 // 从匹配选择的当前节点选择文档中的节点,而不考虑它们的位置 . 选取当前节点 .. 选取当前节点的父节点 @ 选取属性 在页面中 阅读全文
posted @ 2020-11-20 17:48 Hskan 阅读(501) 评论(0) 推荐(0) 编辑
摘要: 爬取论坛中的标题 这部分的重点: 1、明确你要爬取网页的网址,使用谷歌的检查功能,可以抓取页面的数据,但加载的内容有很多,图片,js文件都非常多,必须要在这里面找到你想爬取的页面的网址。 2、用到了正则表达式,正则表达式不准确也是输出不了想要的结果,建议输出r.text后在正则表达式的网站上确认自己 阅读全文
posted @ 2020-11-20 15:33 Hskan 阅读(213) 评论(0) 推荐(0) 编辑