2020年2月29日

摘要: 1、获取所有的span标签 from lxml import etree parser=etree.HTMLParser(encoding='utf-8') html=etree.parse("tencent.html",parser=parser) # 1、获取所有的span标签 # //span 阅读全文
posted @ 2020-02-29 22:37 方木Fengl 阅读(337) 评论(0) 推荐(0) 编辑
摘要: lxml是一个HTML/XML的解析库,主要功能是如何解析和提取HTML/XML数据 lxml和正则一样,是用c实现的,我们可以用XPath语法,来快速的定位特定元素以及节点信息。需要用到pip。 使用: 1、解析一段html的字符串 from lxml import etree text=""" 阅读全文
posted @ 2020-02-29 20:49 方木Fengl 阅读(1077) 评论(0) 推荐(0) 编辑
摘要: 之前学习得是如何进行网络请求,现在开始学习如何进行数据提取 一、选取节点: 在火狐浏览器中,首先要有一个try xpath插件, 例如要找网页中所有得div,就在插件中搜索 就会把所有的div圈出来: 1、/ 就是在根节点下查找元素(直接子元素) 例如: 根节点下没有div,所以数量为0.div为子 阅读全文
posted @ 2020-02-29 19:58 方木Fengl 阅读(426) 评论(0) 推荐(0) 编辑
摘要: 这是一个会话对象,对目标服务器得请求通过session来完成 例如人人网爬取大鹏主页信息, # requests使用session,不用登录查看人人网大鹏信息 import requests url='http://www.renren.com/PLogin.do' id = input('请输入用 阅读全文
posted @ 2020-02-29 18:13 方木Fengl 阅读(2127) 评论(0) 推荐(0) 编辑
摘要: 请求时,先将请求发给代理服务器,代理服务器请求目标服务器,然后目标服务器将数据传给代理服务器,代理服务器再将数据给爬虫。 代理服务器是经常变化的 使用代理服务器时传一个参数:proxy。是一个字典的形式。 通过网址:httpbin.org/ip可以看到当前请求得ip地址: 再快代理官网,点击开放代理 阅读全文
posted @ 2020-02-29 16:59 方木Fengl 阅读(12212) 评论(0) 推荐(0) 编辑

导航