摘要:
1、获取所有的span标签 from lxml import etree parser=etree.HTMLParser(encoding='utf-8') html=etree.parse("tencent.html",parser=parser) # 1、获取所有的span标签 # //span 阅读全文
摘要:
lxml是一个HTML/XML的解析库,主要功能是如何解析和提取HTML/XML数据 lxml和正则一样,是用c实现的,我们可以用XPath语法,来快速的定位特定元素以及节点信息。需要用到pip。 使用: 1、解析一段html的字符串 from lxml import etree text=""" 阅读全文
摘要:
之前学习得是如何进行网络请求,现在开始学习如何进行数据提取 一、选取节点: 在火狐浏览器中,首先要有一个try xpath插件, 例如要找网页中所有得div,就在插件中搜索 就会把所有的div圈出来: 1、/ 就是在根节点下查找元素(直接子元素) 例如: 根节点下没有div,所以数量为0.div为子 阅读全文
摘要:
这是一个会话对象,对目标服务器得请求通过session来完成 例如人人网爬取大鹏主页信息, # requests使用session,不用登录查看人人网大鹏信息 import requests url='http://www.renren.com/PLogin.do' id = input('请输入用 阅读全文
摘要:
请求时,先将请求发给代理服务器,代理服务器请求目标服务器,然后目标服务器将数据传给代理服务器,代理服务器再将数据给爬虫。 代理服务器是经常变化的 使用代理服务器时传一个参数:proxy。是一个字典的形式。 通过网址:httpbin.org/ip可以看到当前请求得ip地址: 再快代理官网,点击开放代理 阅读全文