2020 年 2月 29 日随笔档案 - 方木Fengl

python爬虫（十四）

摘要： 1、获取所有的span标签 from lxml import etree parser=etree.HTMLParser(encoding='utf-8') html=etree.parse("tencent.html",parser=parser) # 1、获取所有的span标签 # //span 阅读全文

posted @ 2020-02-29 22:37 方木Fengl 阅读(337) 评论(0) 推荐(0) 编辑

python爬虫（十三） lxml模块

摘要： lxml是一个HTML/XML的解析库，主要功能是如何解析和提取HTML/XML数据 lxml和正则一样，是用c实现的，我们可以用XPath语法，来快速的定位特定元素以及节点信息。需要用到pip。使用： 1、解析一段html的字符串 from lxml import etree text=""" 阅读全文

posted @ 2020-02-29 20:49 方木Fengl 阅读(1077) 评论(0) 推荐(0) 编辑

python爬虫（十二） XPath语法

摘要：之前学习得是如何进行网络请求，现在开始学习如何进行数据提取一、选取节点：在火狐浏览器中，首先要有一个try xpath插件，例如要找网页中所有得div，就在插件中搜索就会把所有的div圈出来： 1、/ 就是在根节点下查找元素（直接子元素）例如：根节点下没有div,所以数量为0.div为子阅读全文

posted @ 2020-02-29 19:58 方木Fengl 阅读(426) 评论(0) 推荐(0) 编辑

python爬虫（十一） session

摘要：这是一个会话对象，对目标服务器得请求通过session来完成例如人人网爬取大鹏主页信息， # requests使用session,不用登录查看人人网大鹏信息 import requests url='http://www.renren.com/PLogin.do' id = input('请输入用阅读全文

posted @ 2020-02-29 18:13 方木Fengl 阅读(2127) 评论(0) 推荐(0) 编辑

python爬虫（十） requests使用代理ip

摘要：请求时，先将请求发给代理服务器，代理服务器请求目标服务器，然后目标服务器将数据传给代理服务器，代理服务器再将数据给爬虫。代理服务器是经常变化的使用代理服务器时传一个参数：proxy。是一个字典的形式。通过网址：httpbin.org/ip可以看到当前请求得ip地址：再快代理官网，点击开放代理阅读全文

posted @ 2020-02-29 16:59 方木Fengl 阅读(12212) 评论(0) 推荐(0) 编辑

zhaoxinhui

导航

公告