随笔分类 -  Python爬虫

摘要:参考:https://www.jianshu.com/p/f371120a1426 阅读全文 »
posted @ 2020-04-26 22:47 ZhuGaochao 阅读(296) 评论(0) 推荐(0) 编辑
摘要:报错截图 报错原因 根据提示,是因为没找到chromedriver,最后经过调试,原来我 '/usr/local/bin/chromedriver' 下的driver有问题,就重新下载个driver,解压到我 /home/v-gazh/Apps 目录下: 然后再执行代码,就OK了: 阅读全文 »
posted @ 2020-04-26 22:35 ZhuGaochao 阅读(7131) 评论(0) 推荐(0) 编辑
摘要:查看初始编码 首先查看拿到的response编码格式: (就不放代码了,因为此例需要用到cookie,可自行找个网站具体测试) 可见初始编码为:ISO-8859-1 修改编码 初始编码: 修改后编码: so 修改编码后乱码消失了,你就可以对它为所欲为了~ 阅读全文 »
posted @ 2018-12-13 11:44 ZhuGaochao 阅读(2702) 评论(0) 推荐(0) 编辑
摘要:浏览过程中,图片中的内容可能太小,无法看清,可以>右键>在新标签中打开 Outline 项目原因,需要用selenium实现模拟登陆、模拟上传文件,自然就需要模拟点击【上传】按钮; 模拟点击之前需要通过selenium提供的“方法”去定位到要点击的元素; 模拟登陆过程中,全程都可以定位到需要点击的元 阅读全文 »
posted @ 2018-11-17 16:40 ZhuGaochao 阅读(6690) 评论(0) 推荐(0) 编辑
摘要:Scrapy(爬虫)基本运行机制 阅读全文 »
posted @ 2018-05-14 19:59 ZhuGaochao 阅读(337) 评论(0) 推荐(0) 编辑
摘要:基于Requests和BeautifulSoup实现“自动登录”实例 自动登录抽屉新热榜 #!/usr/bin/env python # -*- coding:utf-8 -*- import requests # ############## 方式一 ############## """ # ## 阅读全文 »
posted @ 2018-05-11 20:22 ZhuGaochao 阅读(480) 评论(0) 推荐(0) 编辑
摘要:介绍 BeautifulSoup是一个模块,该模块用于接收一个HTML或XML字符串,然后将其进行格式化,之后便可以使用他提供的方法进行快速查找指定元素,从而使得在HTML或XML中查找指定元素变得简单。 安装 使用示例 详细使用方法 name:标签名称 attr:标签属性 children:所有子 阅读全文 »
posted @ 2018-05-11 20:17 ZhuGaochao 阅读(225) 评论(0) 推荐(0) 编辑
摘要:Requests模块 Python标准库中提供了:urllib、urllib2、httplib等模块以供Http请求,但是,它的 API 太渣了。 它是为另一个时代、另一个互联网所创建的。它需要巨量的工作,甚至包括各种方法覆盖,来完成最简单的任务。 Requests 是使用 Apache2 Lice 阅读全文 »
posted @ 2018-05-11 19:54 ZhuGaochao 阅读(289) 评论(0) 推荐(0) 编辑

点击右上角即可分享
微信分享提示