随笔分类 -  爬虫

摘要:问题 在码云上下载的爬虫代码,运行后将豆瓣图书的图片地址存放在数据库,但是web网页上却无法正常加载,出现了403 解决办法 原来的url:https://img1.doubanio.com/view/subject/s/public/s1070959.jpg 新的url:https://image 阅读全文 »
posted @ 2022-05-08 23:19 cnhkzyy 阅读(292) 评论(0) 推荐(0) 编辑
摘要:早上起来,发现splash服务已经起来了,http://localhost:8050怎么也打不开 后来各种百度,发现有篇文章里说,原因是服务的IP为192.168.99.100,回去看了一把,果然是 也可以用命令docker-machine ip default查看 再次访问就可以了 参考文章 ht 阅读全文 »
posted @ 2019-06-24 10:14 cnhkzyy 阅读(1791) 评论(0) 推荐(0) 编辑
摘要:直接上代码 运行结果 阅读全文 »
posted @ 2019-06-23 18:55 cnhkzyy 阅读(374) 评论(0) 推荐(0) 编辑
摘要:不多说了,上代码: 运行结果: MongoDB存储效果: 阅读全文 »
posted @ 2019-06-23 14:57 cnhkzyy 阅读(780) 评论(0) 推荐(0) 编辑
摘要:BeautifulSoup是Python的一个HTML或XML的解析库,可以用它来方便地从网页提取数据(以下为崔庆才的爬虫书的学习笔记) 一. 安装方式 二. 基本语法 1. 节点选择器:基本用法 假如想要获取上述html中的title节点及其文本内容,请看以下语法: 引入并初始化beautiful 阅读全文 »
posted @ 2019-06-22 16:35 cnhkzyy 阅读(5171) 评论(0) 推荐(1) 编辑
摘要:报错代码: 报错原因:用urllib.request.urlopen方式打开一个URL,服务器只会收到一个单纯的对于该页面访问的请求,但是服务器并不知道发送这个请求使用的浏览器,操作系统等信息,而缺失这些信息的访问往往都是非正常访问,会被一些网站禁止掉 解决办法:在headers中加入UserAge 阅读全文 »
posted @ 2019-06-16 16:58 cnhkzyy 阅读(675) 评论(0) 推荐(0) 编辑
摘要:windows上pip install scrapyd-client,发现出错了: 后来百度,找了一篇文章,需要在python的Scripts目录下增加scrapyd-deploy.bat文件(bat文件python.exe和scrapyd-deploy的绝对路径因人而异) 再次运行,发现就可以了 阅读全文 »
posted @ 2019-06-15 22:20 cnhkzyy 阅读(1320) 评论(1) 推荐(1) 编辑
摘要:崔庆才的爬虫书上写道:pip install scrapyd安装完毕之后,需要新建一个配置文件/etc/scrapyd/scrapyd.conf,scrapyd在运行的时候会读取此配置文件 这是针对于Linux来说,但没有提到windows要不要新建。于是,我用Everything搜索了一下关键字s 阅读全文 »
posted @ 2019-06-15 22:04 cnhkzyy 阅读(588) 评论(0) 推荐(0) 编辑
摘要:docker toolbox是一个docker组件的集合,还包括一个极小的虚拟机,在windows宿主机上安装了一个支持命令行工具,并提供了一个docker环境 docker toolbox自带了很多组件,包括: virtualbox; docker客户端; docker compose; Kite 阅读全文 »
posted @ 2019-06-15 21:35 cnhkzyy 阅读(1321) 评论(0) 推荐(0) 编辑
摘要:接着上一篇,本来以为pyspider装成功了,后来失业pyspider all验证时,发现又报错了: 原因是从python 3.7开始async和await已经加入保留的关键字中,所以async不能最为函数的参数名 使用Notepad++将run.py中的async统一改为async1,重新运行py 阅读全文 »
posted @ 2019-06-15 17:46 cnhkzyy 阅读(1227) 评论(0) 推荐(0) 编辑
摘要:使用pip install pyspider时,报错: 这是pycurl安装错误,需要安装pycurl库。从https://www.lfd.uci.edu/~gohlke/pythonlibs/#pycurl找到对应的python版本,通过pip install whl文件即可。成功后,再次pip 阅读全文 »
posted @ 2019-06-15 15:34 cnhkzyy 阅读(369) 评论(0) 推荐(0) 编辑
摘要:pip install tesserocr pillow时,提示: 按照给的提示,进到微软官网,啥都没有,pip的安装报错提示是时候更新一波了~ 在网上找Microsoft Visual C++的资料,十分稀少,只能采用wheel安装编译后的压缩包。whl文件本质上是一个压缩包,里面包含了py文件以 阅读全文 »
posted @ 2019-06-15 12:05 cnhkzyy 阅读(995) 评论(0) 推荐(0) 编辑
摘要:安装firefox驱动geckodriver不用像chrome驱动一样找对应版本号,直接去github上下载最新的releases版本即可,按照崔庆才《Python3网络爬虫开发实战》来装,发现验证环节,在cmd中输入geckodriver,应该输出一些信息,类似于这样的: 实际上,可能由于我的驱动 阅读全文 »
posted @ 2019-06-15 11:07 cnhkzyy 阅读(1208) 评论(0) 推荐(0) 编辑
摘要:这里需要注意一下,在爬取猫眼电影Top100时,网站设置了反爬虫机制,因此需要在requests库的get方法中添加headers,伪装成浏览器进行爬取 运行结果如下: 阅读全文 »
posted @ 2018-08-20 21:13 cnhkzyy 阅读(319) 评论(0) 推荐(0) 编辑
摘要:这几天在学习selenium,顺便用selenium + python写了一个比较简陋的爬虫,现附上源码,有时间再补充补充: 控制台输出 保存到文件 阅读全文 »
posted @ 2018-07-01 00:58 cnhkzyy 阅读(1572) 评论(0) 推荐(0) 编辑

点击右上角即可分享
微信分享提示