随笔分类 - 爬虫
发表于 2022-05-08 23:19阅读次数:292评论次数:0
摘要:问题 在码云上下载的爬虫代码,运行后将豆瓣图书的图片地址存放在数据库,但是web网页上却无法正常加载,出现了403 解决办法 原来的url:https://img1.doubanio.com/view/subject/s/public/s1070959.jpg 新的url:https://image
阅读全文 »
发表于 2019-06-24 10:14阅读次数:1791评论次数:0
摘要:早上起来,发现splash服务已经起来了,http://localhost:8050怎么也打不开 后来各种百度,发现有篇文章里说,原因是服务的IP为192.168.99.100,回去看了一把,果然是 也可以用命令docker-machine ip default查看 再次访问就可以了 参考文章 ht
阅读全文 »
发表于 2019-06-23 18:55阅读次数:374评论次数:0
摘要:直接上代码 运行结果
阅读全文 »
发表于 2019-06-23 14:57阅读次数:780评论次数:0
摘要:不多说了,上代码: 运行结果: MongoDB存储效果:
阅读全文 »
发表于 2019-06-22 16:35阅读次数:5171评论次数:0
摘要:BeautifulSoup是Python的一个HTML或XML的解析库,可以用它来方便地从网页提取数据(以下为崔庆才的爬虫书的学习笔记) 一. 安装方式 二. 基本语法 1. 节点选择器:基本用法 假如想要获取上述html中的title节点及其文本内容,请看以下语法: 引入并初始化beautiful
阅读全文 »
发表于 2019-06-16 16:58阅读次数:675评论次数:0
摘要:报错代码: 报错原因:用urllib.request.urlopen方式打开一个URL,服务器只会收到一个单纯的对于该页面访问的请求,但是服务器并不知道发送这个请求使用的浏览器,操作系统等信息,而缺失这些信息的访问往往都是非正常访问,会被一些网站禁止掉 解决办法:在headers中加入UserAge
阅读全文 »
发表于 2019-06-15 22:20阅读次数:1320评论次数:1
摘要:windows上pip install scrapyd-client,发现出错了: 后来百度,找了一篇文章,需要在python的Scripts目录下增加scrapyd-deploy.bat文件(bat文件python.exe和scrapyd-deploy的绝对路径因人而异) 再次运行,发现就可以了
阅读全文 »
发表于 2019-06-15 22:04阅读次数:588评论次数:0
摘要:崔庆才的爬虫书上写道:pip install scrapyd安装完毕之后,需要新建一个配置文件/etc/scrapyd/scrapyd.conf,scrapyd在运行的时候会读取此配置文件 这是针对于Linux来说,但没有提到windows要不要新建。于是,我用Everything搜索了一下关键字s
阅读全文 »
发表于 2019-06-15 21:35阅读次数:1321评论次数:0
摘要:docker toolbox是一个docker组件的集合,还包括一个极小的虚拟机,在windows宿主机上安装了一个支持命令行工具,并提供了一个docker环境 docker toolbox自带了很多组件,包括: virtualbox; docker客户端; docker compose; Kite
阅读全文 »
发表于 2019-06-15 17:46阅读次数:1227评论次数:0
摘要:接着上一篇,本来以为pyspider装成功了,后来失业pyspider all验证时,发现又报错了: 原因是从python 3.7开始async和await已经加入保留的关键字中,所以async不能最为函数的参数名 使用Notepad++将run.py中的async统一改为async1,重新运行py
阅读全文 »
发表于 2019-06-15 15:34阅读次数:369评论次数:0
摘要:使用pip install pyspider时,报错: 这是pycurl安装错误,需要安装pycurl库。从https://www.lfd.uci.edu/~gohlke/pythonlibs/#pycurl找到对应的python版本,通过pip install whl文件即可。成功后,再次pip
阅读全文 »
发表于 2019-06-15 12:05阅读次数:995评论次数:0
摘要:pip install tesserocr pillow时,提示: 按照给的提示,进到微软官网,啥都没有,pip的安装报错提示是时候更新一波了~ 在网上找Microsoft Visual C++的资料,十分稀少,只能采用wheel安装编译后的压缩包。whl文件本质上是一个压缩包,里面包含了py文件以
阅读全文 »
发表于 2019-06-15 11:07阅读次数:1208评论次数:0
摘要:安装firefox驱动geckodriver不用像chrome驱动一样找对应版本号,直接去github上下载最新的releases版本即可,按照崔庆才《Python3网络爬虫开发实战》来装,发现验证环节,在cmd中输入geckodriver,应该输出一些信息,类似于这样的: 实际上,可能由于我的驱动
阅读全文 »
发表于 2018-08-20 21:13阅读次数:319评论次数:0
摘要:这里需要注意一下,在爬取猫眼电影Top100时,网站设置了反爬虫机制,因此需要在requests库的get方法中添加headers,伪装成浏览器进行爬取 运行结果如下:
阅读全文 »
发表于 2018-07-01 00:58阅读次数:1572评论次数:0
摘要:这几天在学习selenium,顺便用selenium + python写了一个比较简陋的爬虫,现附上源码,有时间再补充补充: 控制台输出 保存到文件
阅读全文 »