爬虫 - 随笔分类 - cnhkzyy

解决爬虫爬取豆瓣图片加载限制403

摘要：问题在码云上下载的爬虫代码，运行后将豆瓣图书的图片地址存放在数据库，但是web网页上却无法正常加载，出现了403 解决办法原来的url：https://img1.doubanio.com/view/subject/s/public/s1070959.jpg 新的url：https://image 阅读全文

posted @ 2022-05-08 23:19 cnhkzyy 阅读(508) 评论(0) 推荐(0)

http://localhost:8050无法访问Splash主页

摘要：早上起来，发现splash服务已经起来了，http://localhost:8050怎么也打不开后来各种百度，发现有篇文章里说，原因是服务的IP为192.168.99.100，回去看了一把，果然是也可以用命令docker-machine ip default查看再次访问就可以了参考文章 ht 阅读全文

posted @ 2019-06-24 10:14 cnhkzyy 阅读(1851) 评论(0) 推荐(0)

使用pyquery爬取豆瓣电影top250，存储在mongodb

摘要：直接上代码运行结果阅读全文

posted @ 2019-06-23 18:55 cnhkzyy 阅读(391) 评论(0) 推荐(0)

利用beautifulsoup爬取豆瓣电影top250，存储在mongodb

摘要：不多说了，上代码：运行结果： MongoDB存储效果：阅读全文

posted @ 2019-06-23 14:57 cnhkzyy 阅读(821) 评论(0) 推荐(0)

BeautifulSoup基本用法

摘要：BeautifulSoup是Python的一个HTML或XML的解析库，可以用它来方便地从网页提取数据（以下为崔庆才的爬虫书的学习笔记）一. 安装方式二. 基本语法 1. 节点选择器：基本用法假如想要获取上述html中的title节点及其文本内容，请看以下语法：引入并初始化beautiful 阅读全文

posted @ 2019-06-22 16:35 cnhkzyy 阅读(5282) 评论(0) 推荐(1)

urlopen打开简书robots.txt时报错：HTTP Error 403: Forbidden

摘要：报错代码：报错原因：用urllib.request.urlopen方式打开一个URL，服务器只会收到一个单纯的对于该页面访问的请求，但是服务器并不知道发送这个请求使用的浏览器，操作系统等信息，而缺失这些信息的访问往往都是非正常访问，会被一些网站禁止掉解决办法：在headers中加入UserAge 阅读全文

posted @ 2019-06-16 16:58 cnhkzyy 阅读(703) 评论(0) 推荐(0)

'scrapyd-deploy' 不是内部或外部命令，也不是可运行的程序

摘要：windows上pip install scrapyd-client，发现出错了：后来百度，找了一篇文章，需要在python的Scripts目录下增加scrapyd-deploy.bat文件（bat文件python.exe和scrapyd-deploy的绝对路径因人而异）再次运行，发现就可以了阅读全文

posted @ 2019-06-15 22:20 cnhkzyy 阅读(1334) 评论(1) 推荐(1)

windows下pip install scrapyd不用新建配置文件

摘要：崔庆才的爬虫书上写道：pip install scrapyd安装完毕之后，需要新建一个配置文件/etc/scrapyd/scrapyd.conf，scrapyd在运行的时候会读取此配置文件这是针对于Linux来说，但没有提到windows要不要新建。于是，我用Everything搜索了一下关键字s 阅读全文

posted @ 2019-06-15 22:04 cnhkzyy 阅读(611) 评论(0) 推荐(0)

在windows7上安装docker toolbox

摘要：docker toolbox是一个docker组件的集合，还包括一个极小的虚拟机，在windows宿主机上安装了一个支持命令行工具，并提供了一个docker环境 docker toolbox自带了很多组件，包括： virtualbox; docker客户端； docker compose； Kite 阅读全文

posted @ 2019-06-15 21:35 cnhkzyy 阅读(1340) 评论(0) 推荐(0)

python3.7.3安装pyspider遇到的坑

摘要：接着上一篇，本来以为pyspider装成功了，后来失业pyspider all验证时，发现又报错了：原因是从python 3.7开始async和await已经加入保留的关键字中，所以async不能最为函数的参数名使用Notepad++将run.py中的async统一改为async1，重新运行py 阅读全文

posted @ 2019-06-15 17:46 cnhkzyy 阅读(1251) 评论(0) 推荐(0)

安装pyspider时报错：Command "python setup.py egg_info" failed with error code 10 in C:\Users\beck\AppData\Local\Temp\pip-install-o837899b\pycurl\

摘要：使用pip install pyspider时，报错：这是pycurl安装错误，需要安装pycurl库。从https://www.lfd.uci.edu/~gohlke/pythonlibs/#pycurl找到对应的python版本，通过pip install whl文件即可。成功后，再次pip 阅读全文

posted @ 2019-06-15 15:34 cnhkzyy 阅读(369) 评论(0) 推荐(0)

安装tesserocr时提示error: Microsoft Visual C++ 14.0 is required

摘要：pip install tesserocr pillow时，提示：按照给的提示，进到微软官网，啥都没有，pip的安装报错提示是时候更新一波了~ 在网上找Microsoft Visual C++的资料，十分稀少，只能采用wheel安装编译后的压缩包。whl文件本质上是一个压缩包，里面包含了py文件以阅读全文

posted @ 2019-06-15 12:05 cnhkzyy 阅读(1019) 评论(0) 推荐(0)

安装firefox驱动geckodriver的验证

摘要：安装firefox驱动geckodriver不用像chrome驱动一样找对应版本号，直接去github上下载最新的releases版本即可，按照崔庆才《Python3网络爬虫开发实战》来装，发现验证环节，在cmd中输入geckodriver，应该输出一些信息，类似于这样的：实际上，可能由于我的驱动阅读全文

posted @ 2019-06-15 11:07 cnhkzyy 阅读(1246) 评论(0) 推荐(0)

用requests库爬取猫眼电影Top100

摘要：这里需要注意一下，在爬取猫眼电影Top100时，网站设置了反爬虫机制，因此需要在requests库的get方法中添加headers，伪装成浏览器进行爬取运行结果如下：阅读全文

posted @ 2018-08-20 21:13 cnhkzyy 阅读(336) 评论(0) 推荐(0)

利用selenium爬取豆瓣电影Top250

摘要：这几天在学习selenium，顺便用selenium + python写了一个比较简陋的爬虫，现附上源码，有时间再补充补充：控制台输出保存到文件阅读全文

posted @ 2018-07-01 00:58 cnhkzyy 阅读(1614) 评论(0) 推荐(0)

cnhkzyy

认真写博客，努力加餐饭

随笔分类 - 爬虫

公告