随笔档案「2020年8月」 - 遗世独立的愚公

爬虫实战：爬取豆瓣电影top250

摘要：1.爬虫入门必备知识爬取网站：https://movie.douban.com/top250?start=225&filter= 2.爬虫思路讲解： a) 了解翻页url的变化规律第一页：https://movie.douban.com/top250?start=0&filter= 第二页：ht 阅读全文

posted @ 2020-08-25 13:23 遗世独立的愚公阅读(1241) 评论(0) 推荐(0)

爬虫实战: 爬取当当网top500书籍

摘要：1.这个好像是爬虫入门必备项目，练练手练习网站：http://bang.dangdang.com/books/fivestars 2.requests + bs4模式，因为这个网站比较简单，不多说废话了。（此次下载的内容没有输出到文本文件中，而是存储到mongodb数据库中） #!/usr/bi 阅读全文

posted @ 2020-08-24 22:52 遗世独立的愚公阅读(665) 评论(0) 推荐(0)

爬虫报错： UA

摘要：1.最近在爬取文献，提取摘要，并将其翻译成中文。 2.每次会在不同的item出报错，错误信息如下所示： 3.百度搜索原因：原因：服务器限制了User-Agent的访问。 4.UA的作用 UA：即user-agent，中文名称为用户代理；在爬虫中使用user-agent可以对爬虫进行适当的伪装。 U 阅读全文

posted @ 2020-08-24 14:39 遗世独立的愚公阅读(350) 评论(0) 推荐(0)

爬虫实战：爬取免费小说

摘要：1.爬虫实战项目，爬取小说，只能爬取免费小说（VIP小说需要充钱登陆：方法有所差异，后续会进行讲解）本教程出于学习目的，如有犯规，请留言联系爬取网站：起点中文网，盗墓笔记免费篇 https://book.qidian.com/info/68223#Catalog 2.网页结构分析结构分析发现：阅读全文

posted @ 2020-08-24 12:39 遗世独立的愚公阅读(2487) 评论(0) 推荐(0)

爬虫实战：图片的批量爬取

摘要：1. 找好练习网站（不要恶意爬取，爬取前面10也即可，避免给网站造成压力）网站链接：http://www.netbian.com/index.htm 2.实现方法：本流程使用requests + bs4进行爬取 python版本：python3.6（尽量不要使用python2） 3.爬取思路及注阅读全文

posted @ 2020-08-23 21:38 遗世独立的愚公阅读(889) 评论(0) 推荐(0)

爬行的乌龟

08 2020 档案

公告