08 2020 档案

摘要:1.爬虫入门必备知识 爬取网站:https://movie.douban.com/top250?start=225&filter= 2.爬虫思路讲解: a) 了解翻页url的变化规律 第一页:https://movie.douban.com/top250?start=0&filter= 第二页:ht 阅读全文
posted @ 2020-08-25 13:23 遗世独立的愚公 阅读(1241) 评论(0) 推荐(0)
摘要:1.这个好像是爬虫入门必备项目,练练手 练习网站:http://bang.dangdang.com/books/fivestars 2.requests + bs4模式,因为这个网站比较简单,不多说废话了。 (此次下载的内容没有输出到文本文件中,而是存储到mongodb数据库中) #!/usr/bi 阅读全文
posted @ 2020-08-24 22:52 遗世独立的愚公 阅读(665) 评论(0) 推荐(0)
摘要:1.最近在爬取文献,提取摘要,并将其翻译成中文。 2.每次会在不同的item出报错,错误信息如下所示: 3.百度搜索原因:原因:服务器限制了User-Agent的访问。 4.UA的作用 UA:即user-agent,中文名称为用户代理;在爬虫中使用user-agent可以对爬虫 进行适当的伪装。 U 阅读全文
posted @ 2020-08-24 14:39 遗世独立的愚公 阅读(350) 评论(0) 推荐(0)
摘要:1.爬虫实战项目,爬取小说,只能爬取免费小说(VIP小说需要充钱登陆:方法有所差异,后续会进行讲解) 本教程出于学习目的,如有犯规,请留言联系 爬取网站:起点中文网,盗墓笔记免费篇 https://book.qidian.com/info/68223#Catalog 2.网页结构分析 结构分析发现: 阅读全文
posted @ 2020-08-24 12:39 遗世独立的愚公 阅读(2487) 评论(0) 推荐(0)
摘要:1. 找好练习网站(不要恶意爬取,爬取前面10也即可,避免给网站造成压力) 网站链接:http://www.netbian.com/index.htm 2.实现方法: 本流程使用requests + bs4进行爬取 python版本:python3.6(尽量不要使用python2) 3.爬取思路及注 阅读全文
posted @ 2020-08-23 21:38 遗世独立的愚公 阅读(889) 评论(0) 推荐(0)