随笔分类 -  Python爬虫

摘要:1)使用Scrapy,什么叫做Scrapy Scrapy,Python开发的一个快速、高层次的屏幕抓取和web抓取框架,用于抓取web站点并从页面中提取结构化的数据。Scrapy用途广泛,可以用于数据挖掘、监测和自动化测试。 2)安装的Scrapy $ : sudo pip3 install scr 阅读全文
posted @ 2019-03-23 17:00 谵语芥末 阅读(166) 评论(0) 推荐(0) 编辑
摘要:1)什么叫做URL url是统一资源定位符,对可以从互联网上得到的资源的位置和访问方法的一种简洁的表示,是互联网上标准资源的地址。互联网上的每个文件都有一个唯一的URL,它包含的信息指出文件的位置以及浏览器应该怎么处理它。网站的URL, 通常网站的url是回路的,要涉及到网站的去重问题。 2)什么叫 阅读全文
posted @ 2019-03-23 15:44 谵语芥末 阅读(125) 评论(0) 推荐(0) 编辑
摘要:1. 爬虫的选取:scrapy和requests+beautifuisoup scrapy是框架,而requests和beautifulsoup是库。scrapy框架是可以加如requests和beautifulsoup库的,而scrapy是基于twisted,性能是最大的优势。scrapy方便扩展 阅读全文
posted @ 2019-03-21 19:58 谵语芥末 阅读(183) 评论(0) 推荐(0) 编辑

点击右上角即可分享
微信分享提示