爬虫 - 随笔分类 - SR丶

爬虫之scrapy框架

摘要：一介绍 Scrapy一个开源和协作的框架，其最初是为了页面抓取 (更确切来说, 网络抓取 )所设计的，使用它可以以快速、简单、可扩展的方式从网站中提取所需的数据。但目前Scrapy的用途十分广泛，可用于如数据挖掘、监测和自动化测试等领域，也可以应用在获取API所返回的数据(例如 Amazon As 阅读全文

posted @ 2019-12-06 10:19 SR丶阅读(355) 评论(0) 推荐(0)

爬虫之存储库MongoDB

摘要：一简介 MongoDB是一款强大、灵活、且易于扩展的通用型数据库1、易用性 MongoDB是一个面向文档（document-oriented）的数据库，而不是关系型数据库。不采用关系型主要是为了获得更好得扩展性。当然还有一些其他好处，与关系数据库相比，面向文档的数据库不再有“行“（row）的概念取阅读全文

posted @ 2019-11-28 18:38 SR丶阅读(172) 评论(0) 推荐(0)

爬虫请求库之selenium

摘要：一：简介 1:介绍（1）selenium最初是测试工具（2）爬虫使用该模块的原因是request无法操作js代码而selenium可以操作js代码（3）selenium本质是操作浏览器内核完全模拟浏览器行为例如输入内容点击等（4）因为直接操作浏览器我们无需考虑请求头等 2:支持的阅读全文

posted @ 2019-11-27 19:06 SR丶阅读(220) 评论(0) 推荐(0)

爬虫之解析库beautiful soup

摘要：一:简介 1:介绍（1）在request模块中我们不能进行数据的解析（2）如果使用正则匹配数据比较繁琐（3）Beautiful Soup 是一个可以从HTML或XML文件中提取数据的Python库（4）它能够通过你喜欢的转换器实现惯用的文档导航 2:安装 pip install beauti 阅读全文

posted @ 2019-11-26 18:37 SR丶阅读(204) 评论(0) 推荐(0)

爬虫之requests请求库

摘要：一：requests简介 1:简介（1）requests可以模拟浏览器请求其在urllib上进行二次封装请求速度更加快速（2）其将网页内容获取之后并不会执行js代码需要我们自己进行网页分析再次进行筛选 2:安装 pip3 install requests 3:常见的请求方式 impor 阅读全文

posted @ 2019-11-26 15:28 SR丶阅读(302) 评论(0) 推荐(0)

爬虫基础简介

摘要：一：爬虫简介（1）图解: （2）互联网 1:什么是互联网（1）互联网由pc 网线交换机路由器防火墙互连在一起连接成一张网状的样式 2:互联网建立的目的（1）互联网建立的核心价值 >数据共享以及传递（2）互联网建立就是为了将彼此连接在一起使其逻辑跨越空间的限制 > 可以实现数据的共享阅读全文

posted @ 2019-11-25 14:45 SR丶阅读(199) 评论(0) 推荐(0)

星辰大海(｀・ω・´)

随笔分类 - 爬虫

公告