python 爬虫 - 随笔分类 - Jervey

urlib库

摘要：urllib库是python中最基本的网络请求库，可以模拟浏览器的行为，向指定的服务器发送请求，并可以保存服务器返回的数据。 urlopen() urllib.request模块提供了最基本的构造http请求的方法。利用它可以模拟浏览器的一个请求发起过程，同时它还带有处理授权验证（authentic 阅读全文

posted @ 2019-09-16 22:34 Jervey 阅读(450) 评论(0) 推荐(0)

http协议

摘要：什么是http和https协议 http协议：全称是HyperText Transfer Protocol，中文意思是超文本传输协议，是一种发布和接受HTML页面的方法，服务器端口号是80端口。 https协议：是HTTP协议的加密版本，在HTTP下加入了SSL层。服务器端口号是443端口。在浏览阅读全文

posted @ 2019-09-14 22:34 Jervey 阅读(457) 评论(0) 推荐(0)

python爬虫

摘要：爬虫基础爬虫前奏 http协议 urllib库持续更新阅读全文

posted @ 2019-09-14 22:34 Jervey 阅读(197) 评论(0) 推荐(0)

爬虫前奏

摘要：爬虫的实际例子什么是爬虫 1. 通俗理解，爬虫是模拟人请求网站的程序。可以自动请求网页，并将数据抓取下来，然后使用一定的规则提取有价值的数据。 2. 专业介绍：百度百科通用爬虫和聚焦爬虫 1. 通用网络爬虫是捜索引擎抓取系统（Baidu、Google、Yahoo等）的重要组成部分。主要目的是将互阅读全文

posted @ 2019-09-09 22:00 Jervey 阅读(195) 评论(0) 推荐(0)

Scrapy 框架的使用

摘要：Scrapy 框架的介绍 Scrapy 是一个基于Twisted的异步处理框架，是纯Python实现的爬虫框架，其架构清晰模块之间的耦合成都低，可扩展性极强，可以灵活完成各种需求。我们只需要定制开发几个模块就可以轻松实现一个爬虫。 1. 架构介绍它可以分为如下几个部分。 Engine 引擎，处理整阅读全文

posted @ 2019-09-05 23:09 Jervey 阅读(158) 评论(0) 推荐(0)

解析库的使用

摘要：使用XPath XPath,全称XML Path Language,即XML路径语言，它是一门在xml文档中查找信息的语言。它最初是用来搜寻XML文档的，但是它同样使用于HTML文档的搜索。所以在做爬虫时，我们完全可以使用XPath来做相应的信息抽取。 XPath 常用规则表达式描述 n 阅读全文

posted @ 2019-08-01 21:41 Jervey 阅读(286) 评论(0) 推荐(0)

常见User-Agent大全

摘要：window.navigator.userAgent 1) Chrome Win7: Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/535.1 (KHTML, like Gecko) Chrome/14.0.835.163 Safari/535.1 2) Firefox Win7: Mozilla/5.0 (Windows NT 6.1;... 阅读全文

posted @ 2019-07-18 10:34 Jervey 阅读(9984) 评论(0) 推荐(0)

随笔分类 - python 爬虫

公告