随笔分类 - Python爬虫

Python爬虫

scrapy框架

摘要：1 scrapy框架的介绍安装查看是否安装完成 scrapy框架是实现爬虫功能的一个软件结构和功能组件集合 scrapy爬虫框架的结构这5+2的结构, 就是scrapy框架主要有三条主要的数据流路径第一条路径 1) Engine通过中间件获得了Spiders发送的请求, 这个请求叫做req 阅读全文

posted @ 2017-04-28 20:49 weihuchao 阅读(469) 评论(0) 推荐(0) 编辑

正则表达式

摘要：1 正则表达式在Python中正则表达式库需要导入re库正则表达式需要使用原生字符串来表达, 原生字符串(raw shtring)在普通的字符串前面加 r 表示 1.1 正则表达式的主要功能函数 search(pattern, string, flags=0) search用于在字符串中搜索, 阅读全文

posted @ 2017-04-13 20:33 weihuchao 阅读(793) 评论(0) 推荐(0) 编辑

BeautifulSoup

摘要：1 基本信息 Beautiful Soup是用于处理解析页面信息的具体的说, Beautiful Soup库是解析, 遍历, 维护"标签树"的功能库安装方法最基本的使用 2 基本元素 Beautiful Soup处理的内容文档一般是HTML页面 HTML页面是标签对形成的这些标签对最终会形成阅读全文

posted @ 2017-04-12 20:30 weihuchao 阅读(654) 评论(0) 推荐(0) 编辑

Robots协议

摘要：1 一般对爬虫的限制爬虫会造成问题对网站服务器的骚扰可能会引起法律问题而且可能由于爬虫具有一定的突破性, 可能获取一些平常不能获取到的数据造成隐私泄露一般对爬虫限制的两个方法 1) 来源审查, 判断User-Agent进行限制具体来说就是根据HTTP来访的协议头中的User-Agent 阅读全文

posted @ 2017-04-12 16:54 weihuchao 阅读(696) 评论(0) 推荐(0) 编辑

request库

摘要：1 安装 2 主要的方法 3 get方法 r是一个Response对象, 包含爬虫返回的内容 url的Request requests.get(url, params=None, **kwargs) 基本操作方法 4 Response对象属性 status_code HTTP请求的返回状态, 200 阅读全文

posted @ 2017-04-07 00:12 weihuchao 阅读(400) 评论(0) 推荐(0) 编辑

公告

昵称： weihuchao
园龄： 8年7个月
粉丝： 33
关注： 27

+加关注

2025年3月

日

一

二

三

四

五

六

weihuchao

新博客：weihuchao.site

随笔分类 - Python爬虫

公告