摘要:
一 多任务原理 1.1 概念 现代操作系统比如Mac OS X,UNIX,Linux,Windows等,都是支持“多任务”的操作系统 就是操作系统可以同时运行多个任务 1.2 实现原理 单核CPU实现多任务原理 操作系统轮流让各个任务交替执行 QQ执行2us(微秒),切换到微信,在执行2us,再切换 阅读全文
摘要:
三 requests请求库--02 1 处理cookie相关的请求 学习目标:掌握requests处理cookie的三种方法 1.1 爬虫中使用cookie 为了能够通过爬虫获取到登录后的页面,或者是解决通过cookie的反扒,需要使用request来处理cookie相关的请求 1.1.1 使用co 阅读全文
摘要:
一 urllib请求库 学习目标:了解urllib的基本使用 1 urllib介绍 除了requests模块可以发送请求之外, urllib模块也可以实现请求的发送,只是操作方法略有不同! urllib在python中分为urllib和urllib2,在python3中为urllib 下面以pyth 阅读全文
摘要:
一 web请求全过程剖析 我们浏览器在输入完网址到我们看到网页的整体内容, 这个过程中究竟发生了些什么? 我们看一下一个浏览器请求的全过程 接下来就是一个比较重要的事情了. 所有的数据都在页面源代码里么? 非也~ 这里要介绍一个新的概念 那就是页面渲染数据的过程, 我们常见的页面渲染过程有两种 服务 阅读全文
摘要:
1 xpath安装与使用 安装 安装lxml库 pip install lxml -i pip源 2 解析流程与使用 解析流程 实例化一个etree的对象,把即将被解析的页面源码加载到该对象 调用该对象的xpath方法,结合着不同形式的xpath表达,进行标签定位和数据提取 使用 # 导入lxml. 阅读全文
摘要:
Beautiful Soup 一 简单使用 简单来说,Beautiful Soup是python的一个库,最主要的功能是从网页抓取数据。官方解释如下: Beautiful Soup提供一些简单的、python式的函数用来处理导航、搜索、修改分析树等功能 它是一个工具箱,通过解析文档为用户提供需要抓取 阅读全文
摘要:
一 正则与re模块简介 # 正则概述 正则表达式,又称规则表达式 描述了一种字符串匹配的模式 # pattern 正则匹配是一个 模糊的匹配 # 不是精确匹配 # re模块 python自1.5版本开始增加了re模块 re模块是python语言拥有了所有正则表达式的功能,提供了perl风格的正则表达 阅读全文
摘要:
CSS层叠样式表 一 css简介 什么是css? 层叠样式表 命名规则: 使用字母、数字或下划线和减号构成,不要以数字开头 格式: 选择器{属性:值 ;属性:值; 属性:值; ....} 其中选择器也叫选择符 CSS中注释 /* ... */ 二 如何使用css样式 即html中嵌入css的方式 1 阅读全文
摘要:
前言 软件架构: B/S:Browser/Server eg: 网站 C/S:Client/Server eg: QQ HTML的简介、发展史: 由万维网联盟(W3C)维护。包含HTML内容的文件最常用的扩展名是.html 但是像DOS这样的旧操作系统限制扩展名为最多3个字符,所以.htm扩展名也被 阅读全文
摘要:
一 关于爬虫的特殊性 1.网站的多变性: 这个是爬虫的魅力. 要全方位的去思考. 就像找漏洞一样. 思维逻辑不可能是固定的 达到目的即可,不要死磕牛角尖 2.访问频率调低 爬虫程序如果编写的不够完善. 访问频率过高. 很有可能会对服务器造成毁灭性打击 所以不要死盯着一个网站干. 请放慢爬取的速度. 阅读全文