随笔分类 -  爬虫

摘要:# -*- coding:utf8 -*-# 工程路径:selenium驱动浏览器详解.py# 工程日期:10/6/2019# 工程目标:selenium 自动化测试库#%% 用来驱动浏览器模拟人的操作# 主要用于解析JS渲染的页面from selenium import webdriverfrom selenium.webdriver.common.by import Byfrom seleni... 阅读全文
posted @ 2019-06-10 16:25 binyang 阅读(259) 评论(0) 推荐(0) 编辑
摘要:# -*- coding:utf8 -*-# 工程路径:pyquery详解.py# 工程日期:10/6/2019# 工程目标:pyquery的使用#%% 使用pyquery解析网页元素html = ''' first item second item third item fourth item fifth i... 阅读全文
posted @ 2019-06-10 13:11 binyang 阅读(289) 评论(0) 推荐(0) 编辑
摘要:CSS选择器 通过以下的规则,CSS选择器用于选择想要的HTML中的元素的样式。(摘至菜鸟教程) "CSS"列表示在CSS版本的属性定义(CSS1,CSS2,或对CSS3)。 选择器示例示例说明CSS.class.intro选择所有class="intro"的元素1#id#firstname选择所有id="firstname"的元素1**选择所有元素2elementp选择所有元... 阅读全文
posted @ 2019-06-10 06:58 binyang 阅读(287) 评论(0) 推荐(0) 编辑
摘要:Beautifulsoup 库详解 # -*- coding:utf8 -*- # 工程路径:3.3 beautifulsoup库.py # 工程日期:9/6/2019 # 工程目标:beautifulsoup使用详解 """ bs支持lxml, HTML 解析, html5解析 """ #%% html = """ The Dormouse's story The Dormouse... 阅读全文
posted @ 2019-06-10 01:54 binyang 阅读(791) 评论(0) 推荐(0) 编辑
摘要:Requests请求库 import requests # -*- coding:utf8 -*- # -*- coding:utf8 -*- # 工程路径:3 requests请求库使用.py # 工程日期:8/6/2019 # 工程目标: """ requests 7个主要方法: requests.request(): 构造一个请求,支撑一下各方法的基础方法 reque... 阅读全文
posted @ 2019-06-09 22:16 binyang 阅读(377) 评论(0) 推荐(0) 编辑
摘要:Requests请求库 import requests# -*- coding:utf8 -*-# -*- coding:utf8 -*-# 工程路径:3 requests请求库使用.py# 工程日期:8/6/2019# 工程目标:"""requests 7个主要方法: requests.request(): 构造一个请求,支撑一下各方法的基础方法 requests.get()... 阅读全文
posted @ 2019-06-09 22:14 binyang 阅读(212) 评论(0) 推荐(0) 编辑
摘要:2.5 代理基本原理 使用代理是为了防止同一个ip频繁的请求而被服务封掉,无法再发起有效的请求。 使用代理服务器发起请求,由代理服务器替代本机向目标站点发起请求,再将响应数据转发到本机。即网站所看到的ip实际上是代理ip非本机ip 2.5.1 代理的作用 突破自身IP访问限制,访问一些平时不能访问的站点 访问一些单位或团体内部资惊 :比如使用教育网内地... 阅读全文
posted @ 2019-06-08 17:08 binyang 阅读(277) 评论(0) 推荐(0) 编辑
摘要:2.4 会话和cookie 2.4.1 静态网页和动态网页 1 静态网页 静态网页是标准的HTML文档,不可以传参数,只展示信息 2 动态网页 动态网页可以动态的解析网页中的URL的参数变化,关联到数据库,根据参数的不同呈现不同的页面,可以实现登录,注册,验证。 2.4.2 无状态 http 无状态http 即使用该协议连接客户端以及服务... 阅读全文
posted @ 2019-06-08 16:54 binyang 阅读(218) 评论(0) 推荐(0) 编辑
摘要:2.3 爬虫基本原理 2.3.1 爬虫概述 1 获取网页 使用请求库 urllib、 urllib2、request 请求库,向服务器发起数据请求,得到响应后,解析数据中的body部分可得到网页源代码。 2 提取信息 获取网页源代码后,分析源代码,提取信息 提取信息方式: 正则表达式匹配 (比较麻烦) ... 阅读全文
posted @ 2019-06-08 16:29 binyang 阅读(170) 评论(0) 推荐(0) 编辑
摘要:2.2 网页基础 浏览器浏览的网页,均是浏览器根据超文本,CSS,以及,JS,的解解析规则,对服务器返回的数据进行解析加载,进而变成我们所见的页面。 2.21 网页的组成 1 HTML 构成网页的框架 定义网页的内容 2 CSS 构成框架中的元素的样式 规定网页的布局 3 JavaScript 对网页行为进行编程 动画,酷炫的效果等 1 HT... 阅读全文
posted @ 2019-06-08 16:07 binyang 阅读(290) 评论(0) 推荐(0) 编辑
摘要:爬虫基础 2.1 http基础原理 写爬虫为啥要了解http的原理? 为了简要的理解http的请求响应过程,便于爬虫的流程的掌握。 2.11 URL和URL URI:统一资源标志符号 URN: 统一资源名称 命名资源 URL:统一资源定位符号 指定资源访问位置 例如网页链接 资源:指的是网络上所有可以获得的内容的统称 2.12 超文本 网页的... 阅读全文
posted @ 2019-06-08 14:08 binyang 阅读(136) 评论(0) 推荐(0) 编辑
摘要:爬虫基础 2.1 http基础原理 写爬虫为啥要了解http的原理? 为了简要的理解http的请求响应过程,便于爬虫的流程的掌握。 2.11 URL和URL URI:统一资源标志符号 URN: 统一资源名称 命名资源 URL:统一资源定位符号 指定资源访问位置 例如网页链接 资源:指的是网络上所有可以获得的内容的统称 2.12 超文本 网页的... 阅读全文
posted @ 2019-06-08 14:06 binyang 阅读(121) 评论(0) 推荐(0) 编辑
摘要:爬虫基础 2.1 http基础原理 写爬虫为啥要了解http的原理? 为了简要的理解http的请求响应过程,便于爬虫的流程的掌握。 2.11 URL和URL URI:统一资源标志符号 URN: 统一资源名称 命名资源 URL:统一资源定位符号 指定资源访问位置 例如网页链接 资源:指的是网络上所有可以获得的内容的统称 2.12 超文本 网页的... 阅读全文
posted @ 2019-06-08 14:02 binyang 阅读(191) 评论(0) 推荐(0) 编辑
摘要:爬虫环境配置 爬虫环境配置,主要安装爬虫所需要的软件以及包含库 软件: Anaconda 库环境支持软件 Python3 Jupyter / jupyter lab pythonIDE Pycharm pythonIDE 相关库安装: 1 请求库 向浏览器发送请求 2 解析... 阅读全文
posted @ 2019-06-07 23:15 binyang 阅读(3230) 评论(0) 推荐(0) 编辑