爬虫 - 随笔分类 - binyang

爬虫基础 selenium 基础

摘要：# -*- coding:utf8 -*-# 工程路径：selenium驱动浏览器详解.py# 工程日期：10/6/2019# 工程目标：selenium 自动化测试库#%% 用来驱动浏览器模拟人的操作# 主要用于解析JS渲染的页面from selenium import webdriverfrom selenium.webdriver.common.by import Byfrom seleni... 阅读全文

posted @ 2019-06-10 16:25 binyang 阅读(279) 评论(0) 推荐(0)

爬虫基础 pyquery 详解

摘要：# -*- coding:utf8 -*-# 工程路径：pyquery详解.py# 工程日期：10/6/2019# 工程目标：pyquery的使用#%% 使用pyquery解析网页元素html = ''' first item second item third item fourth item fifth i... 阅读全文

posted @ 2019-06-10 13:11 binyang 阅读(303) 评论(0) 推荐(0)

Css选择器

摘要：CSS选择器通过以下的规则，CSS选择器用于选择想要的HTML中的元素的样式。（摘至菜鸟教程） "CSS"列表示在CSS版本的属性定义（CSS1，CSS2，或对CSS3）。选择器示例示例说明CSS.class.intro选择所有class="intro"的元素1#id#firstname选择所有id="firstname"的元素1**选择所有元素2elementp选择所有元... 阅读全文

posted @ 2019-06-10 06:58 binyang 阅读(300) 评论(0) 推荐(0)

爬虫基础 BS详解

摘要：Beautifulsoup 库详解 # -*- coding:utf8 -*- # 工程路径：3.3 beautifulsoup库.py # 工程日期：9/6/2019 # 工程目标：beautifulsoup使用详解 """ bs支持lxml， HTML 解析， html5解析 """ #%% html = """ The Dormouse's story The Dormouse... 阅读全文

posted @ 2019-06-10 01:54 binyang 阅读(807) 评论(0) 推荐(0)

Requests请求库

摘要：Requests请求库 import requests # -*- coding:utf8 -*- # -*- coding:utf8 -*- # 工程路径：3 requests请求库使用.py # 工程日期：8/6/2019 # 工程目标： """ requests 7个主要方法： requests.request()：构造一个请求，支撑一下各方法的基础方法 reque... 阅读全文

posted @ 2019-06-09 22:16 binyang 阅读(408) 评论(0) 推荐(0)

Requests请求库

摘要：Requests请求库 import requests# -*- coding:utf8 -*-# -*- coding:utf8 -*-# 工程路径：3 requests请求库使用.py# 工程日期：8/6/2019# 工程目标："""requests 7个主要方法： requests.request()：构造一个请求，支撑一下各方法的基础方法 requests.get()... 阅读全文

posted @ 2019-06-09 22:14 binyang 阅读(238) 评论(0) 推荐(0)

爬虫基础 2.5 代理原理

摘要：2.5 代理基本原理使用代理是为了防止同一个ip频繁的请求而被服务封掉，无法再发起有效的请求。使用代理服务器发起请求，由代理服务器替代本机向目标站点发起请求，再将响应数据转发到本机。即网站所看到的ip实际上是代理ip非本机ip 2.5.1 代理的作用突破自身IP访问限制，访问一些平时不能访问的站点访问一些单位或团体内部资惊：比如使用教育网内地... 阅读全文

posted @ 2019-06-08 17:08 binyang 阅读(300) 评论(0) 推荐(0)

爬虫基础 2.4 会话和cookie

摘要：2.4 会话和cookie 2.4.1 静态网页和动态网页 1 静态网页静态网页是标准的HTML文档，不可以传参数，只展示信息 2 动态网页动态网页可以动态的解析网页中的URL的参数变化，关联到数据库，根据参数的不同呈现不同的页面，可以实现登录，注册，验证。 2.4.2 无状态 http 无状态http 即使用该协议连接客户端以及服务... 阅读全文

posted @ 2019-06-08 16:54 binyang 阅读(240) 评论(0) 推荐(0)

爬虫基础 2.3 爬虫基本原理

摘要：2.3 爬虫基本原理 2.3.1 爬虫概述 1 获取网页使用请求库 urllib、 urllib2、request 请求库，向服务器发起数据请求，得到响应后，解析数据中的body部分可得到网页源代码。 2 提取信息获取网页源代码后，分析源代码，提取信息提取信息方式：正则表达式匹配（比较麻烦） ... 阅读全文

posted @ 2019-06-08 16:29 binyang 阅读(186) 评论(0) 推荐(0)

爬虫基础 2.2 网页基础

摘要：2.2 网页基础浏览器浏览的网页，均是浏览器根据超文本，CSS,以及，JS，的解解析规则，对服务器返回的数据进行解析加载，进而变成我们所见的页面。 2.21 网页的组成 1 HTML 构成网页的框架定义网页的内容 2 CSS 构成框架中的元素的样式规定网页的布局 3 JavaScript 对网页行为进行编程动画，酷炫的效果等 1 HT... 阅读全文

posted @ 2019-06-08 16:07 binyang 阅读(324) 评论(0) 推荐(0)

爬虫基础 2.1 http原理

摘要：爬虫基础 2.1 http基础原理写爬虫为啥要了解http的原理？为了简要的理解http的请求响应过程，便于爬虫的流程的掌握。 2.11 URL和URL URI：统一资源标志符号 URN: 统一资源名称命名资源 URL：统一资源定位符号指定资源访问位置例如网页链接资源：指的是网络上所有可以获得的内容的统称 2.12 超文本网页的... 阅读全文

posted @ 2019-06-08 14:08 binyang 阅读(153) 评论(0) 推荐(0)

爬虫基础 2.1 http原理

摘要：爬虫基础 2.1 http基础原理写爬虫为啥要了解http的原理？为了简要的理解http的请求响应过程，便于爬虫的流程的掌握。 2.11 URL和URL URI：统一资源标志符号 URN: 统一资源名称命名资源 URL：统一资源定位符号指定资源访问位置例如网页链接资源：指的是网络上所有可以获得的内容的统称 2.12 超文本网页的... 阅读全文

posted @ 2019-06-08 14:06 binyang 阅读(133) 评论(0) 推荐(0)

爬虫基础 2.1 http原理

摘要：爬虫基础 2.1 http基础原理写爬虫为啥要了解http的原理？为了简要的理解http的请求响应过程，便于爬虫的流程的掌握。 2.11 URL和URL URI：统一资源标志符号 URN: 统一资源名称命名资源 URL：统一资源定位符号指定资源访问位置例如网页链接资源：指的是网络上所有可以获得的内容的统称 2.12 超文本网页的... 阅读全文

posted @ 2019-06-08 14:02 binyang 阅读(214) 评论(0) 推荐(0)

爬虫环境配置

摘要：爬虫环境配置爬虫环境配置，主要安装爬虫所需要的软件以及包含库软件： Anaconda 库环境支持软件 Python3 Jupyter / jupyter lab pythonIDE Pycharm pythonIDE 相关库安装： 1 请求库向浏览器发送请求 2 解析... 阅读全文

posted @ 2019-06-07 23:15 binyang 阅读(3439) 评论(0) 推荐(0)

binyang

世界诺大四海为家

随笔分类 - 爬虫

binyang

世界诺大 四海为家

随笔分类 - 爬虫

世界诺大四海为家