摘要: Beautifulsoup 库详解 # -*- coding:utf8 -*-# 工程路径:3.3 beautifulsoup库.py# 工程日期:9/6/2019# 工程目标:beautifulsoup使用详解"""bs支持lxml, HTML 解析, html5解析"""#%%html = """The Dormouse's storyThe Dormouse's storyOnce u... 阅读全文
posted @ 2019-06-10 02:00 binyang 阅读(219) 评论(0) 推荐(0) 编辑
摘要: Beautifulsoup 库详解 # -*- coding:utf8 -*- # 工程路径:3.3 beautifulsoup库.py # 工程日期:9/6/2019 # 工程目标:beautifulsoup使用详解 """ bs支持lxml, HTML 解析, html5解析 """ #%% html = """ The Dormouse's story The Dormouse... 阅读全文
posted @ 2019-06-10 01:54 binyang 阅读(790) 评论(0) 推荐(0) 编辑
摘要: Requests请求库 import requests # -*- coding:utf8 -*- # -*- coding:utf8 -*- # 工程路径:3 requests请求库使用.py # 工程日期:8/6/2019 # 工程目标: """ requests 7个主要方法: requests.request(): 构造一个请求,支撑一下各方法的基础方法 reque... 阅读全文
posted @ 2019-06-09 22:16 binyang 阅读(370) 评论(0) 推荐(0) 编辑
摘要: Requests请求库 import requests# -*- coding:utf8 -*-# -*- coding:utf8 -*-# 工程路径:3 requests请求库使用.py# 工程日期:8/6/2019# 工程目标:"""requests 7个主要方法: requests.request(): 构造一个请求,支撑一下各方法的基础方法 requests.get()... 阅读全文
posted @ 2019-06-09 22:14 binyang 阅读(212) 评论(0) 推荐(0) 编辑
摘要: 2.5 代理基本原理 使用代理是为了防止同一个ip频繁的请求而被服务封掉,无法再发起有效的请求。 使用代理服务器发起请求,由代理服务器替代本机向目标站点发起请求,再将响应数据转发到本机。即网站所看到的ip实际上是代理ip非本机ip 2.5.1 代理的作用 突破自身IP访问限制,访问一些平时不能访问的站点 访问一些单位或团体内部资惊 :比如使用教育网内地... 阅读全文
posted @ 2019-06-08 17:08 binyang 阅读(277) 评论(0) 推荐(0) 编辑
摘要: 2.4 会话和cookie 2.4.1 静态网页和动态网页 1 静态网页 静态网页是标准的HTML文档,不可以传参数,只展示信息 2 动态网页 动态网页可以动态的解析网页中的URL的参数变化,关联到数据库,根据参数的不同呈现不同的页面,可以实现登录,注册,验证。 2.4.2 无状态 http 无状态http 即使用该协议连接客户端以及服务... 阅读全文
posted @ 2019-06-08 16:54 binyang 阅读(216) 评论(0) 推荐(0) 编辑
摘要: 2.3 爬虫基本原理 2.3.1 爬虫概述 1 获取网页 使用请求库 urllib、 urllib2、request 请求库,向服务器发起数据请求,得到响应后,解析数据中的body部分可得到网页源代码。 2 提取信息 获取网页源代码后,分析源代码,提取信息 提取信息方式: 正则表达式匹配 (比较麻烦) ... 阅读全文
posted @ 2019-06-08 16:29 binyang 阅读(170) 评论(0) 推荐(0) 编辑
摘要: 2.2 网页基础 浏览器浏览的网页,均是浏览器根据超文本,CSS,以及,JS,的解解析规则,对服务器返回的数据进行解析加载,进而变成我们所见的页面。 2.21 网页的组成 1 HTML 构成网页的框架 定义网页的内容 2 CSS 构成框架中的元素的样式 规定网页的布局 3 JavaScript 对网页行为进行编程 动画,酷炫的效果等 1 HT... 阅读全文
posted @ 2019-06-08 16:07 binyang 阅读(288) 评论(0) 推荐(0) 编辑
摘要: 爬虫基础 2.1 http基础原理 写爬虫为啥要了解http的原理? 为了简要的理解http的请求响应过程,便于爬虫的流程的掌握。 2.11 URL和URL URI:统一资源标志符号 URN: 统一资源名称 命名资源 URL:统一资源定位符号 指定资源访问位置 例如网页链接 资源:指的是网络上所有可以获得的内容的统称 2.12 超文本 网页的... 阅读全文
posted @ 2019-06-08 14:08 binyang 阅读(135) 评论(0) 推荐(0) 编辑
摘要: 爬虫基础 2.1 http基础原理 写爬虫为啥要了解http的原理? 为了简要的理解http的请求响应过程,便于爬虫的流程的掌握。 2.11 URL和URL URI:统一资源标志符号 URN: 统一资源名称 命名资源 URL:统一资源定位符号 指定资源访问位置 例如网页链接 资源:指的是网络上所有可以获得的内容的统称 2.12 超文本 网页的... 阅读全文
posted @ 2019-06-08 14:06 binyang 阅读(119) 评论(0) 推荐(0) 编辑