binyang

2019年6月10日

摘要： Beautifulsoup 库详解 # -*- coding:utf8 -*-# 工程路径：3.3 beautifulsoup库.py# 工程日期：9/6/2019# 工程目标：beautifulsoup使用详解"""bs支持lxml， HTML 解析， html5解析"""#%%html = """The Dormouse's storyThe Dormouse's storyOnce u... 阅读全文

posted @ 2019-06-10 02:00 binyang 阅读(228) 评论(0) 推荐(0)

爬虫基础 BS详解

摘要： Beautifulsoup 库详解 # -*- coding:utf8 -*- # 工程路径：3.3 beautifulsoup库.py # 工程日期：9/6/2019 # 工程目标：beautifulsoup使用详解 """ bs支持lxml， HTML 解析， html5解析 """ #%% html = """ The Dormouse's story The Dormouse... 阅读全文

posted @ 2019-06-10 01:54 binyang 阅读(808) 评论(0) 推荐(0)

2019年6月9日

Requests请求库

摘要： Requests请求库 import requests # -*- coding:utf8 -*- # -*- coding:utf8 -*- # 工程路径：3 requests请求库使用.py # 工程日期：8/6/2019 # 工程目标： """ requests 7个主要方法： requests.request()：构造一个请求，支撑一下各方法的基础方法 reque... 阅读全文

posted @ 2019-06-09 22:16 binyang 阅读(409) 评论(0) 推荐(0)

Requests请求库

摘要： Requests请求库 import requests# -*- coding:utf8 -*-# -*- coding:utf8 -*-# 工程路径：3 requests请求库使用.py# 工程日期：8/6/2019# 工程目标："""requests 7个主要方法： requests.request()：构造一个请求，支撑一下各方法的基础方法 requests.get()... 阅读全文

posted @ 2019-06-09 22:14 binyang 阅读(238) 评论(0) 推荐(0)

2019年6月8日

爬虫基础 2.5 代理原理

摘要： 2.5 代理基本原理使用代理是为了防止同一个ip频繁的请求而被服务封掉，无法再发起有效的请求。使用代理服务器发起请求，由代理服务器替代本机向目标站点发起请求，再将响应数据转发到本机。即网站所看到的ip实际上是代理ip非本机ip 2.5.1 代理的作用突破自身IP访问限制，访问一些平时不能访问的站点访问一些单位或团体内部资惊：比如使用教育网内地... 阅读全文

posted @ 2019-06-08 17:08 binyang 阅读(303) 评论(0) 推荐(0)

爬虫基础 2.4 会话和cookie

摘要： 2.4 会话和cookie 2.4.1 静态网页和动态网页 1 静态网页静态网页是标准的HTML文档，不可以传参数，只展示信息 2 动态网页动态网页可以动态的解析网页中的URL的参数变化，关联到数据库，根据参数的不同呈现不同的页面，可以实现登录，注册，验证。 2.4.2 无状态 http 无状态http 即使用该协议连接客户端以及服务... 阅读全文

posted @ 2019-06-08 16:54 binyang 阅读(241) 评论(0) 推荐(0)

爬虫基础 2.3 爬虫基本原理

摘要： 2.3 爬虫基本原理 2.3.1 爬虫概述 1 获取网页使用请求库 urllib、 urllib2、request 请求库，向服务器发起数据请求，得到响应后，解析数据中的body部分可得到网页源代码。 2 提取信息获取网页源代码后，分析源代码，提取信息提取信息方式：正则表达式匹配（比较麻烦） ... 阅读全文

posted @ 2019-06-08 16:29 binyang 阅读(186) 评论(0) 推荐(0)

爬虫基础 2.2 网页基础

摘要： 2.2 网页基础浏览器浏览的网页，均是浏览器根据超文本，CSS,以及，JS，的解解析规则，对服务器返回的数据进行解析加载，进而变成我们所见的页面。 2.21 网页的组成 1 HTML 构成网页的框架定义网页的内容 2 CSS 构成框架中的元素的样式规定网页的布局 3 JavaScript 对网页行为进行编程动画，酷炫的效果等 1 HT... 阅读全文

posted @ 2019-06-08 16:07 binyang 阅读(325) 评论(0) 推荐(0)

爬虫基础 2.1 http原理

摘要：爬虫基础 2.1 http基础原理写爬虫为啥要了解http的原理？为了简要的理解http的请求响应过程，便于爬虫的流程的掌握。 2.11 URL和URL URI：统一资源标志符号 URN: 统一资源名称命名资源 URL：统一资源定位符号指定资源访问位置例如网页链接资源：指的是网络上所有可以获得的内容的统称 2.12 超文本网页的... 阅读全文

posted @ 2019-06-08 14:08 binyang 阅读(156) 评论(0) 推荐(0)

爬虫基础 2.1 http原理

posted @ 2019-06-08 14:06 binyang 阅读(135) 评论(0) 推荐(0)

世界诺大 四海为家

世界诺大四海为家