摘要: 1>配置 1)编译环境 2)安装requests库 //// 使用 import requests #导入requests库 r = requests.get('http://www.baidu.com') #requests 获取网页 print(r.status_code) #状态码 print 阅读全文
posted @ 2019-06-13 14:58 Mr-Yao 阅读(569) 评论(0) 推荐(0) 编辑
摘要: 网络爬虫 网络爬虫是一个自动提取网页的程序,它为搜索引擎从万维网上下载网页,是搜索引擎的重要组成。传统爬虫从一个或若干初始网页的URL开始,获得初始网页上的URL,在抓取网页的过程中,不断从当前页面上抽取新的URL放入队列,直到满足系统的一定停止条件。聚焦爬虫的工作流程较为复杂,需要根据一定的网页分 阅读全文
posted @ 2019-06-13 14:51 Mr-Yao 阅读(1089) 评论(0) 推荐(1) 编辑
摘要: 《开发哲学》 一、安装Requests 命令行窗口cmd 二、requests库的7个主要方法 方法 说明 requests.requests() 构造一个请求,支撑一下个方法的基础方法 requests.get() 获取HTML网页的主要方法,对应与HTTP的GRT requests.head() 阅读全文
posted @ 2019-06-13 14:51 Mr-Yao 阅读(415) 评论(0) 推荐(0) 编辑
摘要: b44中文文档地址:https://beautifulsoup.readthedocs.io/zh_CN/v4.4.0/ 《BeautifulSoup使用》 对象的种类 基本元素 说明 Tag 标签,最基本的信息组织单元,分别是<>和</>标明开头和结尾 Name 标签的名字,<p></p>的名字是 阅读全文
posted @ 2019-06-13 14:49 Mr-Yao 阅读(243) 评论(0) 推荐(1) 编辑