2019 年 6月 13 日随笔档案 - Mr-Yao

2019年6月13日

摘要： 1>配置 1)编译环境 2)安装requests库 //// 使用 import requests #导入requests库 r = requests.get('http://www.baidu.com') #requests 获取网页 print(r.status_code) #状态码 print 阅读全文

posted @ 2019-06-13 14:58 Mr-Yao 阅读(569) 评论(0) 推荐(0) 编辑

robots协议 robots.txt

摘要：网络爬虫网络爬虫是一个自动提取网页的程序，它为搜索引擎从万维网上下载网页，是搜索引擎的重要组成。传统爬虫从一个或若干初始网页的URL开始，获得初始网页上的URL，在抓取网页的过程中，不断从当前页面上抽取新的URL放入队列,直到满足系统的一定停止条件。聚焦爬虫的工作流程较为复杂，需要根据一定的网页分阅读全文

posted @ 2019-06-13 14:51 Mr-Yao 阅读(1089) 评论(0) 推荐(1) 编辑

python - requests

摘要：《开发哲学》一、安装Requests 命令行窗口cmd 二、requests库的7个主要方法方法说明 requests.requests() 构造一个请求，支撑一下个方法的基础方法 requests.get() 获取HTML网页的主要方法，对应与HTTP的GRT requests.head() 阅读全文

posted @ 2019-06-13 14:51 Mr-Yao 阅读(415) 评论(0) 推荐(0) 编辑

python - bs4

摘要： b44中文文档地址:https://beautifulsoup.readthedocs.io/zh_CN/v4.4.0/ 《BeautifulSoup使用》对象的种类基本元素说明 Tag 标签，最基本的信息组织单元，分别是<>和</>标明开头和结尾 Name 标签的名字，<p></p>的名字是阅读全文

posted @ 2019-06-13 14:49 Mr-Yao 阅读(243) 评论(0) 推荐(1) 编辑

Mr.Yao

公告