摘要: 一,Xpath基本语法 安装使用: 测试页面数 xpath表达式: 二 ,获取boss直聘中的职位信息 阅读全文
posted @ 2019-02-27 17:46 sado 阅读(296) 评论(0) 推荐(0) 编辑
摘要: 简介 BeautifulSoup是用来从HTML或XML中提取数据的Python库。 对于不具备良好格式的 HTML 内容,lxml 提供了两个有用的包:lxml.html 模块和 BeautifulSoup 解析器 一,安装 或者: 二,基本使用 ex:使用bs4实现将诗词名句网站中三国演义小说的 阅读全文
posted @ 2019-02-27 17:45 sado 阅读(207) 评论(0) 推荐(0) 编辑
摘要: 一,介绍 大多数情况下的需求,我们都会指定去使用聚焦爬虫,也就是爬取页面中指定部分的数据值,而不是整个页面的数据。 因此数据爬取的流程为: 二,正则解析数据 常用正则表达式回顾: 单字符: . : 除换行以外所有字符 [] :[aoe] [a-w] 匹配集合中任意一个字符 \d :数字 [0-9] 阅读全文
posted @ 2019-02-27 17:44 sado 阅读(246) 评论(0) 推荐(0) 编辑
摘要: 一,介绍 requests模块是python中原生的基于网络请求的模块,其主要作用是用来模拟浏览器发起请求。功能强大,用法简洁高效。在爬虫领域中占据着半壁江山的地位。 使用requests可以模拟浏览器的请求,比起之前用到的urllib,requests模块的api更加便捷(本质就是封装了urlli 阅读全文
posted @ 2019-02-27 17:38 sado 阅读(195) 评论(0) 推荐(0) 编辑
摘要: 1,基本概念 1、什么是互联网? 互联网是由网络设备(网线,路由器,交换机,防火墙等等)和一台台计算机连接而成,像一张网一样。 2、互联网建立的目的? 互联网的核心价值在于数据的共享/传递:数据是存放于一台台计算机上的,而将计算机互联到一起的目的就是为了能够方便彼此之间的数据共享/传递,否则你只能拿 阅读全文
posted @ 2019-02-27 17:34 sado 阅读(259) 评论(0) 推荐(0) 编辑