摘要:
Splash是一个JavaScript渲染服务,是一个带有HTTP API的轻量级浏览器,同时它对接了Python中的Twisted和QT库。利用它,我们同样可以实现动态渲染页面的抓取。 1. 功能介绍和基本实例 ### Splash的使用 ''' Splash是一个JavaScript渲染服务,是 阅读全文
摘要:
Selenium是一个用于Web应用程序测试的工具。Selenium测试直接运行在浏览器中,就像真正的用户在操作一样,可以用其进行网页动态渲染页面的爬取。 支持的浏览器包括IE(7, 8, 9, 10, 11),Mozilla Firefox,Safari,Google Chrome,Opera等。 阅读全文
摘要:
Ajax 即“Asynchronous Javascript And XML”(异步 JavaScript 和 XML),是指一种创建交互式、快速动态网页应用的网页开发技术,无需重新加载整个网页的情况下,能够更新部分网页的技术。 通过在后台与服务器进行少量数据交换,Ajax 可以使网页实现异步更新。 阅读全文
摘要:
本文内容介绍python和如下数据存储交互的基本使用: 文件存储:TXT、JSON、CSV 关系型数据库:Mysql(pymysql模块) 非关系型数据库:MongoDB(pymongo模块)、Redis(redis模块) 1. 文本存储;简单实例,爬取知乎话题、答者和回答内容保存到txt文件中 # 阅读全文
摘要:
1. Xpath解析库 2. BeautifulSoup解析库 3. PyQuery解析库 阅读全文
摘要:
### pyquery的介绍和使用 ## 测试文本 text = ''' <html><head><title>there is money</title></head> <body> <p class="title" name="dmr"><b>there is money</b>contents 阅读全文
摘要:
### BeautifulSoup解析库的介绍和使用 ### 三大选择器:节点选择器,方法选择器,CSS选择器 ### 使用建议:方法选择器 > CSS选择器 > 节点选择器 ## 测试文本 text = ''' <html><head><title>there is money</title></ 阅读全文
摘要:
### Xpath常用规则 ## nodename 选取此节点的所有子节点 ## / 从当前节点选取直接子节点 ## // 从当前节点选取子孙节点 ## . 选取当前节点 ## .. 选取当前节点的父节点 ## @ 选取属性 ### 测试文本 text = ''' <ul id="dmr" name 阅读全文
摘要:
1. 常用的匹配规则 ### 常用的匹配规则 # \w 匹配字母、数字及下划线 # \W 匹配不是字母、数字及下划线的字符 # \s 匹配任意空白字符,等价于[\t\n\t\f] # \S 匹配任意非空字符 # \d 匹配数字,等价于[0-9] # \D 匹配任意非数字的字符 # \A 匹配字符串开 阅读全文
摘要:
1. 简单获取一个页面信息 1 import requests 2 3 # requests可以通过requests的get、post、put等方法进行请求调用 4 r = requests.get('https://www.baidu.com/') 5 print(r) 6 print(type( 阅读全文