摘要: 本文测试代码要利用到上一篇文章爬取到的数据,上一章链接:爬虫:获取动态加载数据(selenium)(某站) ,本文要爬取的内容是某乎提问上面的话题关键字 1. 多进程语法 1.1 语法1 import multiprocessing import time def func(x): print(x* 阅读全文
posted @ 2021-05-19 22:58 thoustree 阅读(161) 评论(0) 推荐(0) 编辑
摘要: 如果网站数据是动态加载,需要不停往下拉进度条才能显示数据,用selenium模拟浏览器下拉进度条可以实现动态数据的抓取。 本文希望找到某乎某话题下讨论较多的问题,以此再寻找每一问题涉及的话题关键词(侵删)。 下面代码采用driver.execute_script("window.scrollTo(0 阅读全文
posted @ 2021-05-19 22:01 thoustree 阅读(730) 评论(0) 推荐(0) 编辑
摘要: 注:本文代码中的cookie都需要替换为读者自己的cookie 1. 将数据导出到文本文档 1.1 测试代码 import requests from bs4 import BeautifulSoup from requests.exceptions import RequestException 阅读全文
posted @ 2021-05-19 16:52 thoustree 阅读(503) 评论(2) 推荐(0) 编辑
摘要: 1. 发送web请求 1.1 requests 用requests库的get()方法发送get请求,常常会添加请求头"user-agent",以及登录"cookie"等参数 1.1.1 user-agent 登录网站,将"user-agent"值复制到文本文件 1.1.2 cookie 登录网站,将 阅读全文
posted @ 2021-05-19 00:04 thoustree 阅读(737) 评论(0) 推荐(0) 编辑
返回顶部