随笔档案「2021年5月19日」：爬虫：多进程爬虫 ... - thoustree

2021年5月19日

摘要：本文测试代码要利用到上一篇文章爬取到的数据，上一章链接：爬虫：获取动态加载数据（selenium）（某站），本文要爬取的内容是某乎提问上面的话题关键字 1. 多进程语法 1.1 语法1 import multiprocessing import time def func(x): print(x* 阅读全文

posted @ 2021-05-19 22:58 thoustree 阅读(197) 评论(0) 推荐(0)

爬虫：获取动态加载数据（selenium）（某站）

摘要：如果网站数据是动态加载，需要不停往下拉进度条才能显示数据，用selenium模拟浏览器下拉进度条可以实现动态数据的抓取。本文希望找到某乎某话题下讨论较多的问题，以此再寻找每一问题涉及的话题关键词（侵删）。下面代码采用driver.execute_script("window.scrollTo(0 阅读全文

posted @ 2021-05-19 22:01 thoustree 阅读(820) 评论(0) 推荐(0)

爬虫：将数据存储到文件及数据库（某乎及某吧）

摘要：注：本文代码中的cookie都需要替换为读者自己的cookie 1. 将数据导出到文本文档 1.1 测试代码 import requests from bs4 import BeautifulSoup from requests.exceptions import RequestException 阅读全文

posted @ 2021-05-19 16:52 thoustree 阅读(558) 评论(2) 推荐(0)

爬虫：HTTP请求与HTML解析（爬取某乎网站）

摘要： 1. 发送web请求 1.1 requests 用requests库的get()方法发送get请求，常常会添加请求头"user-agent"，以及登录"cookie"等参数 1.1.1 user-agent 登录网站，将"user-agent"值复制到文本文件 1.1.2 cookie 登录网站，将阅读全文

posted @ 2021-05-19 00:04 thoustree 阅读(810) 评论(0) 推荐(0)

tree1000

公告