爬虫 - 随笔分类 - thoustree

爬虫：读取数据库数据并处理数据

摘要：测试代码要利用到上一篇文章爬取到的数据，上一章链接：爬虫：多进程爬虫，本文要分析上一篇文章爬取到的数据库中的数据，结果分别是与男性/女性话题相关联的话题。 1. 遍历mongodb数据语法 1.1 测试代码 from pymongo import MongoClient client = Mon 阅读全文

posted @ 2021-05-20 13:52 thoustree 阅读(685) 评论(0) 推荐(0)

爬虫：多进程爬虫

摘要：本文测试代码要利用到上一篇文章爬取到的数据，上一章链接：爬虫：获取动态加载数据（selenium）（某站），本文要爬取的内容是某乎提问上面的话题关键字 1. 多进程语法 1.1 语法1 import multiprocessing import time def func(x): print(x* 阅读全文

posted @ 2021-05-19 22:58 thoustree 阅读(197) 评论(0) 推荐(0)

爬虫：获取动态加载数据（selenium）（某站）

摘要：如果网站数据是动态加载，需要不停往下拉进度条才能显示数据，用selenium模拟浏览器下拉进度条可以实现动态数据的抓取。本文希望找到某乎某话题下讨论较多的问题，以此再寻找每一问题涉及的话题关键词（侵删）。下面代码采用driver.execute_script("window.scrollTo(0 阅读全文

posted @ 2021-05-19 22:01 thoustree 阅读(820) 评论(0) 推荐(0)

爬虫：将数据存储到文件及数据库（某乎及某吧）

摘要：注：本文代码中的cookie都需要替换为读者自己的cookie 1. 将数据导出到文本文档 1.1 测试代码 import requests from bs4 import BeautifulSoup from requests.exceptions import RequestException 阅读全文

posted @ 2021-05-19 16:52 thoustree 阅读(559) 评论(2) 推荐(0)

爬虫：HTTP请求与HTML解析（爬取某乎网站）

摘要：1. 发送web请求 1.1 requests 用requests库的get()方法发送get请求，常常会添加请求头"user-agent"，以及登录"cookie"等参数 1.1.1 user-agent 登录网站，将"user-agent"值复制到文本文件 1.1.2 cookie 登录网站，将阅读全文

posted @ 2021-05-19 00:04 thoustree 阅读(810) 评论(0) 推荐(0)

tree1000

随笔分类 - 爬虫

公告